【supertonic】无需联网即可实时生成高品质语音的轻量级开源方案

该项目是一款专为本地推理设计的高速多语言文本转语音(TTS)系统,旨在解决传统语音合成高度依赖云端网络、存在延迟与数据隐私风险的问题。通过全量本地化运行,它让用户在零网络依赖的前提下,依然能获得低延迟、高保真的语音合成体验。

核心功能与特性

  • 极致轻量级模型:仅包含约 9900 万参数,模型体积远小于同类开源方案,带来更小的下载量、更快的冷启动速度与更低的内存占用。
  • 全平台离线部署:完全基于 ONNX Runtime 构建,支持桌面端、移动端、浏览器及树莓派、电子阅读器等边缘硬件,全程无需 GPU 且无任何云端 API 调用。
  • 31 种语言原生支持:覆盖英语、中文、日语、韩语等主流语言,同时提供 lang="na" 语言无关模式,自动处理未知语种的文本输入。
  • 录音棚级音质输出:直接生成 44.1kHz、16-bit 的 WAV 格式音频,无需依赖外部升频或后处理即可投入生产环境使用。
  • 自然语调控制:内置 10 种行内情感标签,无需编写复杂提示词或提供参考音频,即可让合成语音具备更贴近真人的语气停顿与情绪起伏。
  • 复杂文本精准朗读:原生支持对包含货币符号(如 $5.2M)、电话号码(如含区号与分机号)及技术单位缩写的复杂段落进行自动标准化与准确发音。
  • 全生态开发支持:提供 Python、Node.js、WebGPU、Java、C++、C#、Go、Swift、iOS、Rust 及 Flutter 等主流编程语言的即用型 SDK 示例。

快速安装与使用

项目提供了极其简便的 Python 安装方式。在终端执行以下命令即可安装 SDK(首次运行时会自动下载模型文件):

pip install supertonic

以下是基础的 Python 调用示例,几行代码即可将文本转换为音频并保存:

from supertonic import TTS

# 初始化 TTS 引擎
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

# 执行合成
wav, duration = tts.synthesize(
    text="Supertonic is a lightning fast, on-device TTS system.",
    lang="en",                      # 语言代码,支持 "na" 自动识别
    voice_style=style,
    total_steps=8,                  # 音质等级:5(低) ~ 12(高)
    speed=1.05                      # 语速调节:0.7(慢) ~ 2.0(快)
)

# 保存音频文件
tts.save_audio(wav, "output.wav")
print(f"Generated {duration[0]:.2f}s of audio")

若需将其接入本地工作流、浏览器插件或自动化工具,项目还支持一键启动 HTTP 服务:

pip install 'supertonic[serve]'
supertonic serve --host 127.0.0.1 --port 7788

启动后,即可通过 POST /v1/tts 或兼容 OpenAI 的 /v1/audio/speech 接口进行调用,服务同时提供本地 API 文档页面。

适用场景与目标用户

  • 隐私敏感型应用开发者:适用于医疗、金融、企业内部知识库等严禁数据出境的场景,彻底规避第三方云端的数据泄露风险。
  • 边缘计算与 IoT 开发者:模型对算力要求极低,适合部署在树莓派、便携阅读器、车载设备等资源受限的硬件上。
  • 跨平台客户端开发者:丰富的多语言 SDK 与 WebGPU/WASM 浏览器端支持,便于快速集成到移动端 App、桌面软件或网页插件中。
  • 本地 AI 工作流构建者:可通过本地 HTTP 服务无缝对接各类自动化脚本、本地大模型 Agent 或离线翻译/阅读工具,实现无网络延迟的音频生成。

总结

作为一个完全开源、支持本地部署的 TTS 方案,该工具在模型体积、推理速度与音频质量之间取得了出色的平衡,大幅降低了语音合成技术的接入门槛。其开箱即用的多语言 SDK 与完善的离线运行能力,使其成为构建隐私优先、低延迟音频应用的理想基石。项目技术文档详尽且生态适配广泛,适合有本地化 AI 音频需求的开发者直接落地使用。

作加

类似文章