【MOSS-TTS】开源语音生成全家桶:一个模型搞定文本转语音、对话、音效与实时交互
项目概览
MOSS‑TTS Family 是一套由 MOSI.AI 和 OpenMOSS 团队推出的开源语音与声音生成模型家族,旨在解决单一文本转语音模型在复杂场景中表现力不足、稳定性差、不支持多说话人对话、缺乏音效生成等问题。它将完整的语音生产流程拆解为五个相互独立的模型——旗舰 TTS、对话生成、声音设计、实时语音代理和音效生成——既可以单独使用,也可以组合成完整的生产管线。
核心功能与特性
- MOSS‑TTS(旗舰型号):支持零样本语音克隆、长篇语音生成、拼音/音素/时长细粒度控制,以及多语言/混合语言合成。
- MOSS‑TTSD(口语对话生成):专为表达性强、多说话人的超长对话设计,在客观指标上达到行业领先水平,主观评测中超越部分顶级闭源模型。
- MOSS‑VoiceGenerator(声音设计):仅凭文本提示即可生成多样化的声音和风格,无需任何参考音频,支持作为设计层与下游 TTS 联动。
- MOSS‑TTS‑Realtime(实时语音代理):上下文感知的多轮合成模型,首包延迟(TTFB)仅 180 毫秒,适合构建低延迟语音助手。
- MOSS‑SoundEffect(音效生成):支持自然环境、城市、生物、人物动作及音乐片段等广泛类别的音效生成,可控时长。
- 多语言支持:MOSS‑TTS‑v1.5 支持 31 种语言,包括中文、英文、日语、阿拉伯语及新增的粤语、荷兰语、泰语等。
- 版本更新亮点:v1.5 提升了多语言合成稳定性、语音克隆相似度、长参考短文本克隆效果,并支持显式停顿控制(
[pause X.Ys])。 - 灵活的部署路径:不仅支持标准 PyTorch 推理,还提供基于 llama.cpp + ONNX Runtime 的无 PyTorch 轻量部署,以及 SGLang 后端加速(推理吞吐量提升约 3 倍)。
快速上手
项目推荐使用 Conda 或 uv 创建隔离环境,并依赖 Transformers 5.0.0。以下是基本环境搭建与运行示例:
# 使用 Conda
conda create -n moss-tts python=3.12 -y
conda activate moss-tts
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"
安装完成后,可以用几行 Python 代码快速体验文本转语音(以 MOSS‑TTS‑v1.5 为例):
from transformers import AutoModel, AutoProcessor
import torch, torchaudio
torch.backends.cuda.enable_cudnn_sdp(False)
processor = AutoProcessor.from_pretrained("OpenMOSS-Team/MOSS-TTS-v1.5", trust_remote_code=True)
model = AutoModel.from_pretrained("OpenMOSS-Team/MOSS-TTS-v1.5", trust_remote_code=True, torch_dtype=torch.bfloat16).to("cuda")
text = "Hello, welcome to the world of MOSS-TTS."
conversation = [processor.build_user_message(text=text)]
batch = processor(conversation, mode="generation")
outputs = model.generate(input_ids=batch["input_ids"].to("cuda"), max_new_tokens=1024)
audio = processor.decode(outputs)[0].audio_codes_list[0]
torchaudio.save("output.wav", audio.unsqueeze(0), processor.model_config.sampling_rate)
若需更多功能(语音克隆、时长控制、多语言标签等),请参考项目文档中的详细示例。
适用场景与目标用户
- 语音合成开发者:需要高保真、高表现力的零样本克隆,以及多语言、混合语言能力的开发者。
- 内容创作者:制作有声书、播客、视频配音或游戏角色语音,可灵活组合 TTS、对话生成和音效。
- AI 语音助手构建者:MOSS‑TTS‑Realtime 的低延迟特性非常适合构建实时交互的语音代理(voice agent)。
- 影视与游戏音频设计:MOSS‑SoundEffect 提供丰富的环境音效生成能力,且支持可控时长。
- 研究与教育:模型架构(Delay/Local/Realtime)开源,提供了微调教程,适合学术研究或教学实验。
总结
MOSS‑TTS Family 是一个功能极为全面的开源语音生成项目,它不满足于做一个单纯的 TTS 模型,而是将语音生产的各个关键环节——合成、对话、声音设计、实时流式、音效——分别用专业化模型覆盖,同时保持统一的技术底座。项目提供了完整的微调指南和多样化的部署方案(PyTorch、llama.cpp、SGLang),兼顾了研究友好性和生产可用性。对于追求高质量、多场景覆盖的语音应用开发者来说,这是一套值得认真评估的工具集。
