【fish-speech】用自然语言“说话”——一个能听懂“[笑]”“[耳语]”的开源语音合成新标杆
Fish Speech(即 Fish Audio S2)是一个面向多语言、高表现力场景的开源文本到语音(TTS)系统,它解决了传统 TTS 工具难以灵活表达语气、情绪和说话风格的问题,让机器语音真正具备“人话感”。
主要特性
- ✅ 自然语言级细粒度控制:直接在文本中插入
[laugh]、[whispers]、[super happy]或更自由的描述(如[whisper in small voice]),实现词级别的情感与韵律调控。 - ✅ 双自回归(Dual-Autoregressive)架构:兼顾语音语义主干与声学细节重建,4B 参数主干模型 + 400M 参数残差分支,在保真度与推理效率间取得平衡。
- ✅ 强化学习对齐(GRPO):通过语义准确率、指令遵循度、音质偏好、音色相似性等多维奖励信号优化生成质量。
- ✅ 开箱即用的流式服务支持:原生兼容 SGLang 推理框架,单张 H200 GPU 即可实现 RTF 0.195(约 5 倍实时)、首音频延迟约 100ms 的生产级低延迟响应。
- ✅ 零样本多语言合成:无需音素转换或语言标识符,直接输入原文即可生成高质量中文、英文、日语、韩语、阿拉伯语、德语、法语等 24+ 种语言语音。
- ✅ 原生多说话人 & 多轮对话生成:支持上传含多个说话人的参考音频,用特殊 token 区分角色;上下文感知能力增强连续多句生成的自然度。
- ✅ 快速语音克隆:仅需 10–30 秒参考音频,即可复现目标音色、语调与情绪倾向,无需微调。
快速上手
项目未在 README 中提供本地安装命令或 CLI 示例代码,所有部署方式(包括命令行推理、WebUI、服务端 API、Docker)均需参考其官方文档:
🔗 Installation
🔗 Command Line Inference
请参考官方文档进行安装。
适用场景与目标用户
适合需要高表现力、多语言、低延迟语音输出的技术场景,例如:
– AI 助手、虚拟主播、有声书/播客自动化生成;
– 多角色对话系统(如教育陪练、游戏 NPC、客服模拟);
– 本地化内容创作团队(需快速产出多语种配音);
– 研究者与开发者希望基于先进 TTS 模型构建定制化语音应用。
目标用户包括语音算法工程师、AI 应用开发者、内容创作者及关注前沿开源语音技术的实践者。
总结
Fish Audio S2 不只是一个“更好听”的 TTS 模型,它把语音控制从“参数调节”推进到了“自然语言交互”阶段,大幅降低了高质量语音内容的创作门槛。其扎实的多语言能力、原生流式支持与开箱即用的语音克隆,已展现出接近工业级产品的成熟度。对于追求真实感与灵活性的语音项目,它无疑是当前最值得关注的开源选择之一,建议访问其主页获取更详细信息。
