国内首个端到端语音大模型来了!MOSS-Speech让AI对话“开口即达”


打破传统语音交互模式,MOSS-Speech横空出世

你是否厌倦了AI语音助手“听不懂、回得慢、说不自然”的尴尬?复旦大学MOSS团队刚刚扔下一颗重磅炸弹——MOSS-Speech,国内首个真正实现端到端语音到语音对话的大模型正式开源!

这意味着,AI不再需要“听语音→转文字→理解→生成文字→转语音”这一套繁琐流程。MOSS-Speech可以直接“听”你说话,理解语义,然后张口“说”出回应,整个过程一气呵成,无需文本中介。

创新架构:冻结大模型,加装“语音外挂”

MOSS-Speech的核心秘密在于其独特的“层拆分”设计。团队没有从头训练一个庞大的语音模型,而是聪明地冻结了原有的MOSS文本大模型参数,在此基础上新增了三层语音专用模块:

  • 语音理解层:负责精准捕捉语音中的语义信息
  • 语义对齐层:确保语音输入与大模型理解无缝衔接
  • 神经声码器层:生成自然、富有表现力的语音输出

这种“外挂式”架构不仅大幅降低训练成本,还保留了原大模型强大的语言能力,真正做到了“听得懂、答得准、说得像”。

性能炸裂:中文语音交互新标杆

实测数据令人惊艳:

  • ZeroSpeech 2025无文本语音任务中,词错误率(WER)低至4.1%
  • 情感识别准确率高达91.2%,能精准捕捉说话人情绪
  • 中文口语生成的主观评分(MOS)达到4.6分(满分5分),几乎媲美真人录音的4.8分

更关键的是,这些表现已全面超越Meta的SpeechGPT和Google的AudioLM,标志着中国在语音大模型领域迈出了关键一步。

轻重双版本,实时推理不是梦

为了适配不同场景,MOSS-Speech提供了两个版本:

  • 16kHz轻量版:可在单张RTX 4090上实现<300ms的低延迟推理,完全满足实时对话需求,未来有望部署到移动端
  • 48kHz超采样版:音质更细腻,适合高保真语音生成场景

无论是本地开发还是产品集成,开发者都能找到合适的选择。

即将支持语音“调音台”?MOSS-Speech-Ctrl预告登场

更令人期待的是,团队已预告将在2026年第一季度开源MOSS-Speech-Ctrl版本。届时,用户将能通过语音指令直接调节输出语音的语速、音色、情感强度,就像拥有一个AI语音“调音台”,实现高度个性化的语音交互。

开源开放,支持商用与私有化部署

目前,MOSS-Speech已在Hugging Face上线体验Demo,代码与模型权重全部开源,并支持商业使用。开发者可通过GitHub获取完整的训练与微调脚本,甚至可以在本地完成私有声音克隆角色语音定制,为智能客服、虚拟主播、游戏NPC等场景提供强大支持。

这不仅是一次技术突破,更是一次生态开放。MOSS-Speech的出现,或许正预示着下一代语音交互时代的到来——从此,AI不再“读稿”,而是真正“对话”