国内首个端到端语音大模型来了！MOSS-Speech让AI对话“开口即达”

打破传统语音交互模式，MOSS-Speech横空出世

你是否厌倦了AI语音助手“听不懂、回得慢、说不自然”的尴尬？复旦大学MOSS团队刚刚扔下一颗重磅炸弹——MOSS-Speech，国内首个真正实现端到端语音到语音对话的大模型正式开源！

这意味着，AI不再需要“听语音→转文字→理解→生成文字→转语音”这一套繁琐流程。MOSS-Speech可以直接“听”你说话，理解语义，然后张口“说”出回应，整个过程一气呵成，无需文本中介。

MOSS-Speech的核心秘密在于其独特的“层拆分”设计。团队没有从头训练一个庞大的语音模型，而是聪明地冻结了原有的MOSS文本大模型参数，在此基础上新增了三层语音专用模块：

这种“外挂式”架构不仅大幅降低训练成本，还保留了原大模型强大的语言能力，真正做到了“听得懂、答得准、说得像”。

实测数据令人惊艳：

更关键的是，这些表现已全面超越Meta的SpeechGPT和Google的AudioLM，标志着中国在语音大模型领域迈出了关键一步。

为了适配不同场景，MOSS-Speech提供了两个版本：

无论是本地开发还是产品集成，开发者都能找到合适的选择。

更令人期待的是，团队已预告将在2026年第一季度开源MOSS-Speech-Ctrl版本。届时，用户将能通过语音指令直接调节输出语音的语速、音色、情感强度，就像拥有一个AI语音“调音台”，实现高度个性化的语音交互。

目前，MOSS-Speech已在Hugging Face上线体验Demo，代码与模型权重全部开源，并支持商业使用。开发者可通过GitHub获取完整的训练与微调脚本，甚至可以在本地完成私有声音克隆和角色语音定制，为智能客服、虚拟主播、游戏NPC等场景提供强大支持。

这不仅是一次技术突破，更是一次生态开放。MOSS-Speech的出现，或许正预示着下一代语音交互时代的到来——从此，AI不再“读稿”，而是真正“对话”。