一句话生成语音?通义实验室双模型引爆“自由声控”新纪元
你有没有想过,只用一句话,就能让AI为你生成一段带情绪、有口音、还带着咖啡馆背景嘈杂声的泰语语音?不是选模板、不是调滑块——就是直接说:“请用带笑意的印尼语,模仿一位35岁女医生,在雨天窗边轻声解释高血压注意事项。”
这不是科幻预告,而是今天刚刚落地的现实。
通义实验室正式推出两款革命性语音大模型:Fun-CosyVoice3.5 和 Fun-AudioGen-VD。它们共同支撑起一个全新能力——FreeStyle 指令语音生成。简单说:告别预设标签、跳过繁琐参数,真正实现“所想即所得”的语音创作。
🎙️ Fun-CosyVoice3.5:不止像,更要“活”得像
如果说上一代语音克隆只是“形似”,那3.5版已迈向“神似”。它新增对泰语、印尼语、越南语、阿拉伯语四大语种的原生支持,覆盖超12亿母语人口。更关键的是,它用上了自研的 DiffRO(扩散强化优化)与 GRPO(梯度正则化策略优化) 技术——不是堆算力,而是让AI真正“理解”语气停顿、重音起伏和方言韵律。
效果立竿见影:
✅ 生僻字误读率从 15.2% 断崖式降至 5.3%;
✅ 首包响应延迟 缩短35%,接近实时对话体验;
✅ 多语种发音自然度提升40%以上(内部MOS测评均分达4.2+)。
它不再只是“复刻声音”,而是在复刻说话的人。
🎧 Fun-AudioGen-VD:给声音加导演、加布景、加剧本
如果说CosyVoice是“演员”,AudioGen-VD就是它的声音导演+拟音师+场景美术指导。它不生成人声,而是生成可编程的声音世界——通过纯文本指令,精准调控:
🔹 角色维度:性别、年龄感、性格特质(如“疲惫但克制的中年男律师”);
🔹 情绪曲线:从“开场平静→中途微怒→结尾无奈叹气”的动态演进;
🔹 空间声学:“地铁车厢回声”、“山洞混响”、“深夜书房纸张翻页声”……甚至能叠加多层环境音并控制相对强度。
举个例子:输入指令
“一位兴奋的泰国男生,在拥挤夜市里边走边介绍芒果糯米饭,背景有油锅滋滋声、远处摩托鸣笛、人群模糊笑语——所有声音需保持统一空间定位。”
AudioGen-VD 就能输出一段角色声+三层环境声+空间运动轨迹高度协同的音频,而非简单拼接。
🌐 为什么这次升级值得全行业关注?
过去,TTS(文本转语音)是工具链末端的“配音工”,而今天,通义双模型正在把它变成内容生产的前端创意引擎:
– 影视团队可用FreeStyle快速产出多版本配音试听,迭代周期从天级压缩到分钟级;
– 游戏开发者能为NPC实时生成符合情境的情绪语音,无需提前录制上千句;
– AI智能体终于可以“开口有性格”——不是千篇一律的温柔女声,而是根据用户情绪自动切换沉稳/幽默/关切的语态。
这不是语音技术的又一次迭代,而是一次范式迁移:从“机器朗读文字”,走向“人类描述意图,AI演绎表达”。
官方API与详细文档已全面开放,开发者可即刻接入体验(链接见文末)。当“一句话生成语音”不再是Demo,而是默认能力——我们和AI的对话,才真正开始有了温度、节奏与个性。
