三秒“偷”走你的声音？阿里Qwen发布革命性语音克隆AI

文本变声音，AI进入“声临其境”时代

人工智能正在重新定义我们对声音的理解。近日，阿里巴巴通义实验室旗下的 Qwen 团队推出两款全新语音生成模型——Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash，不仅能让文字“开口说话”，还能在短短三秒内精准克隆任何人的声音，掀起新一轮语音合成技术浪潮。

这不再只是简单的“朗读”，而是真正意义上的“声音创造”。

用文字“画”出你想要的声音

其中，Qwen3-TTS-VD-Flash 模型主打“从描述生成声音”。你不需要提供任何音频样本，只需用文字精准描述你想要的音色和语气，AI就能为你生成对应的声音。

比如，你可以输入：“一个中年男性，洪亮的男中音，充满活力的广告解说风格，语速较快，音调起伏夸张，极具销售感染力。” 系统便会自动生成符合这一形象的语音输出。

这种能力让内容创作者、广告公司、影视配音等行业迎来前所未有的自由度——无需再依赖真人配音演员，也能快速产出风格多样的语音内容。据官方称，该模型在自然度和可控性上已超越 OpenAI 最近推出的 GPT-4o mini-tts API。

三秒录音，复制全球十种语言的“你”

如果说 VD-Flash 是“声音画家”，那 Qwen3-TTS-VC-Flash 就是“声音复印机”。

这款模型仅需三秒钟的音频片段，即可完成对目标声音的高保真克隆，并支持在中文、英文、日文、法语、西班牙语等十种语言中复现该音色。这意味着，一段中文录音可以被转化为由“你的声音”说出的日语或德语句子。

更关键的是，阿里声称该模型在语音识别和合成的错误率方面优于当前主流竞品，如 ElevenLabs 和 MiniMax，尤其在处理复杂文本、专业术语甚至拟声词时表现更为稳定。

它不仅能模仿人声，还能模拟动物叫声、环境音效，甚至从嘈杂录音中提取清晰声纹，展现出极强的泛化能力。

开放API+免费试用，开发者可快速接入

目前，这两款模型均已通过 阿里云API 对外开放，企业与开发者可轻松集成到自己的应用中。同时，用户也可在开源平台 Hugging Face 上体验模型的在线演示版本，亲自尝试声音设计与克隆功能。

随着语音生成技术门槛的不断降低，个性化语音助手、跨语言播客制作、虚拟偶像配音等应用场景将迎来爆发式增长。而阿里Qwen此次发布的双模型组合，无疑为这场“声音革命”按下了加速键。

未来，也许你听到的一段广告、一集有声书，甚至是一条语音消息，都不是“人”说的——但你根本听不出来。

三秒“偷”走你的声音？阿里Qwen发布革命性语音克隆AI

文本变声音，AI进入“声临其境”时代

用文字“画”出你想要的声音

三秒录音，复制全球十种语言的“你”

开放API+免费试用，开发者可快速接入

AI 安全新星 Irregular 获 8000 万美元融资，打造 AI 模型风险“预警系统”

小红书悄悄上线“语音问一问”：你的问题，由1亿真实用户经验+AI一起回答

国内首个药学大模型来了！AI如何守护老人、儿童和孕妈的用药安全？

AI安全新星崛起：Irregular融资8000万美元，打造AI风险“预测引擎”

Qwen3-Max震撼发布：万亿参数AI模型引领编程与思维新纪元

AI不再只是助手，它开始替你思考：Google Trends全新升级，用Gemini解锁数据洞察新维度

文本变声音，AI进入“声临其境”时代

用文字“画”出你想要的声音

三秒录音，复制全球十种语言的“你”

开放API+免费试用，开发者可快速接入

类似文章