3秒延迟刷新纪录！通义千问推出全新实时翻译系统Qwen3-LiveTranslate-Flash

在跨语言交流日益频繁的今天，通义千问于9月30日重磅发布新一代多语言实时音视频翻译系统——Qwen3-LiveTranslate-Flash。这款基于大语言模型打造的翻译系统，不仅实现了最低3秒的同声传译延迟，还在翻译准确性和多模态理解方面树立了新标杆。

多语言+多方言，覆盖全面

Qwen3-LiveTranslate-Flash支持18种语言的实时与离线翻译，涵盖中文、英语、法语、德语、俄语、西班牙语等主流语言，甚至包括普通话、粤语、吴语、北京话等多种中文方言。无论是国际会议、跨国合作，还是日常交流，它都能提供全方位的语言支持。

视觉上下文增强，翻译更“聪明”

该系统的最大亮点在于引入了视觉上下文增强技术。不同于传统翻译系统仅依赖语音识别，Qwen3-LiveTranslate-Flash还能通过识别说话者的口型、动作、文字和实体等多模态信息，更精准地理解语言环境。这一技术显著提升了在嘈杂环境和复杂语境下的翻译准确率，有效解决了“一词多义”等长期困扰翻译系统的难题。

超低延迟，流畅如面对面交流

为实现更自然的实时交流体验，Qwen3-LiveTranslate-Flash采用了轻量混合专家架构与动态采样策略，将同传延迟压缩至最低仅3秒。同时，借助语义单元预测技术，系统还能有效缓解翻译中的语序错位问题，使实时翻译的输出质量接近于离线翻译。

性能领先，实测数据亮眼

根据官方公布的测试数据，Qwen3-LiveTranslate-Flash在中英及多语言翻译准确率上全面超越Gemini-2.5-Flash、GPT-4o-Audio-Preview和Voxtral Small-24B等当前主流模型，在多个行业场景和复杂声学环境下均表现出色。

自然语音合成，拟人化表达

在语音合成方面，Qwen3-LiveTranslate-Flash基于海量语音数据训练，能够根据原始语音内容自动调整语气和表现力，生成自然、富有情感的语音输出，极大提升了用户体验的真实感和沉浸感。

通义千问表示，未来将持续优化翻译质量与语音自然度，进一步扩展支持语种，并提升系统在复杂语音环境下的鲁棒性，推动全球无障碍交流迈向新高度。

3秒延迟刷新纪录！通义千问推出全新实时翻译系统Qwen3-LiveTranslate-Flash

多语言+多方言，覆盖全面

视觉上下文增强，翻译更“聪明”

超低延迟，流畅如面对面交流

性能领先，实测数据亮眼

自然语音合成，拟人化表达

更多文章

三大阻碍企业AI落地的关键障碍

AI让照片“活”了！豆包上线Seedance 1.5 Pro，一键生成会说话的有声视频

Claude 进化成“AI 执行官”？新任务模式曝光，能提问、会规划、自动干活！

中国首个国标认证VLA大模型开源！人形机器人“真能干活”了？