在跨语言交流日益频繁的今天,通义千问于9月30日重磅发布新一代多语言实时音视频翻译系统——Qwen3-LiveTranslate-Flash。这款基于大语言模型打造的翻译系统,不仅实现了最低3秒的同声传译延迟,还在翻译准确性和多模态理解方面树立了新标杆。
多语言+多方言,覆盖全面
Qwen3-LiveTranslate-Flash支持18种语言的实时与离线翻译,涵盖中文、英语、法语、德语、俄语、西班牙语等主流语言,甚至包括普通话、粤语、吴语、北京话等多种中文方言。无论是国际会议、跨国合作,还是日常交流,它都能提供全方位的语言支持。
视觉上下文增强,翻译更“聪明”
该系统的最大亮点在于引入了视觉上下文增强技术。不同于传统翻译系统仅依赖语音识别,Qwen3-LiveTranslate-Flash还能通过识别说话者的口型、动作、文字和实体等多模态信息,更精准地理解语言环境。这一技术显著提升了在嘈杂环境和复杂语境下的翻译准确率,有效解决了“一词多义”等长期困扰翻译系统的难题。
超低延迟,流畅如面对面交流
为实现更自然的实时交流体验,Qwen3-LiveTranslate-Flash采用了轻量混合专家架构与动态采样策略,将同传延迟压缩至最低仅3秒。同时,借助语义单元预测技术,系统还能有效缓解翻译中的语序错位问题,使实时翻译的输出质量接近于离线翻译。
性能领先,实测数据亮眼
根据官方公布的测试数据,Qwen3-LiveTranslate-Flash在中英及多语言翻译准确率上全面超越Gemini-2.5-Flash、GPT-4o-Audio-Preview和Voxtral Small-24B等当前主流模型,在多个行业场景和复杂声学环境下均表现出色。
自然语音合成,拟人化表达
在语音合成方面,Qwen3-LiveTranslate-Flash基于海量语音数据训练,能够根据原始语音内容自动调整语气和表现力,生成自然、富有情感的语音输出,极大提升了用户体验的真实感和沉浸感。
通义千问表示,未来将持续优化翻译质量与语音自然度,进一步扩展支持语种,并提升系统在复杂语音环境下的鲁棒性,推动全球无障碍交流迈向新高度。