全模态AI重磅登场:阿里云发布Qwen3-Omni
在人工智能发展日新月异的今天,阿里云正式推出全球首个原生端到端全模态AI模型——Qwen3-Omni,这标志着AI系统首次实现了对文本、图像、音频与视频的统一理解和生成。更令人振奋的是,这款革命性模型现已全面开源,为全球开发者和研究者敞开大门。
多模态能力全面突破
Qwen3-Omni并非简单的多模态堆砌,而是通过早期以文本为核心进行预训练,再结合混合多模态训练,真正实现了多模态间的深度融合。其在音频与视频处理方面表现尤为突出,在文本与图像任务上也保持了高水准。
在36项音频与视频基准测试中,Qwen3-Omni在22项中取得最新领先成绩,尤其是在自动语音识别与音频理解等关键领域,其表现已与行业顶尖模型Gemini 2.5 Pro并驾齐驱。
真正的全球化AI模型
为满足全球用户的需求,Qwen3-Omni支持:
- 119种文本语言输入
- 19种语音语言识别
- 10种语音语言合成输出,涵盖英语、中文、法语、德语等主流语言
这使其具备了前所未有的跨语言服务能力,无论你是用文字还是语音,都能获得流畅自然的交互体验。
创新架构带来极致体验
Qwen3-Omni采用MoE(专家混合)架构,结合AuT预训练机制,赋予模型强大的通用表征能力。更值得一提的是其多码本设计,可实现低延迟的实时音频与视频交互,让自然对话如行云流水般顺畅。
配套工具同步升级
阿里云此次还发布了多款配套模型:
- Qwen3-TTS:新一代文本转语音模型,提供17种音色选择,在语音稳定性和音色相似度上表现优异
- Qwen-Image-Edit-2509:专注于图像编辑的新工具,支持多图像拼接编辑,极大提升编辑一致性与视觉效果,满足复杂场景下的创作需求
开源链接
- GitHub: Qwen3-Omni
- HuggingFace: Qwen3-Omni
🌟 Qwen3-Omni 是全球首个原生端到端全模态AI模型,实现文本、图像、音频与视频统一处理
🌐 支持119种文本语言和19种语音输入,满足全球化、多语言服务需求
🖼️ Qwen-Image-Edit-2509 首次支持多图像拼接编辑,显著提升图像编辑一致性与效果