AI界迎来全模态新纪元：Qwen3-Omni开启多模交互新时代

全模态AI重磅登场：阿里云发布Qwen3-Omni

在人工智能发展日新月异的今天，阿里云正式推出全球首个原生端到端全模态AI模型——Qwen3-Omni，这标志着AI系统首次实现了对文本、图像、音频与视频的统一理解和生成。更令人振奋的是，这款革命性模型现已全面开源，为全球开发者和研究者敞开大门。

Qwen3-Omni并非简单的多模态堆砌，而是通过早期以文本为核心进行预训练，再结合混合多模态训练，真正实现了多模态间的深度融合。其在音频与视频处理方面表现尤为突出，在文本与图像任务上也保持了高水准。

在36项音频与视频基准测试中，Qwen3-Omni在22项中取得最新领先成绩，尤其是在自动语音识别与音频理解等关键领域，其表现已与行业顶尖模型Gemini 2.5 Pro并驾齐驱。

为满足全球用户的需求，Qwen3-Omni支持：

这使其具备了前所未有的跨语言服务能力，无论你是用文字还是语音，都能获得流畅自然的交互体验。

Qwen3-Omni采用MoE（专家混合）架构，结合AuT预训练机制，赋予模型强大的通用表征能力。更值得一提的是其多码本设计，可实现低延迟的实时音频与视频交互，让自然对话如行云流水般顺畅。

阿里云此次还发布了多款配套模型：

🌟 Qwen3-Omni 是全球首个原生端到端全模态AI模型，实现文本、图像、音频与视频统一处理
🌐 支持119种文本语言和19种语音输入，满足全球化、多语言服务需求
🖼️ Qwen-Image-Edit-2509 首次支持多图像拼接编辑，显著提升图像编辑一致性与效果