Manzano 来了！苹果新图像模型挑战 GPT-4o 与 Gemini，兼顾理解与生成

苹果悄悄发力，推出全能图像模型 Manzano

科技巨头苹果最近在 AI 图像处理领域投下一颗重磅炸弹——他们发布了一项名为 Manzano 的全新图像模型研究成果。与当前大多数模型不同，Manzano 同时具备图像理解与图像生成的能力，这在当前的开源模型中仍是一个难以突破的技术瓶颈。

虽然苹果尚未公开发布或演示 Manzano，但他们已经通过一篇论文和部分低分辨率图像样本展示了其潜力。测试结果显示，Manzano 在多个复杂提示任务中，表现可与 OpenAI 的 GPT-4o 和谷歌的 Nano Banana（Gemini 2.5 Flash 图像生成版本）相媲美。

目前市面上的图像模型通常只能在“理解”和“生成”之间二选一。尤其在处理文本密集型任务（如解读图表、识别文件内容）时，很多模型力不从心。

而 Manzano 的核心创新在于其混合图像标记器（hybrid image tokenizer）。它可以从同一编码器中同时输出两种类型的标记：

这种设计不仅提升了模型的效率，还有效减少了传统模型中常见的理解与生成之间的冲突。

Manzano 的整体架构由三部分组成：

在训练阶段，Manzano 使用连续和离散适配器来调整语言模型的解码器，推理时则提供两个数据流以支持理解和生成。

苹果还构建了三种不同规模的图像解码器，分别拥有 0.9亿、1.75亿和3.52亿参数，支持从 256 到 2048 像素的图像输出。

根据苹果的研究，Manzano 在多个图像任务中表现优异，特别是在处理图表、文档扫描等文本密集型内容方面，30亿参数版本得分尤为突出。研究还表明，随着参数量从 3亿增加到30亿，模型性能持续提升。

除了传统的图像编辑任务，Manzano 还能胜任：

这些能力使其成为当前图像模型中功能最全面的候选者之一。

苹果的研究团队在论文中强调，Manzano 的模块化架构不仅提升了图像处理的效率，也为未来多模态 AI 的发展提供了新的思路。这种“理解+生成”一体化的能力，可能成为推动 AI 在图像编辑、内容创作、文档处理等领域深入应用的关键技术。

🔗 论文链接
📌 关键亮点回顾：
– 🌟 Manzano 可同时进行图像理解和生成
– 🔍 在文本密集型任务中接近商业模型水平
– ⚙️ 混合标记器设计减少理解与生成冲突