作加

Manzano 来了!苹果新图像模型挑战 GPT-4o 与 Gemini,兼顾理解与生成


苹果悄悄发力,推出全能图像模型 Manzano

科技巨头苹果最近在 AI 图像处理领域投下一颗重磅炸弹——他们发布了一项名为 Manzano 的全新图像模型研究成果。与当前大多数模型不同,Manzano 同时具备图像理解图像生成的能力,这在当前的开源模型中仍是一个难以突破的技术瓶颈。

虽然苹果尚未公开发布或演示 Manzano,但他们已经通过一篇论文和部分低分辨率图像样本展示了其潜力。测试结果显示,Manzano 在多个复杂提示任务中,表现可与 OpenAI 的 GPT-4o 和谷歌的 Nano Banana(Gemini 2.5 Flash 图像生成版本)相媲美。

为什么 Manzano 值得关注?

目前市面上的图像模型通常只能在“理解”和“生成”之间二选一。尤其在处理文本密集型任务(如解读图表、识别文件内容)时,很多模型力不从心。

而 Manzano 的核心创新在于其混合图像标记器(hybrid image tokenizer)。它可以从同一编码器中同时输出两种类型的标记:

  • 连续标记:用浮点数表示图像细节,用于图像理解;
  • 离散标记:将图像划分为固定类别,用于图像生成。

这种设计不仅提升了模型的效率,还有效减少了传统模型中常见的理解与生成之间的冲突。

架构解析:模块化设计提升灵活性

Manzano 的整体架构由三部分组成:

  1. 混合图像标记器
  2. 统一语言模型
  3. 独立图像解码器

在训练阶段,Manzano 使用连续和离散适配器来调整语言模型的解码器,推理时则提供两个数据流以支持理解和生成。

苹果还构建了三种不同规模的图像解码器,分别拥有 0.9亿、1.75亿和3.52亿参数,支持从 256 到 2048 像素的图像输出。

性能表现:文本密集任务表现出色

根据苹果的研究,Manzano 在多个图像任务中表现优异,特别是在处理图表、文档扫描等文本密集型内容方面,30亿参数版本得分尤为突出。研究还表明,随着参数量从 3亿增加到30亿,模型性能持续提升。

除了传统的图像编辑任务,Manzano 还能胜任:

  • 提示驱动的图像修改
  • 风格迁移
  • 图像填充与扩展
  • 深度估计

这些能力使其成为当前图像模型中功能最全面的候选者之一。

未来影响:模块化设计或引领多模态 AI 新方向

苹果的研究团队在论文中强调,Manzano 的模块化架构不仅提升了图像处理的效率,也为未来多模态 AI 的发展提供了新的思路。这种“理解+生成”一体化的能力,可能成为推动 AI 在图像编辑、内容创作、文档处理等领域深入应用的关键技术。


🔗 论文链接
📌 关键亮点回顾:
– 🌟 Manzano 可同时进行图像理解和生成
– 🔍 在文本密集型任务中接近商业模型水平
– ⚙️ 混合标记器设计减少理解与生成冲突