开源模型 Mini-o3 重新定义视觉语言模型的极限
在视觉语言模型(VLM)快速发展的今天,大多数模型在面对多轮对话任务时仍显得力不从心,往往只能支撑1到2轮的交互。但最近,字节跳动与香港大学联合推出了一款令人振奋的新模型——Mini-o3,它不仅打破了这一限制,还在视觉推理能力上实现了飞跃。
Mini-o3 最引人注目的特点,是它在测试阶段可以支持数十轮的视觉推理对话,而训练时仅限制在6轮。这种“训练短、推理长”的设计,大大增强了模型处理复杂视觉任务的能力,也让它在高难度视觉搜索任务中表现出色,达到了当前技术的顶尖水平。
三大核心设计,打造深度推理能力
Mini-o3 的成功并非偶然,而是建立在三个关键创新之上:
-
VisualProbe 数据集:研究团队构建了一个专门用于探索性视觉推理的数据集,包含数千个复杂视觉搜索难题,为模型训练提供了高质量的问题库。
-
迭代式数据收集流程:通过模拟深度优先搜索、试错探索和目标维持等策略,模型能够逐步学会更复杂的推理方式,而不是简单地“回答问题”。
-
超轮次掩码策略:这项技术在强化学习过程中避免了对长轮次回答的惩罚,从而提升了模型在多轮对话中的表现力和扩展性。
训练分两步走,从监督微调到强化学习
Mini-o3 的训练分为两个阶段:
-
第一阶段:冷启动监督微调(SFT)
通过上下文学习的方式,模型被训练以掌握多轮推理的基本能力,并收集大量高质量的推理路径。 -
第二阶段:强化学习(RL)
在此阶段,研究团队通过降低图像像素限制和引入超轮次掩码机制,进一步提升了模型的交互轮次和推理深度。
实验结果:性能领先,资源消耗更低
在多个视觉搜索基准测试中,Mini-o3 的表现远超现有开源模型。实验表明,冷启动 SFT 和超轮次掩码机制是提升推理能力的关键因素。同时,研究还发现,合理的像素预算设置对于模型性能优化起到了重要作用。
值得一提的是,Mini-o3 在不依赖大规模训练资源的前提下,依然实现了强大的深度推理能力。这意味着,未来更多研究者和开发者将有机会在较低成本下,探索更复杂的视觉推理任务。
未来展望:开启多轮视觉推理新纪元
Mini-o3 的问世,不仅是一次技术上的飞跃,更为视觉语言模型的发展指明了新方向。它证明了深度思考和复杂推理不再只是资源充足的大型机构才能实现的目标,而是可以被更广泛社区所触及和拓展的领域。