智能视觉推理新突破！Mini-o3让AI深度“思考”不再遥远

开源模型 Mini-o3 重新定义视觉语言模型的极限

在视觉语言模型（VLM）快速发展的今天，大多数模型在面对多轮对话任务时仍显得力不从心，往往只能支撑1到2轮的交互。但最近，字节跳动与香港大学联合推出了一款令人振奋的新模型——Mini-o3，它不仅打破了这一限制，还在视觉推理能力上实现了飞跃。

Mini-o3 最引人注目的特点，是它在测试阶段可以支持数十轮的视觉推理对话，而训练时仅限制在6轮。这种“训练短、推理长”的设计，大大增强了模型处理复杂视觉任务的能力，也让它在高难度视觉搜索任务中表现出色，达到了当前技术的顶尖水平。

Mini-o3 的成功并非偶然，而是建立在三个关键创新之上：

Mini-o3 的训练分为两个阶段：

在多个视觉搜索基准测试中，Mini-o3 的表现远超现有开源模型。实验表明，冷启动 SFT 和超轮次掩码机制是提升推理能力的关键因素。同时，研究还发现，合理的像素预算设置对于模型性能优化起到了重要作用。

值得一提的是，Mini-o3 在不依赖大规模训练资源的前提下，依然实现了强大的深度推理能力。这意味着，未来更多研究者和开发者将有机会在较低成本下，探索更复杂的视觉推理任务。

Mini-o3 的问世，不仅是一次技术上的飞跃，更为视觉语言模型的发展指明了新方向。它证明了深度思考和复杂推理不再只是资源充足的大型机构才能实现的目标，而是可以被更广泛社区所触及和拓展的领域。

论文地址： https://arxiv.org/pdf/2509.07969