打破边界:一个模型,两种世界
2025年11月21日,小米悄然投下一颗“技术深水炸弹”——正式开源全球首个真正实现自动驾驶与具身智能融合的基座大模型:MiMo-Embodied。这一模型不仅已在Hugging Face和arXiv同步上线,更标志着AI从“单一场景专家”迈向“跨域通才”的关键一步。
想象一下:同一个AI大脑,既能指挥扫地机器人绕过孩子乱丢的玩具,也能让汽车在复杂城市路况中精准变道。这不是科幻,而是MiMo-Embodied正在实现的现实。
一套权重,通吃六大任务
MiMo-Embodied最令人震撼之处,在于它用同一套参数,无缝覆盖了两大智能领域的核心能力:
- 具身智能三大任务:可供性推理(理解物体能做什么)、任务规划(拆解复杂指令)、空间理解(构建环境认知)
- 自动驾驶三大任务:环境感知(识别行人、车辆)、状态预测(预判他人行为)、驾驶规划(生成安全路径)
这意味着,无论是家里的咖啡杯还是马路上的电动车,模型都能以统一的方式理解、推理并行动。室内交互与道路决策不再割裂,而是共享同一套“世界模型”。
跨域协同:知识在家庭与道路间流动
更进一步,MiMo-Embodied验证了一个颠覆性假设:家庭场景中的交互经验,竟然能反哺自动驾驶决策。
例如,模型在学习如何“避开障碍物拿起杯子”时积累的空间推理能力,被迁移到驾驶场景中,显著提升了对行人突然穿行的预判准确率。反之,自动驾驶中对远距离动态目标的跟踪能力,也增强了机器人对移动宠物的避障表现。
这种双向知识迁移,打破了传统AI“专模专用”的局限,为未来通用智能体的发展提供了全新范式。
三阶段训练:从理解到行动的全链路优化
为了确保模型不仅“纸上谈兵”,更能可靠落地,小米设计了一套层层递进的训练流程:
- 基础能力学习:通过海量多模态数据,掌握视觉、语言与动作的基本关联
- 思维链增强(CoT):引入推理机制,让模型学会“边想边做”,提升复杂任务的逻辑性
- 强化学习精调(RL):在仿真环境中反复试错,锤炼真实场景下的鲁棒性与安全性
这套“学习→思考→实践”的闭环,使得MiMo-Embodied在真实部署中表现出远超同类模型的稳定性。
29项SOTA:性能全面领跑
实测结果令人信服。在涵盖感知、决策与规划的29项核心基准测试中,MiMo-Embodied全线开花:
- 具身智能领域:在17项Benchmark中刷新最佳成绩,超越现有开源与闭源模型
- 自动驾驶领域:12项关键指标登顶SOTA,尤其在长尾场景理解与多模态融合上优势明显
- 通用能力:即便面对标准视觉语言任务(如图像描述、问答),也展现出极强泛化能力
这不仅是数量的胜利,更是质量的突破——它证明了跨域统一建模的可行性与优越性。
落地时间表:明年Q1见真章
小米已明确MiMo-Embodied的落地路径:
- 2026年第一季度起,通过OTA陆续搭载于自研产品:
- 家用扫地机器人(更聪明的路径规划与交互)
- 工厂AGV(柔性调度与动态避障)
- 小米SU7高阶智驾系统(更拟人化的驾驶决策)
- 同步开放模型API,向家居、出行、制造等行业的开发者提供“跨域智能底座”
未来,第三方厂商或许只需调用一个API,就能让自家设备同时具备“家庭管家”和“道路老司机”的双重智慧。
结语:通向通用智能的一小步
MiMo-Embodied的诞生,不只是小米的技术秀肌肉,更是整个AI行业迈向统一智能架构的重要里程碑。当家庭与道路的边界被打破,我们离那个“能看、会想、可动”的通用智能体,又近了一步。
而这一次,中国科技公司,走在了前面。