机器人学会“看重点”:全球首个事件级具身智能模型来了
5月29日,自变量机器人团队对外发布了全球首款基于“事件级预测”的具身智能世界模型——WALL-WM。它不再让机器人像放映机一样逐格记忆画面,而是像人类一样,按“事件”来理解和预测世界。这一转变,意味着具身智能正式从“帧时代”迈入了“事件时代”。
传统VLA的困局:为什么机器人总在“换杯子”时翻车?
今天主流的视觉-语言-动作(VLA)模型,大多遵循一条固定套路:输入当前画面和一段指令,输出一段固定长度的动作序列。这种训练方式,本质上是在让机器人做一道“逐帧填空题”——它记住的只是像素级别的微小位移,而非“为什么要做这个动作”。
后果很直观:一旦场景微调,比如换成不同形状的杯子、或把桌子挪到另一侧,机器人就很容易“宕机”。自变量团队在论文中解释,文本、视觉与动作在真实世界里的“节奏”本就不同,时间尺度和流形几何各异。如果强行把它们塞进同一个共享空间对齐,反而会破坏模型原本具备的几何先验,导致泛化能力脆弱。
WALL-WM的解法:让机器人像人类一样“分步骤想事”
针对这一痛点,WALL-WM引入了一套“以事件为中心”的训练与执行框架。简单来说,模型会把复杂任务切分成若干带有明确语义的“事件关节”——例如伸手、抓取、移位等。
在执行时,WALL-WM不再机械地预测“下一帧画面该是什么”,而是先进行一轮“超前预演”:下一个语义事件会让世界发生怎样的变化?完成这步推理后,模型再将这种视觉层面的变化,精准映射为机械臂的运动轨迹。这种从“事件”到“动作”的映射,让机器人真正抓住了任务的“意图”,而非仅仅模仿表层的物理挪动。
从算法到硬件:让“事件级”思维在物理世界跑起来
把新架构装进真实机器人,需要一系列底层工程重构。WALL-WM在同一个基础权重下,支持两种运行模式切换:一种是输出变长动作的“事件模式”,适合需要灵活拆解的复杂任务;另一种则是实时闭环控制的“统一模式”,保障响应速度。
为了避免“动作数据污染视觉理解”,团队将视频模型与动作模型做了单向耦合,让视觉先验和动作策略“分工生长”。在多摄像头感知方面,模型通过视锥掩码与管状掩码,迫使AI建立跨视角的三维几何对应关系,告别“单眼视角”的局限。而在决策延迟上,全新的“阶梯式思维链解码”技术在保留推理过程可解释性的同时,显著压缩了解码时间。
数据金字塔与硬核训练:好模型离不开“从下往上”的浇筑
支撑WALL-WM动作能力的,是一套严密的数据与训练体系。底层由百万级网络通用视频构成视觉先验的“地基”;顶层则是高质量的真机接管与纠错数据。团队还设计了四级层级化标注、双聚类采样策略,并配合分布式“Muon”训练系统与部署端的FP8量化,让模型在训练效率与推理性能之间取得平衡。
结果同样令人瞩目:在具身视频生成质量、三维空间感知等多项基准测试中,WALL-WM均处于领先地位;在面向真机的Core15L1泛化场景测试中,其任务完成分数也表现优异。
开源已至,具身智能的“事件级”时代开启
目前,WALL-WM的项目主页与开源代码已正式对外开放。对于整个具身智能领域而言,这不仅仅是一次模型发布,更代表了一种新的可能性:当机器人学会像人类一样“看重点”、按事件思考,它们离真正的通用操作能力,或许又近了一大步。
