🤖 不再是“指令翻译器”,而是会思考的“双手大脑”
过去几年,机器人领域的AI模型大多停留在“理解语言→生成动作”的线性映射阶段——像一个精准但僵硬的翻译官。而蚂蚁集团最新发布的 LingBot-VLA,正在改写这个范式:它不是单纯执行指令,而是先理解场景、推断空间关系、再协调双臂完成连贯动作——真正具备了具身智能(Embodied AI)的“手眼脑协同”能力。
🔍 2万小时真机数据喂出来的“通用操控力”
LingBot-VLA 的底气,来自实打实的物理世界锤炼。研发团队在 AgiBot G1、AgileX 等9种主流双臂机器人平台上,采集了约2万小时的真实遥操作数据——不是仿真、不是合成,是工程师亲手操控机械臂抓取、堆叠、插拔、折叠的真实轨迹。
更关键的是,这些动作被同步配上了由 Qwen3-VL 大模型自动生成的自然语言描述(如:“左手托住纸盒底部,右手捏住右上角,缓慢向上翻折30度”),构建出业内首个高质量、多形态、带语义对齐的真实世界VLA预训练数据集。这相当于给机器人请了一位既懂工程细节、又会用人类语言教学的“双语导师”。
⚙️ 混合架构+深度感知:让AI“心里有数”
LingBot-VLA 的核心技术突破,在于两个层面的协同进化:
- 混合Transformer主干:以 Qwen2.5-VL 为多模态底座,可同时消化多视角图像(如俯视+侧视双摄像头)与复杂语言指令;
- 内置“动作专家”分支:不只看画面和文字,还实时接入机器人关节角度、末端速度、力反馈等自身状态信号,通过条件流匹配技术,输出平滑、连续、可落地的控制轨迹——这意味着双臂不再是各自为政,而是像人类一样“左手稳住、右手微调”。
针对传统模型普遍“平面化”的短板(比如分不清杯子在桌面上方5cm还是15cm),蚂蚁同步推出轻量级 LingBot-Depth 空间感知模型。它通过特征蒸馏,将深度推理能力“压缩”进主模型——即使单目摄像头缺失、无深度传感器,也能高精度重建3D空间关系。在叠放易倒积木、插入细小卡扣、折叠柔性布料等任务中,成功率跃升明显。
📊 硬核验证:GM-100基准测试拿下17.30%成功率
在涵盖100项现实挑战的 GM-100基准测试(从拧瓶盖到组装乐高,全部在真实机器人上运行)中,启用LingBot-Depth的完整版LingBot-VLA,任务成功率高达17.30%——显著超越π0.5(12.41%)和GR00T N1.6(14.89%)等前沿模型。
更惊人的是它的泛化效率:仅需约80条新机器人的演示视频(远低于行业动辄数千条的需求),就能快速适配不同构型的双臂平台。这意味着,工厂换一台新机械臂,产线AI不用“从头学起”。
🌐 开源即普惠:训练工具包已上线,GPU吞吐提升2.8倍
技术不应锁在实验室。蚂蚁集团已将 LingBot-VLA 全套训练工具包、模型权重及部署指南完全开源。该工具包深度优化了大规模GPU集群训练流程,相比主流框架(如PyTorch Distributed + FSDP),训练吞吐量提升1.5–2.8倍——原来需要一周跑完的实验,现在三天就能迭代。
这不仅是技术释放,更是生态铺路:高校研究者能快速复现,初创公司可基于此开发仓储分拣、实验室自动化、康复辅助等垂直方案,具身智能正从“炫技Demo”加速驶向真实产线与生活场景。
💡 论文原文:arXiv:2601.18692
🔗 开源地址:GitHub搜索 LingBot-VLA(官方仓库已同步上线)