双臂机器人终于“开窍”了：蚂蚁集团开源LingBot-VLA，让AI真正看懂、听懂、动手做

🤖 不再是“指令翻译器”，而是会思考的“双手大脑”

过去几年，机器人领域的AI模型大多停留在“理解语言→生成动作”的线性映射阶段——像一个精准但僵硬的翻译官。而蚂蚁集团最新发布的 LingBot-VLA，正在改写这个范式：它不是单纯执行指令，而是先理解场景、推断空间关系、再协调双臂完成连贯动作——真正具备了具身智能（Embodied AI）的“手眼脑协同”能力。

🔍 2万小时真机数据喂出来的“通用操控力”

LingBot-VLA 的底气，来自实打实的物理世界锤炼。研发团队在 AgiBot G1、AgileX 等9种主流双臂机器人平台上，采集了约2万小时的真实遥操作数据——不是仿真、不是合成，是工程师亲手操控机械臂抓取、堆叠、插拔、折叠的真实轨迹。

更关键的是，这些动作被同步配上了由 Qwen3-VL 大模型自动生成的自然语言描述（如：“左手托住纸盒底部，右手捏住右上角，缓慢向上翻折30度”），构建出业内首个高质量、多形态、带语义对齐的真实世界VLA预训练数据集。这相当于给机器人请了一位既懂工程细节、又会用人类语言教学的“双语导师”。

⚙️ 混合架构+深度感知：让AI“心里有数”

LingBot-VLA 的核心技术突破，在于两个层面的协同进化：

混合Transformer主干：以 Qwen2.5-VL 为多模态底座，可同时消化多视角图像（如俯视+侧视双摄像头）与复杂语言指令；
内置“动作专家”分支：不只看画面和文字，还实时接入机器人关节角度、末端速度、力反馈等自身状态信号，通过条件流匹配技术，输出平滑、连续、可落地的控制轨迹——这意味着双臂不再是各自为政，而是像人类一样“左手稳住、右手微调”。

针对传统模型普遍“平面化”的短板（比如分不清杯子在桌面上方5cm还是15cm），蚂蚁同步推出轻量级 LingBot-Depth 空间感知模型。它通过特征蒸馏，将深度推理能力“压缩”进主模型——即使单目摄像头缺失、无深度传感器，也能高精度重建3D空间关系。在叠放易倒积木、插入细小卡扣、折叠柔性布料等任务中，成功率跃升明显。

📊 硬核验证：GM-100基准测试拿下17.30%成功率

在涵盖100项现实挑战的 GM-100基准测试（从拧瓶盖到组装乐高，全部在真实机器人上运行）中，启用LingBot-Depth的完整版LingBot-VLA，任务成功率高达17.30%——显著超越π0.5（12.41%）和GR00T N1.6（14.89%）等前沿模型。

更惊人的是它的泛化效率：仅需约80条新机器人的演示视频（远低于行业动辄数千条的需求），就能快速适配不同构型的双臂平台。这意味着，工厂换一台新机械臂，产线AI不用“从头学起”。

🌐 开源即普惠：训练工具包已上线，GPU吞吐提升2.8倍

技术不应锁在实验室。蚂蚁集团已将 LingBot-VLA 全套训练工具包、模型权重及部署指南完全开源。该工具包深度优化了大规模GPU集群训练流程，相比主流框架（如PyTorch Distributed + FSDP），训练吞吐量提升1.5–2.8倍——原来需要一周跑完的实验，现在三天就能迭代。

这不仅是技术释放，更是生态铺路：高校研究者能快速复现，初创公司可基于此开发仓储分拣、实验室自动化、康复辅助等垂直方案，具身智能正从“炫技Demo”加速驶向真实产线与生活场景。

💡 论文原文：arXiv:2601.18692
🔗 开源地址：GitHub搜索 LingBot-VLA（官方仓库已同步上线）

双臂机器人终于“开窍”了：蚂蚁集团开源LingBot-VLA，让AI真正看懂、听懂、动手做

🤖 不再是“指令翻译器”，而是会思考的“双手大脑”

🔍 2万小时真机数据喂出来的“通用操控力”

⚙️ 混合架构+深度感知：让AI“心里有数”

📊 硬核验证：GM-100基准测试拿下17.30%成功率

🌐 开源即普惠：训练工具包已上线，GPU吞吐提升2.8倍

AI革命新方向：不比大小，比“密度”

AI商业新动向：沃尔玛联姻ChatGPT、Claude推出企业级技能、谷歌升级AI视频工具

微信“六亲不认”？腾讯元宝春节红包被自家平台拦截，连夜改口令模式

你可能还没用上的5个被低估的ChatGPT功能

微博放大招：15亿参数小模型VibeThinker-1.5B，低成本逆袭大模型时代

2025年AI全景复盘：人类与机器的边界消融、模型小型化与无人察觉的AGI突破

🤖 不再是“指令翻译器”，而是会思考的“双手大脑”

🔍 2万小时真机数据喂出来的“通用操控力”

⚙️ 混合架构+深度感知：让AI“心里有数”

📊 硬核验证：GM-100基准测试拿下17.30%成功率

🌐 开源即普惠：训练工具包已上线，GPU吞吐提升2.8倍

类似文章