手机挂脖子,数据哗哗来:蚂蚁数科用20美元支架撬动具身智能“数据荒”
一台手机 + 一个颈挂支架 = 具身智能的“平民化数据引擎”?
你敢信吗?——让机器人真正看懂人类怎么干活、怎么伸手、怎么拿杯子,不再需要动辄数万美元的动作捕捉棚、激光雷达阵列或定制化头戴设备。蚂蚁数科天玑实验室刚刚交出的答案是:把你的iPhone(或安卓机)挂在胸前,用一个不到20美元的颈挂支架,就能持续采集高质量、第一人称视角的具身交互视频。
这项名为 AoE(Always-On Egocentric) 的技术,不是概念演示,也不是实验室玩具。它已在Arxiv正式发布论文,并进入真实场景验证阶段——在Unitree G1四足机器人“关电脑”任务中,仅靠50条传统遥操作数据时成功率仅45%;加入200条AoE采集的真实交互数据后,成功率直接跃升至95%。数据,正在成为具身智能破局的关键燃料,而AoE,正试图把这桶燃料的生产成本拉到普通人可参与的量级。
为什么具身智能一直“饿着”?
具身智能(Embodied AI)的核心,是让AI在物理世界中感知、决策并行动。但训练这类模型,光靠仿真远远不够——真实世界里手部微动的力度、物体遮挡的突发性、人体姿态的自然松弛感……这些细微信号,只有从真实人类交互中才能捕获。
问题在于:专业采集设备太贵、太重、太反人性。一套高精度动捕系统动辄数十万元,且需专人布设、环境受限;而普通手机随手拍又缺乏稳定性、视角一致性与结构化标注能力。结果就是:数据少、质量差、覆盖窄、难规模化——成了横亘在具身AI落地前的最大“数据荒”。
AoE的破题思路很“蚂蚁”:不造新硬件,而是重新定义现有硬件的使用方式。
20美元支架背后的三重巧思
AoE不是简单地“把手机挂脖子上”,而是一套端云协同的数据闭环系统,包含三个关键创新层:
🔹 人体工学即生产力
那款定制颈挂支架,采用磁吸+机械夹具双固定方案,确保手机在行走、弯腰、抬手等日常动作中依然稳如磐石。实测轨迹精度达毫米级,手部关键点识别准确率超90%——这意味着,它能清晰记录你指尖如何捏住水杯边缘、手腕如何旋转拧开瓶盖。
🔹 智能触发,告别“全程录像”
手机端部署轻量视觉模型,实时检测“手-物交互”事件(比如手伸向键盘、拿起遥控器),仅在关键动作发生时自动启动录制。既省存储,又大幅提升有效数据密度。
🔹 视频→原子动作,全自动“炼金术”
长达数小时的原始视频,经由大语言模型+多模态视觉模型联合解析,被自动切分为带语义标签的“原子动作片段”(如“右手抓取鼠标→左键双击→拖拽窗口”)。再经云端自动标注、去噪、过滤低质帧,最终输出标准化、可直接喂给大模型的训练数据集。
目前,该系统已支持数千台设备并发采集,全流程人工干预趋近于零。
这不只是“省钱”,而是重构数据生产范式
低成本,从来不是终点。AoE真正的野心,在于将每一个普通人变成具身智能的数据节点。
想象一下:物流仓管员佩戴支架巡检货架,产线工人边装配边自然操作,甚至家庭用户教扫地机器人“把纸团扔进垃圾桶”……这些原本散落、沉默、无法结构化的日常行为,正被AoE悄然转化为高价值训练资产。
更值得玩味的是,蚂蚁数科正将这一能力嵌入其AI toB战略纵深:天玑实验室同步推进AI+数据、AI+安全、AI+金融与AI+具身智能四大方向。今年初成立“大模型技术创新部”,并明确将推出企业级大模型产品——而AoE所沉淀的海量真实交互数据,很可能成为其垂直领域大模型最硬核的“物理世界底座”。
尾声:当数据采集回归“人本”,智能才真正开始呼吸
具身智能的终极形态,不该是冷冰冰的机械臂在真空舱里反复练习。它应该诞生于厨房、车间、办公室、客厅——诞生于我们每一次真实的伸手、转身、犹豫与完成。
AoE没有发明新传感器,却用极简设计激活了十亿台手机的“具身感知力”。它提醒我们:有时候,通往AGI(通用人工智能)最短的路,未必在算力巅峰,而在你我胸前那方小小的屏幕上。
毕竟,让机器理解世界的第一步,从来不是建更大的模型,而是先看清——人类,究竟是怎么活在这个世界里的。
