手机挂脖子，数据哗哗来：蚂蚁数科用20美元支架撬动具身智能“数据荒”

一台手机 + 一个颈挂支架 = 具身智能的“平民化数据引擎”？

你敢信吗？——让机器人真正看懂人类怎么干活、怎么伸手、怎么拿杯子，不再需要动辄数万美元的动作捕捉棚、激光雷达阵列或定制化头戴设备。蚂蚁数科天玑实验室刚刚交出的答案是：把你的iPhone（或安卓机）挂在胸前，用一个不到20美元的颈挂支架，就能持续采集高质量、第一人称视角的具身交互视频。

这项名为 AoE（Always-On Egocentric） 的技术，不是概念演示，也不是实验室玩具。它已在Arxiv正式发布论文，并进入真实场景验证阶段——在Unitree G1四足机器人“关电脑”任务中，仅靠50条传统遥操作数据时成功率仅45%；加入200条AoE采集的真实交互数据后，成功率直接跃升至95%。数据，正在成为具身智能破局的关键燃料，而AoE，正试图把这桶燃料的生产成本拉到普通人可参与的量级。

为什么具身智能一直“饿着”？

具身智能（Embodied AI）的核心，是让AI在物理世界中感知、决策并行动。但训练这类模型，光靠仿真远远不够——真实世界里手部微动的力度、物体遮挡的突发性、人体姿态的自然松弛感……这些细微信号，只有从真实人类交互中才能捕获。

问题在于：专业采集设备太贵、太重、太反人性。一套高精度动捕系统动辄数十万元，且需专人布设、环境受限；而普通手机随手拍又缺乏稳定性、视角一致性与结构化标注能力。结果就是：数据少、质量差、覆盖窄、难规模化——成了横亘在具身AI落地前的最大“数据荒”。

AoE的破题思路很“蚂蚁”：不造新硬件，而是重新定义现有硬件的使用方式。

20美元支架背后的三重巧思

AoE不是简单地“把手机挂脖子上”，而是一套端云协同的数据闭环系统，包含三个关键创新层：

🔹 人体工学即生产力

那款定制颈挂支架，采用磁吸+机械夹具双固定方案，确保手机在行走、弯腰、抬手等日常动作中依然稳如磐石。实测轨迹精度达毫米级，手部关键点识别准确率超90%——这意味着，它能清晰记录你指尖如何捏住水杯边缘、手腕如何旋转拧开瓶盖。

🔹 智能触发，告别“全程录像”

手机端部署轻量视觉模型，实时检测“手-物交互”事件（比如手伸向键盘、拿起遥控器），仅在关键动作发生时自动启动录制。既省存储，又大幅提升有效数据密度。

🔹 视频→原子动作，全自动“炼金术”

长达数小时的原始视频，经由大语言模型+多模态视觉模型联合解析，被自动切分为带语义标签的“原子动作片段”（如“右手抓取鼠标→左键双击→拖拽窗口”）。再经云端自动标注、去噪、过滤低质帧，最终输出标准化、可直接喂给大模型的训练数据集。

目前，该系统已支持数千台设备并发采集，全流程人工干预趋近于零。

这不只是“省钱”，而是重构数据生产范式

低成本，从来不是终点。AoE真正的野心，在于将每一个普通人变成具身智能的数据节点。

想象一下：物流仓管员佩戴支架巡检货架，产线工人边装配边自然操作，甚至家庭用户教扫地机器人“把纸团扔进垃圾桶”……这些原本散落、沉默、无法结构化的日常行为，正被AoE悄然转化为高价值训练资产。

更值得玩味的是，蚂蚁数科正将这一能力嵌入其AI toB战略纵深：天玑实验室同步推进AI+数据、AI+安全、AI+金融与AI+具身智能四大方向。今年初成立“大模型技术创新部”，并明确将推出企业级大模型产品——而AoE所沉淀的海量真实交互数据，很可能成为其垂直领域大模型最硬核的“物理世界底座”。

尾声：当数据采集回归“人本”，智能才真正开始呼吸

具身智能的终极形态，不该是冷冰冰的机械臂在真空舱里反复练习。它应该诞生于厨房、车间、办公室、客厅——诞生于我们每一次真实的伸手、转身、犹豫与完成。

AoE没有发明新传感器，却用极简设计激活了十亿台手机的“具身感知力”。它提醒我们：有时候，通往AGI（通用人工智能）最短的路，未必在算力巅峰，而在你我胸前那方小小的屏幕上。

毕竟，让机器理解世界的第一步，从来不是建更大的模型，而是先看清——人类，究竟是怎么活在这个世界里的。

手机挂脖子，数据哗哗来：蚂蚁数科用20美元支架撬动具身智能“数据荒”

一台手机 + 一个颈挂支架 = 具身智能的“平民化数据引擎”？

为什么具身智能一直“饿着”？

20美元支架背后的三重巧思

🔹 人体工学即生产力

🔹 智能触发，告别“全程录像”

🔹 视频→原子动作，全自动“炼金术”

这不只是“省钱”，而是重构数据生产范式

尾声：当数据采集回归“人本”，智能才真正开始呼吸

告别“AI 意大利面”：如何掌控企业中的影子AI与技术蔓延

OpenClaw狂飙三周，碾压Linux三十年？黄仁勋喊话：AI应用层正在引爆算力核爆

微软豪掷62亿美元，挪威成AI绿色算力新高地

AI赋能游戏开发新时代：网易效率跃升50%，开启智能创作新篇章

默茨戴上中国AI眼镜的那一刻，德企高管集体下单——中德科技合作进入“第一视角”时代

视觉大模型新突破：百度Qianfan-VL全尺寸开源，OCR与数学解题能力亮眼

一台手机 + 一个颈挂支架 = 具身智能的“平民化数据引擎”？

为什么具身智能一直“饿着”？

20美元支架背后的三重巧思

🔹 人体工学即生产力

🔹 智能触发，告别“全程录像”

🔹 视频→原子动作，全自动“炼金术”

这不只是“省钱”，而是重构数据生产范式

尾声：当数据采集回归“人本”，智能才真正开始呼吸

类似文章