一张图,生成能“动”的3D模型
想象一下:你随手拍下一张宜家椅子的照片,上传到某个系统,几秒钟后,一个不仅外形逼真、还能在仿真环境中自由开合、承重、被机器人抓取的3D模型就诞生了——而且它自带质量、重心、摩擦力、关节活动范围等物理属性。
这不是科幻。南洋理工大学与上海人工智能实验室联合推出的开源项目 PhysX-Anything,正让这一场景成为现实。
只需一张普通的RGB图像,PhysX-Anything 就能输出一个完整的、可直接用于机器人仿真的3D资产,包含精确的几何结构、关节类型、运动极限,以及关键的物理参数。更惊人的是,这个模型生成后,可以直接导入 MuJoCo 或 Isaac Sim 这类主流仿真平台,用于机器人抓取、操作等策略训练,无需任何手动调整。
为什么它比“看图建模”更进一步?
过去,许多3D生成模型专注于“看起来像”——它们能重建物体的外形,但在物理世界中却“站不住脚”。一个椅子模型可能视觉上完美,但重心偏移、材质滑腻、关节卡死,根本无法在仿真中使用。
PhysX-Anything 的突破在于:它从一开始就在“物理正确”上下功夫。
其核心技术是一套“由粗到细”的生成流程:
- 先预测整体物理属性:模型首先估算物体的总质量、质心位置、整体摩擦系数等,确保“基础物理”不出错。
- 再细化部件结构与关节:在物理框架的约束下,逐个解析部件几何形状,并识别铰链、滑轨等可动结构,精确到关节的运动角度极限。
这种设计避免了传统方法中“视觉优先”导致的物理失真问题,真正实现了视觉与物理的双重保真。
更快、更小、更准:技术背后的三大创新
1. 8K隐向量编码一切
PhysX-Anything 引入了一种新型压缩3D表示法,将面片几何、关节轴方向、物理参数等信息统一编码进一个仅8K维的隐向量中。推理时,只需一次解码即可还原完整资产,生成速度比当前最优方法快2.3倍。
2. 真实物理数据驱动训练
团队构建了包含 12万组真实物理测量数据 的训练集,涵盖质心、惯性张量、碰撞盒等参数。训练过程中,模型直接受到这些物理量的监督,通过质心损失、惯量损失、碰撞盒对齐损失等多目标优化,确保生成结果在仿真中“行为正确”。
3. 实测表现全面领先
在标准测试中,PhysX-Anything 在几何重建精度(Geometry-Chamfer Distance)上误差降低18%,物理误差(Physics-Error)降低27%。更关键的是:
– 绝对尺寸误差 < 2cm
– 关节运动范围误差 < 5°
在真实场景测试中,使用其生成的宜家家具和厨房用具模型,机器人在 Isaac Sim 中的抓取成功率提升了 12%,策略训练所需的步数减少了 30%,显著加速了机器人学习进程。
开源开放,未来可期
目前,PhysX-Anything 已全面开源,代码、预训练权重、数据集及评测基准均已发布在 GitHub,研究者和开发者可直接使用或二次开发。
团队还透露:计划于2026年第一季度推出 V2 版本,支持视频输入,能够从动态视频中预测可动部件的时序运动轨迹。这意味着,未来模型不仅能生成“能动”的3D资产,还能理解“如何动”,为动态场景下的机器人策略学习打开全新可能。
论文地址:https://arxiv.org/pdf/2511.13648
GitHub 项目地址:敬请关注官方发布(原文未提供链接)