让AI看图造物:PhysX-Anything一键生成可仿真的3D世界


一张图,生成能“动”的3D模型

想象一下:你随手拍下一张宜家椅子的照片,上传到某个系统,几秒钟后,一个不仅外形逼真、还能在仿真环境中自由开合、承重、被机器人抓取的3D模型就诞生了——而且它自带质量、重心、摩擦力、关节活动范围等物理属性。

这不是科幻。南洋理工大学与上海人工智能实验室联合推出的开源项目 PhysX-Anything,正让这一场景成为现实。

只需一张普通的RGB图像,PhysX-Anything 就能输出一个完整的、可直接用于机器人仿真的3D资产,包含精确的几何结构、关节类型、运动极限,以及关键的物理参数。更惊人的是,这个模型生成后,可以直接导入 MuJoCoIsaac Sim 这类主流仿真平台,用于机器人抓取、操作等策略训练,无需任何手动调整。

为什么它比“看图建模”更进一步?

过去,许多3D生成模型专注于“看起来像”——它们能重建物体的外形,但在物理世界中却“站不住脚”。一个椅子模型可能视觉上完美,但重心偏移、材质滑腻、关节卡死,根本无法在仿真中使用。

PhysX-Anything 的突破在于:它从一开始就在“物理正确”上下功夫

其核心技术是一套“由粗到细”的生成流程:

  1. 先预测整体物理属性:模型首先估算物体的总质量、质心位置、整体摩擦系数等,确保“基础物理”不出错。
  2. 再细化部件结构与关节:在物理框架的约束下,逐个解析部件几何形状,并识别铰链、滑轨等可动结构,精确到关节的运动角度极限。

这种设计避免了传统方法中“视觉优先”导致的物理失真问题,真正实现了视觉与物理的双重保真

更快、更小、更准:技术背后的三大创新

1. 8K隐向量编码一切

PhysX-Anything 引入了一种新型压缩3D表示法,将面片几何、关节轴方向、物理参数等信息统一编码进一个仅8K维的隐向量中。推理时,只需一次解码即可还原完整资产,生成速度比当前最优方法快2.3倍

2. 真实物理数据驱动训练

团队构建了包含 12万组真实物理测量数据 的训练集,涵盖质心、惯性张量、碰撞盒等参数。训练过程中,模型直接受到这些物理量的监督,通过质心损失、惯量损失、碰撞盒对齐损失等多目标优化,确保生成结果在仿真中“行为正确”。

3. 实测表现全面领先

在标准测试中,PhysX-Anything 在几何重建精度(Geometry-Chamfer Distance)上误差降低18%,物理误差(Physics-Error)降低27%。更关键的是:
绝对尺寸误差 < 2cm
关节运动范围误差 < 5°

在真实场景测试中,使用其生成的宜家家具和厨房用具模型,机器人在 Isaac Sim 中的抓取成功率提升了 12%,策略训练所需的步数减少了 30%,显著加速了机器人学习进程。

开源开放,未来可期

目前,PhysX-Anything 已全面开源,代码、预训练权重、数据集及评测基准均已发布在 GitHub,研究者和开发者可直接使用或二次开发。

团队还透露:计划于2026年第一季度推出 V2 版本,支持视频输入,能够从动态视频中预测可动部件的时序运动轨迹。这意味着,未来模型不仅能生成“能动”的3D资产,还能理解“如何动”,为动态场景下的机器人策略学习打开全新可能。

论文地址:https://arxiv.org/pdf/2511.13648
GitHub 项目地址:敬请关注官方发布(原文未提供链接)