让AI看图造物：PhysX-Anything一键生成可仿真的3D世界

一张图，生成能“动”的3D模型

想象一下：你随手拍下一张宜家椅子的照片，上传到某个系统，几秒钟后，一个不仅外形逼真、还能在仿真环境中自由开合、承重、被机器人抓取的3D模型就诞生了——而且它自带质量、重心、摩擦力、关节活动范围等物理属性。

这不是科幻。南洋理工大学与上海人工智能实验室联合推出的开源项目 PhysX-Anything，正让这一场景成为现实。

只需一张普通的RGB图像，PhysX-Anything 就能输出一个完整的、可直接用于机器人仿真的3D资产，包含精确的几何结构、关节类型、运动极限，以及关键的物理参数。更惊人的是，这个模型生成后，可以直接导入 MuJoCo 或 Isaac Sim 这类主流仿真平台，用于机器人抓取、操作等策略训练，无需任何手动调整。

为什么它比“看图建模”更进一步？

过去，许多3D生成模型专注于“看起来像”——它们能重建物体的外形，但在物理世界中却“站不住脚”。一个椅子模型可能视觉上完美，但重心偏移、材质滑腻、关节卡死，根本无法在仿真中使用。

PhysX-Anything 的突破在于：它从一开始就在“物理正确”上下功夫。

其核心技术是一套“由粗到细”的生成流程：

先预测整体物理属性：模型首先估算物体的总质量、质心位置、整体摩擦系数等，确保“基础物理”不出错。
再细化部件结构与关节：在物理框架的约束下，逐个解析部件几何形状，并识别铰链、滑轨等可动结构，精确到关节的运动角度极限。

这种设计避免了传统方法中“视觉优先”导致的物理失真问题，真正实现了视觉与物理的双重保真。

更快、更小、更准：技术背后的三大创新

1. 8K隐向量编码一切

PhysX-Anything 引入了一种新型压缩3D表示法，将面片几何、关节轴方向、物理参数等信息统一编码进一个仅8K维的隐向量中。推理时，只需一次解码即可还原完整资产，生成速度比当前最优方法快2.3倍。

2. 真实物理数据驱动训练

团队构建了包含 12万组真实物理测量数据 的训练集，涵盖质心、惯性张量、碰撞盒等参数。训练过程中，模型直接受到这些物理量的监督，通过质心损失、惯量损失、碰撞盒对齐损失等多目标优化，确保生成结果在仿真中“行为正确”。

3. 实测表现全面领先

在标准测试中，PhysX-Anything 在几何重建精度（Geometry-Chamfer Distance）上误差降低18%，物理误差（Physics-Error）降低27%。更关键的是：
– 绝对尺寸误差 < 2cm
– 关节运动范围误差 < 5°

在真实场景测试中，使用其生成的宜家家具和厨房用具模型，机器人在 Isaac Sim 中的抓取成功率提升了 12%，策略训练所需的步数减少了 30%，显著加速了机器人学习进程。

开源开放，未来可期

目前，PhysX-Anything 已全面开源，代码、预训练权重、数据集及评测基准均已发布在 GitHub，研究者和开发者可直接使用或二次开发。

团队还透露：计划于2026年第一季度推出 V2 版本，支持视频输入，能够从动态视频中预测可动部件的时序运动轨迹。这意味着，未来模型不仅能生成“能动”的3D资产，还能理解“如何动”，为动态场景下的机器人策略学习打开全新可能。

论文地址：https://arxiv.org/pdf/2511.13648
GitHub 项目地址：敬请关注官方发布（原文未提供链接）

让AI看图造物：PhysX-Anything一键生成可仿真的3D世界

一张图，生成能“动”的3D模型

为什么它比“看图建模”更进一步？

更快、更小、更准：技术背后的三大创新

1. 8K隐向量编码一切

2. 真实物理数据驱动训练

3. 实测表现全面领先

开源开放，未来可期

Claude Cowork：桌面端AI协作者的诞生，还是未来人机协作界面的雏形？

微软Copilot秋季更新：五大类AI工具重塑企业生产力

AI 浏览器 Comet 重磅上线：安全与智能的完美融合

国产AI医学影像新突破：美的医疗推出“一键诊断”大模型，赋能基层医疗

智能浏览器对决：OpenAI Atlas 与 Perplexity Comet 的实战较量

AI代理需要像人类一样的身份吗？企业安全的新前沿

一张图，生成能“动”的3D模型

为什么它比“看图建模”更进一步？

更快、更小、更准：技术背后的三大创新

1. 8K隐向量编码一切

2. 真实物理数据驱动训练

3. 实测表现全面领先

开源开放，未来可期

类似文章