高德发布“幻想世界”模型：一场3D智能革命的开端

当导航数据遇上AI：高德推出颠覆性3D世界模型

你有没有想过，只需一段手机拍摄的视频，就能瞬间生成一个可以自由穿梭、360°无死角浏览的虚拟空间？这不再是科幻电影里的桥段——高德地图刚刚用一款名为 FantasyWorld 的自研AI模型，把这一场景变成了现实。

这不是简单的图像渲染升级，而是一次对“数字世界构建方式”的彻底重构。FantasyWorld一经发布，便在国际权威评测基准 WorldScore Leaderboard 上登顶综合排名第一，力压全球众多顶尖研究团队，成为中国AI在空间智能领域的一次高光亮相。

传统视频生成模型往往只关注画面是否流畅美观，却忽略了物体在不同视角下的几何一致性——比如从正面看是一扇门，转到侧面却可能变成一堵墙。而 FantasyWorld 的核心创新在于：它不仅能“看”，还能“建模”。

该模型采用了一种巧妙的架构设计：在冻结的视频基础模型之上，新增一个可训练的几何分支，实现“视频潜变量”与“隐式3D场”的联合建模。这意味着，仅通过一次前向推理，系统就能同时捕捉视觉内容和三维结构信息。

这项技术带来了三大飞跃：

相比现有方法，FantasyWorld 在静态与动态场景的建模能力上均表现出显著优势，尤其在复杂城市环境中的表现令人惊艳。

FantasyWorld 的实力并非自说自话。它所登顶的 WorldScore，是由斯坦福大学著名AI学者李飞飞团队主导的世界级评测体系，涵盖静态/动态场景生成、可控性、跨视角一致性等多个维度，被誉为“世界模型的奥林匹克”。

在这项严苛测试中，FantasyWorld 交出了亮眼成绩单：

更值得关注的是，相关研究成果已被机器学习顶级会议 ICLR 2025 和 NeurIPS 2025 接收，学术价值获得广泛认可。高德方面透露，模型将在近期正式开源，推动产学研协同创新。

FantasyWorld 并非停留在论文中的概念。它已经悄然上线高德地图的“飞行街景”功能，正在改变我们探索线下世界的体验。

商家只需上传几段普通手机拍摄的视频，系统即可自动构建出高保真的3D虚拟漫游场景。用户打开App，仿佛“飞”进餐厅内部，提前查看座位布局、装修风格甚至包间朝向——这对于决策就餐、选址考察等场景极具实用价值。

更重要的是，这一功能完全免费开放，大幅降低了专业级3D建模的技术门槛。有业内人士评价：“这是技术平权的一次典范实践。”

此外，高德已内部成立具身智能业务部，正积极探索机器人、机器狗等物理AI应用场景，结合其强大的空间感知与导航能力，向真正的“通用人工智能”迈进。

随着自动驾驶全面转向端到端视觉语言行动（VLA）架构，以及具身智能的快速发展，能够准确模拟真实物理世界的“世界模型”正成为AI竞争的新高地。

FantasyWorld 的成功，背后是高德多年积累的亿级真实导航数据支撑。这些来自亿万用户的真实出行轨迹、街景影像和空间行为，构成了训练高质量3D模型的黄金燃料。

这也标志着一个趋势的到来：世界模型的时代正在加速开启。从AR/VR沉浸式体验，到机器人自主导航，再到城市级数字孪生系统，可交互、高保真的虚拟世界将成为下一代智能生态的基础设施。

正如AIbase观察所指出的：FantasyWorld 不只是视频生成的升级，更是迈向可交互3D模拟的关键一步。阿里凭借高德的空间智能布局，在这场物理AI竞赛中已悄然占据有利位置。

未来已来，只是尚未均匀分布。而现在，高德正试图让它飞得更快、更远。