高德发布“幻想世界”模型:一场3D智能革命的开端


当导航数据遇上AI:高德推出颠覆性3D世界模型

你有没有想过,只需一段手机拍摄的视频,就能瞬间生成一个可以自由穿梭、360°无死角浏览的虚拟空间?这不再是科幻电影里的桥段——高德地图刚刚用一款名为 FantasyWorld 的自研AI模型,把这一场景变成了现实。

这不是简单的图像渲染升级,而是一次对“数字世界构建方式”的彻底重构。FantasyWorld一经发布,便在国际权威评测基准 WorldScore Leaderboard 上登顶综合排名第一,力压全球众多顶尖研究团队,成为中国AI在空间智能领域的一次高光亮相。


技术突破:让AI真正“理解”三维空间

传统视频生成模型往往只关注画面是否流畅美观,却忽略了物体在不同视角下的几何一致性——比如从正面看是一扇门,转到侧面却可能变成一堵墙。而 FantasyWorld 的核心创新在于:它不仅能“看”,还能“建模”

该模型采用了一种巧妙的架构设计:在冻结的视频基础模型之上,新增一个可训练的几何分支,实现“视频潜变量”与“隐式3D场”的联合建模。这意味着,仅通过一次前向推理,系统就能同时捕捉视觉内容和三维结构信息。

这项技术带来了三大飞跃:

  • 多视角高度一致:即使旋转180°或切换极端角度,物体形状与纹理依然稳定还原。
  • 几何保真度大幅提升:生成的3D潜变量可直接解码为深度图或点云数据,无需后期优化即可用于下游任务。
  • 风格统一性强:动态场景中的人物、车辆等元素动作自然连贯,视觉逻辑严密。

相比现有方法,FantasyWorld 在静态与动态场景的建模能力上均表现出显著优势,尤其在复杂城市环境中的表现令人惊艳。


权威认证:斯坦福基准榜上夺魁

FantasyWorld 的实力并非自说自话。它所登顶的 WorldScore,是由斯坦福大学著名AI学者李飞飞团队主导的世界级评测体系,涵盖静态/动态场景生成、可控性、跨视角一致性等多个维度,被誉为“世界模型的奥林匹克”。

在这项严苛测试中,FantasyWorld 交出了亮眼成绩单:

  • 静态世界得分:78.55
  • 动态世界得分:66.89
  • 综合排名稳居榜首

更值得关注的是,相关研究成果已被机器学习顶级会议 ICLR 2025NeurIPS 2025 接收,学术价值获得广泛认可。高德方面透露,模型将在近期正式开源,推动产学研协同创新。


落地应用:人人都能拥有的“飞行街景”

FantasyWorld 并非停留在论文中的概念。它已经悄然上线高德地图的“飞行街景”功能,正在改变我们探索线下世界的体验。

商家只需上传几段普通手机拍摄的视频,系统即可自动构建出高保真的3D虚拟漫游场景。用户打开App,仿佛“飞”进餐厅内部,提前查看座位布局、装修风格甚至包间朝向——这对于决策就餐、选址考察等场景极具实用价值。

更重要的是,这一功能完全免费开放,大幅降低了专业级3D建模的技术门槛。有业内人士评价:“这是技术平权的一次典范实践。”

此外,高德已内部成立具身智能业务部,正积极探索机器人、机器狗等物理AI应用场景,结合其强大的空间感知与导航能力,向真正的“通用人工智能”迈进。


行业启示:中国数据优势正转化为AI竞争力

随着自动驾驶全面转向端到端视觉语言行动(VLA)架构,以及具身智能的快速发展,能够准确模拟真实物理世界的“世界模型”正成为AI竞争的新高地。

FantasyWorld 的成功,背后是高德多年积累的亿级真实导航数据支撑。这些来自亿万用户的真实出行轨迹、街景影像和空间行为,构成了训练高质量3D模型的黄金燃料。

这也标志着一个趋势的到来:世界模型的时代正在加速开启。从AR/VR沉浸式体验,到机器人自主导航,再到城市级数字孪生系统,可交互、高保真的虚拟世界将成为下一代智能生态的基础设施。

正如AIbase观察所指出的:FantasyWorld 不只是视频生成的升级,更是迈向可交互3D模拟的关键一步。阿里凭借高德的空间智能布局,在这场物理AI竞赛中已悄然占据有利位置。

未来已来,只是尚未均匀分布。而现在,高德正试图让它飞得更快、更远。