AI终于学会了“时间凝视”:DeepMind新模型D4RT让机器一眼看穿过去、现在与未来


当AI开始“记住”画面里的时间

你有没有试过回看一段视频,突然意识到:那个转瞬即逝的挥手动作,其实早在0.3秒前就已开始蓄力;那个被路人短暂遮挡的快递箱,其轨迹在你脑中从未中断?人类视觉系统天然具备这种时空连续性理解能力——我们不是一帧帧“看”,而是在四维时空中“沉浸式感知”。

长久以来,AI却困在二维视频的平面上:它能识别猫,但说不清这只猫0.5秒前在哪、1秒后会跳向哪;它能估算深度,却无法把镜头晃动、物体遮挡、光影流转全盘纳入一个连贯的物理叙事。直到今天,Google DeepMind正式发布 D4RT(Dynamic 4D Reconstruction and Tracking)——首个真正将三维空间 + 时间维度统一建模的端到端AI视觉模型。这不是又一次“微调升级”,而是一次底层认知范式的切换。

“拼图时代”终结:从打补丁式AI,到一个模型看懂整个世界

过去处理动态场景,工程师得像搭乐高一样组合至少三四个专用模型:一个算深度图,一个做光流追踪,一个估计相机运动,还有一个负责三维重建……每个模块各执一词,数据在缝隙中丢失,误差层层放大。结果就是:延迟高、鲁棒性差、遮挡即“失忆”。

D4RT彻底甩掉了这套笨重架构。它的核心思想极简却锋利:把所有问题归结为一个查询——“这个像素,在这个时刻,从这个视角看,它在真实世界中的(x, y, z, t)坐标是什么?”

这种“指哪打哪”的查询式设计,让模型内部自建了一个隐式的、可微分的四维世界模型。它不再需要显式分割任务,而是用统一表征同时编码空间结构、物体运动、相机轨迹与时间演化——就像人脑无需切换“深度模式”或“运动模式”,一切自然发生。

5秒重构一分钟世界:速度与精度的双重越界

实测数据令人屏息:
– 在标准基准测试中,D4RT比此前SOTA方法快18–300倍
– 一段60秒的复杂街景视频,传统方案需顶级GPU耗时10分钟以上反复迭代,D4RT仅需5秒即可输出完整四维重建结果;
– 更关键的是,它不靠“暴力优化”,而是单次前向推理即生成——没有循环、没有后处理、没有人工调参。

这意味着什么?意味着搭载D4RT的机器人,能在毫秒级内更新自身对环境的四维理解:预判行人突然变向、计算飞鸟掠过的安全距离、甚至推演自己下一步移动后视野将如何变化——物理世界的因果链条,第一次在AI视觉中真正“跑通”了

它不只是“看得快”,更是“想得全”

D4RT的突破不在某项指标登顶,而在它让AI拥有了三种曾属于人类的直觉能力:

时空无缝追踪

即使物体移出画面、被车辆完全遮挡达2秒,D4RT仍能基于物理惯性与场景约束,精准续写其三维运动轨迹——不是“猜”,而是“推演”。

瞬时冻结现实

点击任意时间点,它可立即生成该时刻全场景的厘米级精度3D结构(含几何、纹理、光照),无需等待数分钟的NeRF式渲染——仿佛按下暂停键,世界便凝固为可交互的数字孪生体。

自动读懂镜头语言

无需IMU传感器或GPS辅助,仅凭单目视频,D4RT就能反推出拍摄设备自身的六自由度运动路径(包括旋转抖动、平移加速),让手机随手拍也能成为高精度空间扫描仪。

这不是终点,而是新物理引擎的启动键

D4RT已悄然撬动多个领域:
具身智能:波士顿动力下一代机器人或将用它实现“边走边建模”,在未知楼梯间实时规划无碰撞路径;
AR眼镜:虚拟信息可真正“钉”在物理物体表面——咖啡杯旋转时,悬浮菜单同步自转,再无延迟拖影;
自动驾驶仿真:用真实视频一键生成带时间戳的4D交通沙盒,让AI在数字世界里“重放一万次暴雨夜的路口博弈”。

更深远的是,它正推动AI从“模式识别者”迈向“物理世界协作者”。当机器不仅能看见,更能记住时间、尊重因果、预演可能,我们离那个能与现实共舞的通用智能,又近了一步。

🔍 想看D4RT如何帮无人机在浓雾中自主绕开突然出现的电线?或让它实时重建你家客厅并叠加AR装修效果?DeepMind官方技术博客已开放全部论文、可视化Demo与代码片段:
https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/