作加

AI看视频写代码?新基准测试揭露大模型真实水平:GPT-5仅得36分


视频变网页,AI能做到哪一步?

你有没有想过,未来只需录一段操作视频,AI就能自动生成一个功能完整的网页?这听起来像是科幻场景,但随着多模态大模型的发展,它正逐渐成为研究热点。

最近,上海人工智能实验室联合浙江大学等机构推出了一个名为 IWR-Bench 的全新评测基准——这是全球首个专门用于评估大语言模型“看视频写网页代码”能力的测试体系。它的出现,不仅填补了AI在动态前端开发评测上的空白,也让我们第一次看清:当前最强大的AI,在这项任务上到底有多“菜”。

从“看图写码”到“看视频造网页”

过去,AI代码生成的研究多集中在“图像转代码”(Image-to-Code)任务上——给模型一张网页截图,让它生成对应的HTML和CSS。但这有个致命缺陷:静态图片无法体现交互行为

而 IWR-Bench 的突破在于,它要求模型观看完整的用户操作视频,比如点击按钮、填写表单、玩2048游戏、预订机票等,并基于这些动态行为,结合提供的静态资源(如图片、样式文件),重建出一个真正可交互的网页

换句话说,AI不仅要“看见”页面长什么样,还要“理解”用户是怎么操作的,以及这些操作背后隐藏的逻辑规则——比如“点击搜索按钮后,系统应根据输入条件加载航班列表”。

这项任务的复杂度远超想象,涵盖了从简单浏览到复杂状态管理的多种场景。研究人员为此构建了204个精心设计的任务,覆盖真实应用场景,全面考验AI的“动态网页重建”能力。

GPT-5也只拿了36.35分,说明了什么?

在对28个主流多模态大模型的评测中,表现最好的 GPT-5 综合得分仅为36.35分(满分100),其中:

  • 交互功能正确性(IFS):24.39%
  • 视觉保真度(VFS):64.25%

这个分数意味着什么?
简单说:AI能勉强画出网页的“皮囊”,但几乎做不对它的“灵魂”

视觉保真度接近65%,说明模型已经能较好地还原页面布局、颜色、字体等外观元素。但交互功能正确率不足25%,意味着生成的网页中,超过四分之三的功能按钮、表单验证、状态切换等都存在问题——点击没反应、跳转错误、数据没更新,甚至根本找不到该调用哪个事件。

这暴露了当前AI在事件驱动逻辑、状态管理和因果推理方面的严重短板。

为什么这么难?四大技术挑战浮出水面

IWR-Bench 的设计极为严苛,直击AI能力的核心瓶颈。研究人员指出,视频转网页任务面临四大挑战:

  1. 时序理解:从连续视频帧中识别关键交互事件(如点击、拖拽)及其发生顺序。
  2. 逻辑抽象:将观察到的行为转化为编程概念,比如“点击登录按钮 → 触发验证函数 → 显示错误提示”。
  3. 资源匹配:所有静态资源(图片、CSS文件)均经过匿名化处理,模型必须通过视觉特征而非文件名来正确引用。
  4. 代码生成:输出结构清晰、语法正确、逻辑连贯的HTML、CSS和JavaScript代码。

更关键的是,这套评测机制引入了自动化代理来实际运行生成的网页,验证其交互行为是否与原视频一致。这比人工打分更客观,也更贴近真实开发需求。

有趣发现:思考不如“硬实力”,专用模型反被通用模型碾压

研究过程中,团队还发现了一些出人意料的现象:

  • 带有“思维链”(Chain-of-Thought)或“推理模式”的模型版本,在部分任务中略有提升,但整体改善有限,说明“思考”无法弥补基础能力的不足。
  • 一些专为视频理解优化的模型,表现反而不如通用多模态大模型。这表明:“看懂视频”不等于“能写代码”。视频转网页需要的不是单纯的视频理解,而是将动态行为抽象为程序逻辑的能力。

这也揭示了一个现实:当前AI在“感知”和“行动”之间,仍存在巨大的认知鸿沟。

不只是评测工具,更是未来开发方式的预演

IWR-Bench 的意义远不止于打分。它为AI研究提供了一个全新的维度:动态行为到代码的转化能力

从应用角度看,一旦这项技术成熟,产品经理、设计师甚至普通用户,只需录制一段操作演示,就能让AI生成可运行的网页原型。这将极大降低前端开发门槛,推动“所见即所得”的智能开发工具成为现实。

但研究人员也提醒:高分≠可用。真实的网页开发涉及性能优化、跨浏览器兼容、安全性、可维护性等复杂维度,这些信息无法从操作视频中获取。此外,边缘情况处理、异常反馈、用户体验细节等,也难以完全推断。

未来已来,只是还没普及

IWR-Bench 标志着AI代码生成正从“静态描述”走向“动态演示”,从“文本驱动”迈向“行为驱动”。它与当前主流的GitHub Copilot式文本补全形成鲜明对比,指向一种更自然、更直观的人机协作方式。

尽管目前GPT-5在该任务上仅得36.35分,反映出AI在理解复杂交互逻辑方面仍处早期阶段,但这一基准的发布,无疑为技术演进指明了方向。

可以预见,随着更多研究聚焦于时序推理、因果建模与代码生成的融合,未来的AI或将真正实现“看一遍就会做”的智能开发能力——而 IWR-Bench,正是这场变革的起点。