AI看视频写代码？新基准测试揭露大模型真实水平：GPT-5仅得36分

视频变网页，AI能做到哪一步？

你有没有想过，未来只需录一段操作视频，AI就能自动生成一个功能完整的网页？这听起来像是科幻场景，但随着多模态大模型的发展，它正逐渐成为研究热点。

最近，上海人工智能实验室联合浙江大学等机构推出了一个名为 IWR-Bench 的全新评测基准——这是全球首个专门用于评估大语言模型“看视频写网页代码”能力的测试体系。它的出现，不仅填补了AI在动态前端开发评测上的空白，也让我们第一次看清：当前最强大的AI，在这项任务上到底有多“菜”。

从“看图写码”到“看视频造网页”

过去，AI代码生成的研究多集中在“图像转代码”（Image-to-Code）任务上——给模型一张网页截图，让它生成对应的HTML和CSS。但这有个致命缺陷：静态图片无法体现交互行为。

而 IWR-Bench 的突破在于，它要求模型观看完整的用户操作视频，比如点击按钮、填写表单、玩2048游戏、预订机票等，并基于这些动态行为，结合提供的静态资源（如图片、样式文件），重建出一个真正可交互的网页。

换句话说，AI不仅要“看见”页面长什么样，还要“理解”用户是怎么操作的，以及这些操作背后隐藏的逻辑规则——比如“点击搜索按钮后，系统应根据输入条件加载航班列表”。

这项任务的复杂度远超想象，涵盖了从简单浏览到复杂状态管理的多种场景。研究人员为此构建了204个精心设计的任务，覆盖真实应用场景，全面考验AI的“动态网页重建”能力。

GPT-5也只拿了36.35分，说明了什么？

在对28个主流多模态大模型的评测中，表现最好的 GPT-5 综合得分仅为36.35分（满分100），其中：

交互功能正确性（IFS）：24.39%
视觉保真度（VFS）：64.25%

这个分数意味着什么？
简单说：AI能勉强画出网页的“皮囊”，但几乎做不对它的“灵魂”。

视觉保真度接近65%，说明模型已经能较好地还原页面布局、颜色、字体等外观元素。但交互功能正确率不足25%，意味着生成的网页中，超过四分之三的功能按钮、表单验证、状态切换等都存在问题——点击没反应、跳转错误、数据没更新，甚至根本找不到该调用哪个事件。

这暴露了当前AI在事件驱动逻辑、状态管理和因果推理方面的严重短板。

为什么这么难？四大技术挑战浮出水面

IWR-Bench 的设计极为严苛，直击AI能力的核心瓶颈。研究人员指出，视频转网页任务面临四大挑战：

时序理解：从连续视频帧中识别关键交互事件（如点击、拖拽）及其发生顺序。
逻辑抽象：将观察到的行为转化为编程概念，比如“点击登录按钮 → 触发验证函数 → 显示错误提示”。
资源匹配：所有静态资源（图片、CSS文件）均经过匿名化处理，模型必须通过视觉特征而非文件名来正确引用。
代码生成：输出结构清晰、语法正确、逻辑连贯的HTML、CSS和JavaScript代码。

更关键的是，这套评测机制引入了自动化代理来实际运行生成的网页，验证其交互行为是否与原视频一致。这比人工打分更客观，也更贴近真实开发需求。

有趣发现：思考不如“硬实力”，专用模型反被通用模型碾压

研究过程中，团队还发现了一些出人意料的现象：

带有“思维链”（Chain-of-Thought）或“推理模式”的模型版本，在部分任务中略有提升，但整体改善有限，说明“思考”无法弥补基础能力的不足。
一些专为视频理解优化的模型，表现反而不如通用多模态大模型。这表明：“看懂视频”不等于“能写代码”。视频转网页需要的不是单纯的视频理解，而是将动态行为抽象为程序逻辑的能力。

这也揭示了一个现实：当前AI在“感知”和“行动”之间，仍存在巨大的认知鸿沟。

不只是评测工具，更是未来开发方式的预演

IWR-Bench 的意义远不止于打分。它为AI研究提供了一个全新的维度：动态行为到代码的转化能力。

从应用角度看，一旦这项技术成熟，产品经理、设计师甚至普通用户，只需录制一段操作演示，就能让AI生成可运行的网页原型。这将极大降低前端开发门槛，推动“所见即所得”的智能开发工具成为现实。

但研究人员也提醒：高分≠可用。真实的网页开发涉及性能优化、跨浏览器兼容、安全性、可维护性等复杂维度，这些信息无法从操作视频中获取。此外，边缘情况处理、异常反馈、用户体验细节等，也难以完全推断。

未来已来，只是还没普及

IWR-Bench 标志着AI代码生成正从“静态描述”走向“动态演示”，从“文本驱动”迈向“行为驱动”。它与当前主流的GitHub Copilot式文本补全形成鲜明对比，指向一种更自然、更直观的人机协作方式。

尽管目前GPT-5在该任务上仅得36.35分，反映出AI在理解复杂交互逻辑方面仍处早期阶段，但这一基准的发布，无疑为技术演进指明了方向。

可以预见，随着更多研究聚焦于时序推理、因果建模与代码生成的融合，未来的AI或将真正实现“看一遍就会做”的智能开发能力——而 IWR-Bench，正是这场变革的起点。

AI看视频写代码？新基准测试揭露大模型真实水平：GPT-5仅得36分

视频变网页，AI能做到哪一步？

从“看图写码”到“看视频造网页”

GPT-5也只拿了36.35分，说明了什么？

为什么这么难？四大技术挑战浮出水面

有趣发现：思考不如“硬实力”，专用模型反被通用模型碾压

不只是评测工具，更是未来开发方式的预演

未来已来，只是还没普及

更多文章

三大阻碍企业AI落地的关键障碍

AI让照片“活”了！豆包上线Seedance 1.5 Pro，一键生成会说话的有声视频

Claude 进化成“AI 执行官”？新任务模式曝光，能提问、会规划、自动干活！

中国首个国标认证VLA大模型开源！人形机器人“真能干活”了？