GPT-5仅36.35分!首个video2code基准IWR-Bench揭示AI交互网页重建能力短板

🎯 情报来源:量子位

上海人工智能实验室联合浙江大学等机构近日发布首个视频输入交互网页重建评测基准IWR-Bench,旨在评估LVLM(大规模视觉语言模型)的动态交互理解能力。该基准要求模型根据用户操作视频和静态资源重建完整交互网页,测试结果显示当前最先进的GPT-5模型综合得分仅为36.35分,其中功能正确性(IFS)低至24.39%,视觉保真度(VFS)为64.25%。

IWR-Bench包含113个真实网站任务,覆盖1001次交互动作,涉及2048游戏、机票预订等复杂场景。研究团队采用自动化Agent-as-a-Judge评测框架,通过编程代理模拟用户操作进行双重评分,揭示了当前模型在事件驱动逻辑生成方面的重大缺陷。

💡 核心要点

  • GPT-5在IWR-Bench综合得分仅36.35分(IFS 24.39%/VFS 64.25%)
  • 基准包含113个网站任务、1001次交互动作,含2048等完整游戏逻辑
  • 28个模型测试显示功能实现是最大瓶颈,IFS普遍低于VFS 40%以上
  • 通用多模态模型表现优于专用视频理解模型(如VideoLLaMA3)
  • “thinking”版本模型有轻微提升(Claude-Sonnet-4提升0.62分)

📌 情报分析

技术价值:极高
首次实现视频到可交互代码的端到端评估,突破传统静态截图测试局限,为多模态模型动态理解能力建立量化标准。

商业价值:高
直接关联前端开发自动化场景,但当前24.39%的功能实现率表明距实际应用仍有显著差距。

趋势预测:高
36分的基线成绩预示该领域将迎来密集技术攻关,事件驱动逻辑生成可能成为下一代多模态模型的竞争焦点。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索