谷歌DeepMind推出Gemini 2.5 Pro计算机使用模型:浏览器操作准确率领先竞品19.6%

🎯 情报来源:AI | VentureBeat

谷歌DeepMind实验室近日发布专为网页交互优化的Gemini 2.5 Pro Computer Use模型,该模型通过虚拟浏览器可实现表单填写、验证码识别等复杂操作。测试数据显示,其在Browserbase的WebVoyager基准测试中以79.9%准确率领先Claude Sonnet 4(69.4%)和OpenAI Agent(61.0%)。

该模型采用与Browserbase合作的特殊架构,开发者可通过Google AI Studio和Vertex AI平台接入。谷歌支付平台团队内部测试显示,其能自动修复60%的测试失败案例,第三方平台Autotab报告其复杂数据解析性能提升18%。不过当前版本暂不支持本地文件操作,输出仅限于UI动作建议。

💡 核心要点

  • 基准测试表现:WebVoyager(79.9%)、AndroidWorld(69.7%)等三项关键指标领先竞品10.5%-19.6%
  • 商业应用实效:支付测试修复率60%,数据解析效率提升18%,交互速度比竞品快50%
  • 技术特性:支持click_at/type_text_at等14种UI动作,响应延迟低于行业水平
  • 接入方式:通过Gemini API提供,输入/输出token定价与标准版一致($1.25-$15/百万token)
  • 安全机制:每步动作需安全服务审查,高风险操作强制人工确认

📌 情报分析

技术价值:极高
在多模态交互领域实现突破性进展,其65.7%-79.9%的基准测试成绩显著超越主流竞品,验证了视觉-功能混合交互范式的可行性。

商业价值:高
已证实可提升60%测试自动化效率,但$1.25/百万token的定价策略与功能限制(无免费层)可能影响中小开发者采用。

趋势预测:高
谷歌将模型深度整合至Firebase等核心产品线,结合其响应速度优势,预示AI代理将快速渗透UI自动化测试、电商客服等垂直领域。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索