🎯 情报来源:AI | VentureBeat
谷歌DeepMind实验室近日发布专为网页交互优化的Gemini 2.5 Pro Computer Use模型,该模型通过虚拟浏览器可实现表单填写、验证码识别等复杂操作。测试数据显示,其在Browserbase的WebVoyager基准测试中以79.9%准确率领先Claude Sonnet 4(69.4%)和OpenAI Agent(61.0%)。
该模型采用与Browserbase合作的特殊架构,开发者可通过Google AI Studio和Vertex AI平台接入。谷歌支付平台团队内部测试显示,其能自动修复60%的测试失败案例,第三方平台Autotab报告其复杂数据解析性能提升18%。不过当前版本暂不支持本地文件操作,输出仅限于UI动作建议。
💡 核心要点
- 基准测试表现:WebVoyager(79.9%)、AndroidWorld(69.7%)等三项关键指标领先竞品10.5%-19.6%
- 商业应用实效:支付测试修复率60%,数据解析效率提升18%,交互速度比竞品快50%
- 技术特性:支持click_at/type_text_at等14种UI动作,响应延迟低于行业水平
- 接入方式:通过Gemini API提供,输入/输出token定价与标准版一致($1.25-$15/百万token)
- 安全机制:每步动作需安全服务审查,高风险操作强制人工确认
📌 情报分析
技术价值:极高
在多模态交互领域实现突破性进展,其65.7%-79.9%的基准测试成绩显著超越主流竞品,验证了视觉-功能混合交互范式的可行性。
商业价值:高
已证实可提升60%测试自动化效率,但$1.25/百万token的定价策略与功能限制(无免费层)可能影响中小开发者采用。
趋势预测:高
谷歌将模型深度整合至Firebase等核心产品线,结合其响应速度优势,预示AI代理将快速渗透UI自动化测试、电商客服等垂直领域。
