谷歌发布Gemini 2.5 Computer Use模型:UI交互能力超越竞品,延迟更低

🎯 情报来源:AI

谷歌今日正式发布基于Gemini 2.5 Pro的专用模型Gemini 2.5 Computer Use,该模型通过视觉理解和推理能力,使AI代理能够直接与用户界面(UI)交互。据官方披露,该模型在多项网页和移动控制基准测试中表现优于领先竞品,且延迟更低。开发者现可通过Google AI Studio和Vertex AI的Gemini API访问这些功能。

传统AI模型需通过结构化API与软件交互,而许多数字任务(如填写提交表单)仍需直接操作图形界面。Gemini 2.5 Computer Use实现了原生表单填写、下拉菜单操作、登录后操作等人类式交互,标志着通用型AI代理开发的关键进展。模型采用循环工作机制,通过实时截图分析生成点击/输入等动作指令,并在执行后反馈新截图形成闭环。

💡 核心要点

  • 性能优势:在网页/移动控制基准测试中全面超越竞品,延迟降低(具体数值未披露)
  • 技术架构:基于Gemini 2.5 Pro的视觉理解能力,支持实时截图分析+动作指令生成循环
  • 安全机制:内置三步防护(模型训练层/推理时安全服务/开发者自定义指令),禁止高风险操作如绕过验证码
  • 应用场景:优先优化网页浏览器交互,移动UI控制已展示潜力,暂不支持桌面系统级控制
  • 开放程度:即日通过Gemini API向开发者开放,集成于Google AI Studio和Vertex AI平台

📌 情报分析

技术价值:高 – 突破性实现像素级UI理解与操作闭环,但桌面系统支持仍是短板

商业价值:极高 – 直接解决RPA(机器人流程自动化)领域核心痛点,谷歌云平台集成带来变现通路

趋势预测:高 – 基准测试优势+低延迟特性可能重塑自动化工具市场格局(需观察实际部署成本)

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索