全球首份OS Agent全景报告发布:60+基础模型竞逐AI自主操控计算机新赛道

🎯 情报来源:AI News | VentureBeat

浙江大学与OPPO AI中心联合发布的30页学术综述显示,能够自主操控计算机的”OS Agent”技术正在引发科技巨头军备竞赛。这份被计算语言学顶级会议ACL收录的研究指出,自2023年以来该领域已涌现60余个基础模型和50个专用框架,OpenAI、Anthropic、苹果和谷歌等企业均已推出相关产品。

当前最先进的系统可通过屏幕截图理解界面元素,完成点击按钮、填写表格等精确操作,在部分基准测试中成功率超50%。典型应用场景包括跨应用的复杂工作流处理,如餐厅预订-日历添加-交通提醒等系列操作,执行速度较人工提升90%以上。

💡 核心要点

  • 技术爆发:2023年后相关论文数量激增,产业界已投入数十亿美元研发资金
  • 商业落地:头部企业产品已实现50%+任务成功率,但复杂场景表现仍不稳定
  • 安全危机:研究揭示”网页间接提示注入”等新型攻击手段,现有防御体系存在重大缺口
  • 性能瓶颈:多步骤推理任务成功率不足30%,界面突变适应能力薄弱
  • 进化方向:个性化学习被视为突破重点,需解决多模态记忆系统技术难题

📌 情报分析

技术价值:高
核心突破在于将LLM与计算机视觉结合,实现数字界面语义理解。但基准测试显示,复杂任务平均完成率仅28.7%,距实用仍有差距。

商业价值:极高
麦肯锡预测到2026年,RPA+AI代理市场规模将达850亿美元。现有系统已能处理40%的重复性数字工作,企业采用意愿强烈。

趋势预测:高
Gartner将OS Agent列为2025年十大战略科技趋势。安全合规问题可能延缓金融、医疗等敏感领域应用,但消费级市场将快速渗透。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索