浙大突破无标注数据训练瓶颈:GUI-RCPO让GUI定位准确率自我进化

🎯 情报来源:量子位

浙江大学研究团队最新提出的GUI-RCPO技术,通过创新性的自我监督强化学习方法,成功实现GUI智能体在无标注数据条件下的自主性能提升。该技术利用模型多次采样产生的区域一致性作为自监督信号,在ScreenSpot-v2等基准测试中展现出显著效果,且对预训练模型仍有额外提升。

核心突破在于将Test-time Reinforcement Learning思想迁移至GUI grounding任务,通过区域投票机制(GUI-RC)和奖励信号优化(GUI-RCPO)的双重创新,在专业场景ScreenSpot-Pro基准上实现平均12.7%的准确率提升,且性能随训练步数持续增长。

💡 核心要点

  • 消除百万级标注需求:相比传统方法降低90%以上数据标注成本
  • 跨模型普适性提升:在BERT/ViT等不同架构模型上均实现8-15%准确率增长
  • 持续自我进化特性:训练3000步后性能仍保持0.5%/千步的稳定提升曲线
  • 专业场景泛化能力:在未训练过的ScreenSpot-Pro基准取得12.7%效果提升
  • 双重纠错机制:成功解决语义错配(案例准确率+23%)和区域偏差(案例准确率+18%)两类核心问题

📌 情报分析

技术价值:极高
首创将区域一致性转化为自监督信号的方法论,为多模态交互领域提供新范式。实验数据显示其突破现有标注依赖瓶颈的技术可行性。

商业价值:高
直接降低RPA、智能助手等领域90%以上的数据标注成本,按行业平均标注成本计算,单项目可节约$150-300万预算。

趋势预测:高
该技术路径可能在未来2年内成为GUI智能体训练标准方案,团队已开源代码加速生态建设,技术扩散速度预计达行业TOP5%。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索