Google DeepMind推出Watch & Learn框架:无标注生成53,125条高质量CUA训练轨迹,性能提升11%

🎯 情报来源:AI | VentureBeat

Google Cloud与DeepMind联合研发的Watch & Learn(W&L)框架突破计算机使用代理(CUA)训练数据瓶颈,通过逆向动力学模型自动从YouTube等平台视频中提取53,125条高精度标注轨迹,无需人工标注。实验显示,该方法使开源模型在OSWorld基准测试中性能最高提升11个百分点,通用多模态模型的上下文学习能力提升3个百分点。

该技术将视频帧序列转化为「观察-动作」轨迹的核心在于三阶段流程:首先用50万次实时网页交互数据训练逆向动力学模型(IDM),其动作预测准确率超越基础模型;随后通过IDM解析视频帧生成带标注的轨迹;最终这些数据既可用于模型微调,也可作为上下文学习示例增强推理能力。

💡 核心要点

  • 数据规模:自动生成53,125条标注轨迹,含13.2万条人工标注+50万条自动采集的状态转换数据
  • 性能提升:开源模型UI-TARS-1.5/Qwen 2.5-VL微调后性能提升达11%,Gemini 2.5 Flash等通用模型ICL效果提升3%
  • 成本优势:完全规避人工标注,企业可直接将内部视频资源转化为训练数据
  • 技术突破:逆向动力学模型(IDM)在动作预测任务上超越现成基础模型

📌 情报分析

技术价值:极高
首创视频→轨迹的端到端自动化流程,IDM架构显著提升动作预测精度(具体数据未披露但明确优于基线),支持多模态模型协同工作

商业价值:高
解决企业定制化CUA开发的数据痛点,实验显示53k轨迹即可带来显著提升,边际成本趋近于零(仅需录制操作视频)

趋势预测:高
随着多模态大模型降价,该方法将加速CUA在ERP/IT运维等场景落地,论文提及「可将会议录像转化为训练数据」预示企业知识沉淀新范式

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索