淘天Mobile-R1突破3B模型极限:任务级奖励框架实现49.4%成功率,超越32B基准20个百分点

🎯 情报来源:量子位

淘天集团未来生活实验室与点淘算法团队联合推出Mobile-R1交互式强化学习框架,通过创新性任务级奖励机制,使3B参数模型(Qwen2.5-VL-3B)在移动应用任务执行成功率达到49.4%,不仅超越其标准版本,更显著领先32B参数基准模型近20个百分点。该研究构建包含4,635条人工标注轨迹的数据集,通过三阶段训练实现技术突破。

💡 核心要点

  • 性能突破:3B参数Mobile-R1模型任务成功率49.4%,超过32B基准模型20个点
  • 数据集规模:构建4,635条高质量人工标注轨迹,包含24,521个单步数据
  • 训练架构:三阶段训练(格式微调+动作级GRPO+任务级GRPO),Stage3使成功率再提升1.4点
  • 泛化能力:在28个中国主流APP测试中展现优异跨应用适应性
  • 资源开放:完整开源数据集、训练框架ROLL及项目代码

📌 情报分析

技术价值:极高
首创任务级奖励机制破解移动Agent多步决策难题,三阶段训练框架将3B模型性能提升至超越32B模型的水平,技术路径具有可复制性。

商业价值:高
针对中国移动生态优化的解决方案,在电商、本地生活等场景可直接落地,淘天自有场景已验证49.4%的任务成功率。

趋势预测:高
证明小模型通过专项优化可匹敌大模型,或将推动行业转向「轻量化+垂直训练」的技术路线,开源资源加速移动Agent领域发展。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索