🎯 情报来源:量子位
淘天集团未来生活实验室与点淘算法团队联合推出Mobile-R1交互式强化学习框架,通过创新性任务级奖励机制,使3B参数模型(Qwen2.5-VL-3B)在移动应用任务执行成功率达到49.4%,不仅超越其标准版本,更显著领先32B参数基准模型近20个百分点。该研究构建包含4,635条人工标注轨迹的数据集,通过三阶段训练实现技术突破。
💡 核心要点
- 性能突破:3B参数Mobile-R1模型任务成功率49.4%,超过32B基准模型20个点
- 数据集规模:构建4,635条高质量人工标注轨迹,包含24,521个单步数据
- 训练架构:三阶段训练(格式微调+动作级GRPO+任务级GRPO),Stage3使成功率再提升1.4点
- 泛化能力:在28个中国主流APP测试中展现优异跨应用适应性
- 资源开放:完整开源数据集、训练框架ROLL及项目代码
📌 情报分析
技术价值:极高
首创任务级奖励机制破解移动Agent多步决策难题,三阶段训练框架将3B模型性能提升至超越32B模型的水平,技术路径具有可复制性。
商业价值:高
针对中国移动生态优化的解决方案,在电商、本地生活等场景可直接落地,淘天自有场景已验证49.4%的任务成功率。
趋势预测:高
证明小模型通过专项优化可匹敌大模型,或将推动行业转向「轻量化+垂直训练」的技术路线,开源资源加速移动Agent领域发展。
