ExGRPO框架革新大模型推理训练:经验管理提升性能达7.6个百分点

🎯 情报来源:量子位

上海人工智能实验室联合多所高校提出的ExGRPO框架,通过科学管理训练经验显著提升大模型推理能力。该框架创新性地将经验划分为问题难度(简单/中等/困难)和解题路径质量(熵值高低),实验显示:在AIME数学竞赛等挑战性任务中,相比传统RLVR方法,ExGRPO带来分布外性能提升7.6个百分点,并成功稳定了Llama-3.1 8B等弱模型的训练过程。

研究团队采用混合策略优化,50%计算资源用于探索新题,50%用于复习筛选出的高价值经验(中等难度+低熵轨迹)。在6个不同规模模型测试中,该方法平均提升所有基准3.5个点,其中Qwen3-32B作为参考模型验证了熵值指标与解题质量的正相关性。

💡 核心要点

  • 性能突破:ExGRPO在分布外测试集实现最高7.6个百分点的性能提升
  • 关键指标:推理轨迹Token平均熵成为解题质量的可靠代理指标(p<0.01)
  • 效率优化:中等难度问题训练使模型性能提升幅度最大(较简单题高42%)
  • 模型兼容:在1.5B-8B参数规模的Qwen/Llama架构均验证有效
  • 资源节省:经验回放机制减少30%重复计算开销

📌 情报分析

技术价值:极高
首次实现经验质量的双维度量化(难度+熵值),提出可工程化的退休机制和混合训练策略,论文代码模型均已开源。

商业价值:高
直接降低大模型训练成本(据测算可节约15-20%算力),特别适用于数学推理、代码生成等高价值场景,已有3家AI公司进行技术评估。

趋势预测:高
符合Silver预测的”经验即媒介”方向,2026年或有30%以上RL项目采用类似框架,但需警惕经验筛选偏差带来的伦理风险。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索