字节&MAP团队推出FR3E框架:强化学习新范式提升LLM推理上限,数学基准测试显著领先

🎯 情报来源:量子位

字节跳动、MAP与曼彻斯特大学的联合团队提出全新强化学习框架FR3E(First Return, Entropy-Eliciting Explore),通过结构化探索机制解决大语言模型(LLM)在推理任务中的过早收敛问题。该方法基于OpenAI经典论文思想改进,在Qwen2.5系列模型测试中,相比基线GRPO++在GSM8K等7个数学推理基准实现性能突破,尤其显著提升”全正确”轨迹数量。

关键技术突破在于两阶段设计:第一阶段通过高熵token识别关键决策点,第二阶段引入动态优势调制机制调控学习信号。实验显示该方法使模型熵值衰减速度降低40%,在已微调的Qwen2.5-Math-7B模型上成功打破传统方法的”僵化”困境。

💡 核心要点

  • 覆盖7大数学基准:GSM8K、Math500、Minerva Math等测试集全面超越GRPO++基线
  • 训练动态优化:熵值衰减速度降低40%,响应长度增加25%
  • 结果质量提升:”全正确”轨迹数量增加35%,”全错误”轨迹减少50%
  • 模型适用性:在Qwen2.5-7B/32B及专用数学模型Qwen2.5-Math-7B验证有效
  • 获得学界认可:OpenAI论文作者Jeff Clune在X平台主动转发研究成果

📌 情报分析

技术价值:极高
创新性解决RL训练中的探索-利用失衡问题,提出的动态优势调制机制具有方法论突破。实验数据证明其在数学推理这类复杂任务中可实现40%的熵值衰减改善。

商业价值:高
直接提升现有LLM的推理性能上限,Qwen2.5-Math-7B等商业模型可立即受益。数学推理能力对教育、科研等垂直领域有明确变现路径。

趋势预测:高
“结构化反馈+自适应调节”范式可能成为下一代RL训练标准,团队已指出其良好的可扩展性。OpenAI专家的背书预示该方向将获更多关注。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索