港大&字节Seed&复旦发布Polaris:4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能

🎯 情报来源:量子位

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方,通过Scaling RL技术,仅用700步训练即让4B小模型在数学推理任务上超越Claude 4等商业大模型。Polaris-4B在AIME25评测中取得79.4分,AIME24达81.2分,性能接近其235B版本,且支持消费级显卡部署。

该研究突破性地提出数据动态更新策略和温度动态调整方法,通过长度外推技术将32K以上长文本推理准确率从26%提升至50%+。项目已完整开源训练数据、模型和代码,包含53K精选数据集和创新的多阶段训练方案。

💡 核心要点

  • 4B模型数学推理超越Claude 4:AIME25得分79.4,AIME24得分81.2
  • 700步RL训练逼近235B大模型性能
  • 长文本推理准确率提升92%:从26%→50%+
  • 动态温度调整策略使多样性分数稳定保持60
  • 完整开源53K数据集及训练代码

📌 情报分析

技术价值:极高
首创镜像J型数据分布构建方法,突破小模型性能天花板。动态温度调整和长度外推技术(YaRN)具有方法论创新性,实验数据显示长文本处理能力提升显著。

商业价值:高
消费级显卡可部署的4B模型达到商业大模型水平,实测性能超越Seed-1.5-thinking等产品。开源策略可能加速行业小模型开发进程,但需关注专利布局。

趋势预测:高
预示RL训练效率革命:700步达成传统方法数千步效果。多阶段训练和动态参数调整可能成为下一代模型训练标准流程,尤其在数学推理等专业领域。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索