上海AI Lab突破强化学习瓶颈:POLAR奖励模型参数扩展至7B,后训练性能提升9%

🎯 情报来源:量子位

上海人工智能实验室提出新型奖励建模范式POLAR(Policy Discriminative Learning),通过策略判别学习突破强化学习扩展瓶颈。实验显示,7B参数规模的POLAR在Llama-3.1-8B强化微调中实现9%性能提升,1.8B版本即达到72B参数基线模型效果,验证了其显著的可扩展性。

该技术采用两阶段训练:先通过3.6T token预训练数据构建策略距离度量,再以少量人工偏好数据微调。在STEM任务评估中,POLAR-7B较现有最佳模型提升26.2个百分点,且验证集损失随计算量增加呈幂律下降(R²=0.9912),展现出类似大语言模型的Scaling Laws特性。

💡 核心要点

  • 参数扩展:POLAR-7B使用3.6T token预训练,验证集损失与计算量呈幂律关系(R²=0.9912)
  • 性能突破:微调Llama-3.1-8B实现9%平均提升,1.8B版本即媲美72B参数基线模型
  • 训练效率:预训练阶段采用自动化合成数据构建,仅需0.94T token即可训练1.8B模型
  • 任务表现:STEM任务准确率超越SOTA模型24.9-26.2个百分点
  • 架构创新:通过对比学习建模131个Base LLM和53个Chat LLM的策略分布距离

📌 情报分析

技术价值:极高
突破奖励模型不可扩展的固有局限,首次验证Scaling Laws规律,1.8B小模型实现72B大模型效果。

商业价值:高
将RLHF训练成本降低15-40倍,POLAR-7B开源推动行业应用,但需验证工业场景泛化能力。

趋势预测:高
策略距离度量方法可能成为新标准,未来3年或出现百亿参数级专业奖励模型,加速AGI训练进程。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索