🎯 情报来源:量子位
上海人工智能实验室提出新型奖励建模范式POLAR(Policy Discriminative Learning),通过策略判别学习突破强化学习扩展瓶颈。实验显示,7B参数规模的POLAR在Llama-3.1-8B强化微调中实现9%性能提升,1.8B版本即达到72B参数基线模型效果,验证了其显著的可扩展性。
该技术采用两阶段训练:先通过3.6T token预训练数据构建策略距离度量,再以少量人工偏好数据微调。在STEM任务评估中,POLAR-7B较现有最佳模型提升26.2个百分点,且验证集损失随计算量增加呈幂律下降(R²=0.9912),展现出类似大语言模型的Scaling Laws特性。
💡 核心要点
- 参数扩展:POLAR-7B使用3.6T token预训练,验证集损失与计算量呈幂律关系(R²=0.9912)
- 性能突破:微调Llama-3.1-8B实现9%平均提升,1.8B版本即媲美72B参数基线模型
- 训练效率:预训练阶段采用自动化合成数据构建,仅需0.94T token即可训练1.8B模型
- 任务表现:STEM任务准确率超越SOTA模型24.9-26.2个百分点
- 架构创新:通过对比学习建模131个Base LLM和53个Chat LLM的策略分布距离
📌 情报分析
技术价值:极高
突破奖励模型不可扩展的固有局限,首次验证Scaling Laws规律,1.8B小模型实现72B大模型效果。
商业价值:高
将RLHF训练成本降低15-40倍,POLAR-7B开源推动行业应用,但需验证工业场景泛化能力。
趋势预测:高
策略距离度量方法可能成为新标准,未来3年或出现百亿参数级专业奖励模型,加速AGI训练进程。