🎯 情报来源:Hugging Face – Blog
2025年5月25日,GitHub更新显示,Liger对TRL的Group Relative Policy Optimization(GRPO)训练器进行了重大优化,内存使用量减少40%,且模型质量未受影响。此次更新还增加了对FSDP(完全分片数据并行)和PEFT(参数高效微调)的支持,使得在多GPU上扩展GRPO训练变得更加容易。
GRPO作为一种新兴的强化学习优化算法,近期因DeepSeek的R1模型而受到广泛关注。与传统的PPO(近端策略优化)相比,GRPO摒弃了预训练的奖励模型和价值模型,转而依赖可验证的奖励函数,能够在封闭形式下检查模型输出的正确性,无需外部奖励模型。这一特性使GRPO在数学推理和编程任务等易于验证的领域表现尤为突出。
核心要点:
- Liger优化GRPO训练器,内存消耗降低40%,模型质量保持不变。
- 新增FSDP和PEFT支持,便于多GPU扩展。
- GRPO相比PPO在数学推理和编程任务等可验证领域表现更优。
📌 情报分析
技术价值:高
GRPO通过消除对预训练奖励模型的依赖,显著降低了强化学习微调的资源需求。内存消耗减少40%的优化进一步提升了其可用性,尤其是在资源受限的环境中。开发者可以立即尝试将GRPO应用于数学推理和编程任务,以验证其性能优势。
商业价值:高
GRPO的优化为需要高效微调LLM的企业提供了新的选择,尤其是在教育和编程辅助领域。建议立即投入资源进行测试,预期ROI较高,主要风险在于GRPO在非可验证任务中的表现尚待验证。
趋势预测:
未来3-6个月内,预计会有更多研究团队采用GRPO进行LLM微调,尤其是在数学和编程领域。值得关注的是,GRPO是否能在更广泛的任务中取代PPO,以及其与FSDP、PEFT结合的进一步优化。