🎯 情报来源:量子位
蚂蚁百灵团队开源轻量级推理模型Ring-lite,在AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等推理榜单中达到SOTA效果,激活参数仅2.75B,性能比肩10B以下Dense模型。该模型基于MoE架构Ling-lite-1.5(总参数16.8B)训练,采用独创的C3PO强化学习训练方法,解决了RL训练稳定性、Long-CoT SFT和RL的token分配等关键技术难题。
核心要点:
- Ring-lite在数学推理(AIME24得分76.61、AIME25得分69.11)、编程竞赛(LiveCodeBench得分60.66,CodeForces得分86.45)和科学推理(GPQA-diamond得分61.05)中均领先或持平对比模型。
- 采用C3PO强化学习训练方法,固定每个step的训练token数,显著改善RL训练中的梯度范数和吞吐波动问题。
- 从token efficiency角度提出基于entropy loss平衡SFT和RL训练比重的方案,效率较纯RL和纯SFT大幅提升。
- 构建了包含数学(73,000题)、编程(14,000样本)和科学(3,833题)的高质量RL训练数据集。
- 在2025年高考数学全国一卷测试中,成绩分布在126~138分之间。
📌 情报分析
技术价值:极高
C3PO方法解决了RL训练稳定性难题,并通过token-level优化提升效率;模型在多项推理任务中表现优异,激活参数仅2.75B,效率优势显著。
商业价值:高
轻量级模型更适合实际部署,开源策略可加速生态构建;在教育和竞赛题库等垂直领域有直接应用潜力,高考题型测试已验证部分场景适配性。
趋势预测:
未来3-6个月,团队计划实现动态token Budget分配和端到端协同优化,可能进一步突破轻量级模型性能边界;开源生态将吸引更多开发者参与MoE架构优化。
