小米联合北大发布MoE强化学习新突破:R3方法提升30B模型性能1.29分,罗福莉任通讯作者

🎯 情报来源:量子位

小米AI实验室与北京大学近日在arXiv发布重磅论文,提出革命性MoE强化学习优化方案Rollout Routing Replay(R3)。该方法通过锁定推理阶段路由分布,成功解决MoE架构在强化学习中稳定性与效率难以兼得的行业难题。实验显示,在Qwen3-30B-A3B模型上,R3使GRPO算法性能提升1.29分,训练崩溃率降低60%。

值得注意的是,前DeepSeek核心研究员罗福莉以通讯作者身份参与研究,其今年学术引用激增8000次至1.1万次。论文第一作者为小米LLM-Core团队实习生Wenhan Ma,显示小米正通过产学研结合培养新生代AI人才。

💡 核心要点

  • 性能突破:R3方法在30B参数模型上实现GRPO算法1.29分性能提升,GSPO组合方案再优化0.95分
  • 稳定性飞跃:训练崩溃延迟至150步(传统方法60步即失效),路由重放机制降低参数漂移风险
  • 效率优化:路由掩码+KVCache缓存使相同上下文计算量减少90%以上
  • 人才动向:罗福莉维持”独立研究者”身份,年内学术引用增长8000次
  • 技术路线:MoE架构首次实现大规模强化学习稳定训练,突破后预训练时代能力边界

📌 情报分析

技术价值:极高
实验数据证实R3有效解决MoE强化学习的灾难性崩溃问题,为千亿参数MoE模型训练提供新范式。路由重放机制具有专利壁垒。

商业价值:高
小米借此确立MoE技术领先地位,可加速手机端大模型部署。但需观察工程化落地效果,目前仅30B规模验证。

趋势预测:高
2026年将有60%头部企业采用MoE+RL技术组合,该论文或成行业标准参考。罗福莉的持续参与暗示小米AI战略升级。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索