🎯 情报来源:量子位
谷歌DeepMind联合KAIST AI、Mila团队于7月17日发布革命性架构Mixture-of-Recursions(MoR),在135M-1.7B参数规模实验中实现推理速度提升2倍、KV缓存内存占用减少50%的突破。该技术通过统一参数共享与自适应计算,首次在单一框架中同步完成动态资源分配和多任务处理,训练FLOPs降低25%的情况下仍保持43.1%的少样本准确率(对照组42.3%)。
💡 核心要点
- 性能飞跃:相同16.5e18 FLOPs预算下,参数减少50%但验证损失更低,少样本准确率达43.1%
- 训练优化:20B token训练中FLOPs减少25%,训练时间缩短19%,峰值内存降低25%
- 推理突破:360M模型吞吐量超越vanilla Transformer,递归深度增加使KV缓存占用锐减
- 架构创新:融合Cycle/Sequence/Middle三种参数共享策略,配合Expert-choice动态路由机制
- 扩展验证:在360M及以上规模性能超越vanilla模型,参数量仅为后者1/3
📌 情报分析
技术价值:极高
实验数据验证了参数共享(减少50%)与递归KV缓存(内存减半)的技术协同效应,Expert-choice路由策略相较Token-choice展现显著优势,其层级过滤机制为复杂token分配计算资源的精准度提升提供新范式。
商业价值:高
训练成本降低25%直接冲击AI基础设施投入,1.7B规模模型仅需传统架构1/3参数即可达到相当性能,结合谷歌已有的MoE技术栈(如Gemini 1.5 Pro),可能重构云AI服务定价体系。
趋势预测:高
基于IsoFLOP分析中360M+模型的持续优势,MoR在超大规模模型领域可能形成与MoE的互补应用。潜在空间推理的突破性进展(如网友称”Transformer Killer”)或将加速下一代架构迭代周期。