🎯 情报来源:量子位
SGLang团队与slime团队联合发布全球首个实现100%可复现的稳定强化学习(RL)训练框架。基于Qwen3-8B的重复实验显示,两次运行结果曲线完全重合,突破性地解决了LLM推理中的不确定性问题。该框架集成批次不变算子、CUDA Graph等关键技术,在保持分块预填充等核心功能的同时,实现确定性推理性能下降仅34.35%(FlashInfer/FlashAttention 3后端),较行业基准61.5%有显著提升。
该成果建立在Thinking Machines Lab(OpenAI前CTO创立)提出的”批次不变性”理论基础上,通过定制注意力算子和采样逻辑,首次实现从推理到训练的全链路确定性。团队公开了包括固定KV分割、多后端支持等关键技术细节,并配套发布完整的测试验证方案。
💡 核心要点
- 实现100%可复现RL训练:两次实验曲线完全重合
- 确定性推理性能损失仅34.35%(行业基准61.5%)
- 支持CUDA Graph加速(2.8倍)与Radix Cache等关键功能
- 通过50次采样测试验证,独特输出数量趋近于1
- 开源代码已支持Qwen3-8B等主流模型
📌 情报分析
技术价值:极高
实现LLM领域长期未解决的确定性推理难题,技术路径包含批次不变算子、固定KV分割等创新设计,测试方案严谨(含Single/Mixed/Prefix三级验证)。
商业价值:高直接解决RLHF训练、A/B测试等工业场景的复现需求,性能损失控制在可用范围(34.35%),且团队承诺未来优化至20%以内。
趋势预测:高
随着MoE支持(Qwen3-30B等)、FlexAttention集成等路线图推进,该技术可能成为LLM训练基础设施标准,推动可解释AI发展。
