🎯 情报来源:Simon Willison's Weblog
最新研究表明,大型语言模型(LLM)推理过程中的非确定性行为主要源于批量处理规模的动态变化,而非此前普遍认为的浮点运算非结合性。来自Thinking Machines Lab的团队通过实验证实,即使在使用相同随机数种子的情况下,由于服务器负载波动导致的批量处理规模变化,仍是造成输出差异的核心因素。该团队开发的PyTorch invariant kernels已成功在Qwen3-8B模型上通过vLLM框架实现确定性推理。
研究推翻了长期存在的”并发+浮点运算”假说,指出在典型LLM前向传播过程中甚至不存在单个原子加法操作。这一发现对需要可重复输出的AI应用场景(如科学计算、审计追踪等)具有重要启示意义。
💡 核心要点
- 批量处理规模动态变化是LLM推理非确定性的主要来源(影响GPU/CPU/TPU所有硬件)
- 研究团队开发的invariant kernels已实现Qwen3-8B模型的确定性推理
- 驳斥了浮点运算非结合性导致非确定性的传统假设
- 解决方案通过PyTorch实现并集成至vLLM推理框架
📌 情报分析
技术价值:高 – 首次系统验证LLM非确定性根源,提供可落地的PyTorch解决方案
商业价值:一般 – 主要影响需要严格确定性的细分场景,通用服务影响有限
趋势预测:高 – 随着AI应用于金融、医疗等敏感领域,确定性推理需求将显著增长
