🎯 情报来源:AI | VentureBeat
Mila研究所团队提出名为Markovian Thinking的新技术,通过Delethink环境将大语言模型(LLM)的复杂推理过程分解为固定大小的块(如8000 tokens),成功将1.5B参数模型的训练成本降低三分之二。该方法突破传统长链推理(LongCoT)的二次方计算成本限制,实现线性计算增长和固定内存需求。
在数学竞赛题测试中,采用24,000 tokens预算训练的R1-Distill-1.5B模型性能持平或超越传统LongCoT-RL方法。更值得注意的是,该模型在推理时能突破训练限制,在140,000 tokens的超长推理后解决部分数学难题。据测算,训练96,000 tokens推理能力的模型,Delethink仅需7个H100-GPU月,而传统方法需要27个。
💡 核心要点
- 成本降低67%:1.5B参数模型训练成本减少2/3
- 突破性扩展能力:推理长度可扩展至训练预算的5.8倍(140k vs 24k tokens)
- GPU资源节省:96k tokens训练需求从27个H100-GPU月降至7个
- 跨任务优势:在数学、编程和博士级问题上均匹配或超越传统方法
- 预训练模型兼容性:GPT-OSS 120B等现成模型无需改造即可应用该技术
📌 情报分析
技术价值:极高
突破Transformer架构的二次方计算限制,实现线性扩展。实验证明该方法可使模型突破训练时的token长度限制,为百万级token推理铺平道路。
商业价值:高
推理阶段同样保持线性计算优势,企业部署成本显著降低。以代码调试为例,长时间推理成本比传统方法大幅下降。
趋势预测:极高
研究者明确指向”科学发现”级AI能力发展路径。技术兼容现有SOTA模型,预计将快速渗透至Llama、GPT等主流架构。
