Mila提出Markovian Thinking技术:1.5B参数模型训练成本降低2/3,推理性能提升显著

🎯 情报来源:AI | VentureBeat

Mila研究所团队提出名为Markovian Thinking的新技术,通过Delethink环境将大语言模型(LLM)的复杂推理过程分解为固定大小的块(如8000 tokens),成功将1.5B参数模型的训练成本降低三分之二。该方法突破传统长链推理(LongCoT)的二次方计算成本限制,实现线性计算增长和固定内存需求。

在数学竞赛题测试中,采用24,000 tokens预算训练的R1-Distill-1.5B模型性能持平或超越传统LongCoT-RL方法。更值得注意的是,该模型在推理时能突破训练限制,在140,000 tokens的超长推理后解决部分数学难题。据测算,训练96,000 tokens推理能力的模型,Delethink仅需7个H100-GPU月,而传统方法需要27个。

💡 核心要点

  • 成本降低67%:1.5B参数模型训练成本减少2/3
  • 突破性扩展能力:推理长度可扩展至训练预算的5.8倍(140k vs 24k tokens)
  • GPU资源节省:96k tokens训练需求从27个H100-GPU月降至7个
  • 跨任务优势:在数学、编程和博士级问题上均匹配或超越传统方法
  • 预训练模型兼容性:GPT-OSS 120B等现成模型无需改造即可应用该技术

📌 情报分析

技术价值:极高
突破Transformer架构的二次方计算限制,实现线性扩展。实验证明该方法可使模型突破训练时的token长度限制,为百万级token推理铺平道路。

商业价值:高
推理阶段同样保持线性计算优势,企业部署成本显著降低。以代码调试为例,长时间推理成本比传统方法大幅下降。

趋势预测:极高
研究者明确指向”科学发现”级AI能力发展路径。技术兼容现有SOTA模型,预计将快速渗透至Llama、GPT等主流架构。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索