🎯 情报来源:Turing Post
Google DeepMind科学家Kevin Patrick Murphy最新警示:当前AI模型的训练和服务成本将持续多年高于收益,直到实现更高效的”思考令牌”技术。2024年Herel & Mikolov提出的思考令牌理论正在重塑LLM推理范式,使Claude 4.5、Gemini 2.5等模型通过隐藏令牌进行内部长链推理,虽提升数学竞赛(IMO)和编程规划能力,但单次回答可能消耗数千次额外前向计算。
据Bloomberg调查,Nvidia与OpenAI的千亿美元级循环交易凸显推理成本危机——OpenAI预计到2020年代末才能实现现金流为正。Oracle GPU云每1美元AI服务器销售仅获利14美分,而AMD、Oracle等企业300亿美元级合作正在构建认知能源网络。
💡 核心要点
- 40%推理压缩:NoWait技术通过修剪”嗯…”等填充令牌实现
- 15倍加速:MARCOS论文用连续马尔可夫思维流替代离散链
- 700万参数逆袭:Tiny Recursive Models通过迭代推理击败前沿LLM
- 万亿参数开源:蚂蚁集团Ling-1T在AIME基准获70.42%分数
- 2亿美元军备竞赛:Reflection AI获NVIDIA等投资开发前沿MoE平台
📌 情报分析
技术价值:高
MARCOS的连续思维流和LaDIR的潜在扩散推理代表范式转移,但TRM证明小模型迭代可能颠覆规模竞赛。
商业价值:极高
Nvidia-OpenAI循环交易揭示推理经济已形成万亿级闭环市场,但Oracle 14%的利润率显示基础设施盈利脆弱性。
趋势预测:高
蚂蚁集团开源Ling-1T与Reflection AI的2亿融资标志去中心化趋势,2025年关键指标将是”每美元收益所需思考令牌数”。
