大型推理模型(LRMs)的思考之谜:前沿AI的推理能力与局限深度解析

最新一代前沿语言模型引入了大型推理模型(LRMs),这类模型在给出答案前会生成详细的思考过程。虽然这些模型在推理基准测试中表现出改进的性能,但其基本能力、扩展特性和局限性仍未得到充分理解。

当前评估主要关注既定的数学和编程基准,强调最终答案的准确性。然而,这种评估范式经常受到数据污染的困扰,并且无法提供关于推理轨迹结构和质量的深入见解。在这项研究中,我们借助可控的谜题环境系统地调查了这些差距,这些环境允许精确操纵组合复杂性,同时保持一致的逻辑结构。

通过在不同谜题上进行广泛实验,我们发现前沿LRMs在超过特定复杂度后会面临完全准确率崩溃。更令人惊讶的是,它们表现出一种反直觉的扩展限制:它们的推理努力会随着问题复杂度的增加而增加,达到某个点后就会下降,尽管仍有足够的token预算。

通过将LRMs与标准LLMs在等效推理计算下进行比较,我们识别出三种性能模式:(1)低复杂度任务中,标准模型意外地优于LRMs;(2)中等复杂度任务中,LRMs的额外思考显示出优势;(3)高复杂度任务中,两种模型都经历完全崩溃。

我们发现LRMs在精确计算方面存在局限性:它们无法使用显式算法,并且在不同的谜题中推理不一致。通过深入研究推理轨迹,我们分析了模型探索解决方案的模式和计算行为,揭示了它们的优势和局限,最终提出了关于其真正推理能力的关键问题。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索