🎯 情报来源:量子位
加州大学圣克鲁兹分校等机构的最新研究发现,大语言模型(如Llama-3-8B)在执行心算任务时,几乎所有实际计算都集中在序列的最后一个token上。通过上下文感知平均消融(CAMA)和基于注意力的窥视(ABP)技术,研究人员发现模型内部形成名为”人人为我”(AF1)的稀疏子图结构,前14层仅进行通用计算,最后2层完成信息传递,剩余层由末尾token独立完成运算。
实验数据显示,Llama-3-8B在A+B+C任务中,移除近60个注意力头后仍保持95%准确率,证明关键计算头高度集中。该模式在直接算术任务中表现优异,但对需要语义理解的应用题和Python代码完全失效。相似现象也在Pythia和GPT-J模型中被发现,但性能边界不如Llama清晰。
💡 核心要点
- 计算集中化:心算任务中95%的实际计算由最后一个token完成
- 结构创新:发现”人人为我”(AF1)稀疏子图,前14层通用计算+2层信息传输
- 注意力冗余:仅少数关键注意力头承担计算,移除60个头仍保95%准确率
- 任务局限:在直接算术任务准确率高,但语义理解类任务完全失效
- 跨模型验证:Pythia/GPT-J存在类似结构,但Llama-3-8B表现最优
📌 情报分析
技术价值:极高
首次揭示Transformer在心算任务中的分层计算机制,提出CAMA和ABP方法论创新,为模型可解释性研究提供新范式
商业价值:高
发现注意力头高度冗余特性,可指导模型压缩(如Llama-3-8B仅需保留约40%注意力头),显著降低算力成本
趋势预测:一般
当前结论限于简单算术场景,但研究指出的”任务专用子图”思路可能推动模块化架构发展,需更多跨任务验证