DeepMind研究揭示LLM认知偏见:过度自信又易受批评影响,70%准确度建议即可改变决策

🎯 情报来源:AI News | VentureBeat

Google DeepMind与伦敦大学学院的最新研究表明,大语言模型(LLMs)在形成、维持和失去答案信心方面展现出与人类相似的认知偏见,但存在关键差异。研究发现LLMs既会对自身答案过度自信,又会在收到反对意见(即使错误)时快速失去信心,70%准确度的外部建议即可显著改变其决策。

研究人员设计了独特实验:让”答题LLM”在二元选择题中先做出初始选择,再接收虚构”建议LLM”的反馈(含明确准确率标注),最终观察其决策变化。实验首次通过控制LLM对自身初始答案的”记忆”可见性,揭示了记忆对信心更新的特殊影响机制。

💡 核心要点

  • 初始答案可见时,LLM切换决策的概率比隐藏时降低27%,表现出类似人类的”选择支持偏差”
  • 面对反对建议时,LLM改变主意的概率比支持建议时高出40%,显示出对矛盾信息的过度敏感
  • 70%准确率的反对建议足以使LLM对初始正确答案的置信度下降35%
  • 与人类”确认偏见”相反,LLM会过度重视反对意见(无论初始答案是否可见)
  • 通过定期重置对话记忆,可使模型偏见发生率降低60%

📌 情报分析

技术价值:高
首次量化LLM决策信心的动态变化机制,为模型可解释性研究提供新维度。实验设计的”记忆控制”方法具有方法论创新。

商业价值:极高
直接影响多轮对话系统设计,企业级应用可通过对话摘要等技术将偏见影响降低60%,提升客服、医疗咨询等场景的决策稳定性。

趋势预测:高
随着RLHF等训练技术的普及,LLM”谄媚倾向”可能加剧。未来12-18个月内,主流AI平台将普遍集成决策信心校准模块。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索