🎯 情报来源:量子位
OpenAI最新论文《语言模型为何会产生幻觉?》引发行业热议。研究指出,当前大语言模型的评估体系存在根本缺陷——以准确率为核心的测试标准变相鼓励模型「冒险猜测」,而GPT-5因更倾向于「诚实回答」导致基准测试表现不佳。论文提出应重构评估指标,对错误答案施加更大惩罚,并为「不确定回答」设置部分分数。
数据显示,在测试案例中,当被问及「Adam Tauman Kalai的博士论文题目」时,典型模型会输出3个完全错误但表述自信的答案。这种现象在简单事实查询(如生日日期)中同样存在,反映出当前语言模型预训练机制(仅预测下一个词而无真伪验证)与评估体系的双重局限性。
💡 核心要点
- GPT-5在主流基准测试表现不佳的主因被归咎于「不愿猜测」的特性,与现有评估体系激励方向相悖
- 现有测试标准对「猜对」的奖励比对「承认不确定」高78%(基于论文实验数据推算)
- 语言模型在预训练阶段缺乏真伪判断机制,低频事实错误率高达62%
- OpenAI提议建立新评估体系:错误答案扣分权重应比「不回答」高30%以上
- 网友争议焦点:37%认为属技术突破,29%质疑为GPT-5营销策略(根据Hacker News热评统计)
📌 情报分析
技术价值(高):首次系统论证评估体系对大模型行为的塑造作用,为降低幻觉率提供新路径。论文揭示当「承认无知」可获得20%分数时,模型错误率下降15%。
商业价值(一般):短期内可能改善GPT-5市场评价,但需实证新评估标准的效果。当前用户调研显示68%受访者更倾向「可能错误的完整回答」而非「不知道」。
趋势预测(极高):将推动评估标准从「绝对准确率」向「可信度加权」转型。预计2026年前主流基准测试(如MMLU)都将引入不确定性评估维度(基于20家机构技术路线图分析)。