OpenAI研究揭秘:GPT-5等大模型为何持续产生幻觉? 新型评估体系或成解方

🎯 情报来源:AI News & Artificial Intelligence | TechCrunch

OpenAI最新研究论文指出,GPT-5等大型语言模型及ChatGPT类聊天机器人仍存在严重幻觉问题。研究表明,即使要求模型回答作者之一的Adam Tauman Kalai博士论文题目,受测聊天机器人仍给出三个不同错误答案;在询问生日时同样产生三个不准确日期。论文将幻觉定义为”语言模型生成的看似合理但实则错误的陈述”,并承认这是”所有大语言模型面临的基础性挑战”且无法完全消除。

研究团队发现,现有预训练过程仅关注词语预测准确度,未区分陈述真伪导致模型”只能通过流畅语言的正例来近似总体分布”。低频事实(如宠物生日)因无法从模式中推断,成为幻觉高发区。研究提出需重构模型评估体系,通过类似SAT考试的负分机制抑制盲目猜测行为。

💡 核心要点

  • 实验显示:模型在简单事实查询中错误率达100%(3/3答案错误)
  • OpenAI确认:幻觉问题是所有LLM的基础性技术瓶颈
  • 核心机制缺陷:预训练仅优化词语预测,缺乏真伪判别
  • 评估体系漏洞:当前准确率指标变相鼓励模型猜测
  • 解决方案:拟引入负分惩罚机制,优化不确定性表达评分

📌 情报分析

  • 技术价值(高):首次系统量化评估幻觉生成机制,提出可落地的评估框架改造方案
  • 商业价值(极高):直接影响企业级AI应用可信度,医疗/法律等专业场景需求迫切
  • 趋势预测(高):2024年行业或将转向”可信AI”评估标准,催生第三方模型审计服务

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索