GPT-5遭退休教授井字棋测试翻车,奥特曼承认调整模型并预热GPT-6

🎯 情报来源:量子位

OpenAI最新发布的GPT-5在基础逻辑测试中表现堪忧。波莫纳学院退休经济学教授Gary Smith通过简单的井字棋旋转测试,发现GPT-5不仅无法理解基本空间对称性,还产生大量逻辑混乱的回复。测试显示,当棋盘旋转90度时,GPT-5错误地认为这会改变游戏策略,并输出与博弈论常识相悖的分析。

OpenAI CEO山姆·奥特曼在采访中承认对GPT-5进行了语气调整,使其更接近GPT-4o的”亲切”风格。同时透露GPT-6开发进度将快于前代,并正在测试可调节思考强度的”Thinking effort”功能,最高级(max)需200美元/月订阅。

💡 核心要点

  • GPT-5在基础空间推理测试中错误率100%,无法理解棋盘旋转不影响游戏本质
  • OpenAI承认推送语气更新,使GPT-5风格向GPT-4o靠拢
  • 新功能”Thinking effort”提供5-200四级思考强度,最高级响应速度降低300%
  • GPT-6开发周期将短于GPT-4到GPT-5的间隔(约11个月)
  • 记忆功能存在未加密隐私风险,加密方案无明确时间表

📌 情报分析

技术价值:一般
测试暴露出大模型在基础逻辑和空间推理上的显著缺陷,与宣传的”博士级AI”存在差距。旋转棋盘这种确定性问题的错误回答显示其核心推理能力可能被交互优化牺牲。

商业价值:高
差异化定价的”Thinking effort”功能创造新盈利点,200美元/月的顶级订阅显示OpenAI继续推行高端化策略。GPT-6的提前预热有助于维持市场热度。

趋势预测:极高
奥特曼明确承认聊天交互已达天花板,结合其对脑机接口、机器人技术的关注,OpenAI的技术路线可能正从纯语言模型向多模态具身智能快速转变。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索