OpenAI GPT-5首发遇挫:数学推理漏洞频出,用户评价”Kinda Mid”,700万周活用户面临竞争危机

🎯 情报来源:AI News | VentureBeat

OpenAI备受期待的GPT-5模型在首发日即遭遇重大挑战。尽管官方演示中展示了四种子模型及”思考模式”功能,但用户实测显示其在基础数学推理(如证明8.888…≠9、解方程5.9=x+5.11)和代码生成等任务上表现逊于前代GPT-4o及竞品Claude Opus 4.1。安全公司SPLX报告指出其存在提示注入攻击漏洞,而新推出的自动路由功能因频繁误判思考模式引发大量投诉。

目前ChatGPT全球周活跃用户达7亿,但Polymarket预测市场显示,82%参与者押注谷歌将在2025年8月底前推出更优模型。阿里云同日发布的Qwen 3模型更以100万token上下文窗口实现4倍于GPT-5的单次交互容量。

💡 核心要点

  • 性能缺陷:在基础数学证明(8.888…≠9)、代数运算(5.9=x+5.11)等任务上出现低级错误
  • 竞品对比:Claude Opus 4.1在”一次性完成任务”的代码生成场景表现更优
  • 安全隐患:SPLX报告揭示存在业务对齐缺陷和提示注入攻击风险
  • 用户评价:X平台投票172人中82%选择”Kinda Mid”(一般),Reddit AMA负面评价占主导
  • 市场竞争:阿里Qwen 3实现100万token上下文,单次交互数据量达GPT-5的4倍

📌 情报分析

技术价值:高
尽管存在缺陷,四模型架构和动态路由机制仍有创新性,内部基准测试显示其代码能力领先(需实战验证)

商业价值:一般
700万周活用户基本盘稳固,但竞品Qwen 3的百万级token处理和Claude的精准代码生成构成直接威胁

趋势预测:低
Polymarket市场82%押注谷歌反超,开源模型gpt-oss反响平淡,技术债积累可能影响迭代速度

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索