🎯 情报来源:量子位
OpenAI最新发布的GPT-5在用户实测中展现出多项突破性能力。50万粉丝YouTuber Matthew Berman通过25分钟视频演示了GPT-5在近30项任务中的表现,包括成功求解20阶魔方、完全复刻网页版Word和Excel、创建3D版生命游戏等。值得注意的是,GPT-5在SimpleBench基准测试中首次超越人类平均水平,并成功破解了修改版的”外科医生谜语”。
然而,GPT-5仍存在明显短板:在多模态数数任务中无法识别人工修改的异常图像(如5条腿的斑马),直播演示中出现”52>69=30″的数学错误,且设计风格遭用户吐槽。尽管在大模型竞技场综合排名第一,但单独对战数据显示其文本任务胜率低于Gemini-2.5-Pro。
💡 核心要点
- 完成20阶魔方求解与复刻网页版Office套件(Word/Excel)
- SimpleBench测试得分首次超越人类平均水平
- 大模型竞技场综合排名第一,但文本任务单独对战胜率仅33%对抗Gemini-2.5-Pro
- 多模态缺陷:无法识别人工修改的异常图像(错误率100%)
- 引发多邻国股价波动,市场反应显著
📌 情报分析
技术价值:高 – 实现高阶魔方求解、复杂应用复刻等突破性场景,但多模态缺陷显示感知能力仍受限
商业价值:极高 – 已直接影响竞品(多邻国)股价,开发者生态展现强劲生产力工具潜力
趋势预测:高 – 综合能力领跑行业,但ARC-AGI等专项测试显示AGI核心能力尚未突破(落后Grok 4约15%)
