🎯 情报来源:Simon Willison's Weblog
OpenAI研究科学家Alexander Wei宣布,其未公开命名的实验性大语言模型在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平表现。该模型在严格模拟人类参赛条件下(两场4.5小时闭卷考试,禁用工具和互联网),成功解决6道赛题中的5道,经三位IMO奖牌得主独立评审后获得35/42总分,达到历届金牌选手平均得分线。
值得注意的是,该能力突破并非通过专项训练实现,而是基于通用强化学习框架和测试时计算扩展技术。OpenAI研究员Sebastien Bubeck特别强调,这个”本质上是逐词预测的机器”在没有外部工具辅助的情况下,产出了需要创造性思维的高难度数学证明。
💡 核心要点
- 竞赛表现:在2025 IMO 6题中解决5题,总分35/42(金牌线约32分)
- 评估方式:3位IMO奖牌得主盲审,需达成共识评分
- 技术特性:纯基座模型(无工具调用/检索增强)实现数学推理突破
- 里程碑意义:首个达到人类数学竞赛顶级水平的通用AI系统
- 进度说明:当前为研究模型,相关能力数月内不会集成到GPT-5发布版本
📌 情报分析
技术价值:极高
突破”无工具AI”的数学推理天花板,证明纯粹语言模型可处理需要抽象思维和严格逻辑的复杂任务。其测试时计算扩展方法或开创LLM新范式。
商业价值:高
虽短期不商用,但验证了AI替代高技能认知劳动的潜力。数学推理引擎在教育、科研、密码学等领域有百亿美元级市场空间。
趋势预测:极高
IMO作为数学能力基准已失效,AI将转向更复杂评估体系。2024-2025年或出现专用数学AI产品,颠覆传统辅导/科研辅助市场。