🎯 情报来源:量子位
清华大学校友杨林与黄溢辰通过创新的提示词工程和自迭代验证流程,使谷歌Gemini 2.5 Pro在未调整模型参数的情况下,成功解答2025年IMO 6道题目中的5道,达到金牌水平(42分制下得分超过19分的铜牌门槛)。该成果仅依赖提示词优化和模型自验证,单题计算资源消耗最低仅需300k tokens(最快10分钟/题),效率显著低于传统微调方法。
研究采用双模块设计:求解器负责生成严谨的数学证明(每次生成消耗32,768 tokens),验证器模拟IMO评委进行迭代审核(每次验证15k-30k tokens)。关键突破在于将提示词拆分为「严谨生成」与「漏洞扫描」两类,通过平均5-10次迭代实现错误率可控。未攻克的第6题因验证器未能识别假阳性证明而失败,团队已提交完整解答等待官方评审。
💡 核心要点
- 5/6解题成功率:在2025年IMO中完成5道金牌级数学证明,唯一失败题目因验证环节漏洞
- 300k-5M tokens/题:最低单题计算成本仅为大厂同类方案1/10(对比谷歌Deep Think模式)
- 零模型微调:仅通过结构化提示词(归纳法/解析几何定向提示)和6步自迭代流程实现
- 双模块协同:求解器(32,768 tokens/次)与验证器(15k-30k tokens/次)分离设计降低错误率
- 学术界突破:团队由清华+加州理工/UCLA学者组成,计算资源仅为大厂1%规模
📌 情报分析
技术价值:极高
通过可复现的提示词架构(GitHub已开源)释放现有模型潜能,验证「轻量化改进」路径对数学推理的有效性。自迭代验证流程将复杂问题分解为可量化评估的论证缺口(关键错误/主要缺口/次要缺口),为AI形式化证明建立新范式。
商业价值:高
证明小团队能以极低算力实现与大厂比肩的AI数学能力(Gemini 2.5 Pro API成本约$0.5/题),对教育科技、研究辅助工具开发具有直接移植价值。但需警惕提示词设计know-how的壁垒效应。
趋势预测:高
预判Agent工作流将成为突破模型能力天花板的关键(如结合Grok 4多智能体)。IMO 2025结果暗示:当模型基础能力达到阈值后,工程优化收益可能超过单纯扩大参数规模。