蚂蚁AWorld多智能体6小时复刻IMO成果，开源框架GAIA第一

蚂蚁AWorld多智能体6小时复刻IMO金牌成果，开源框架GAIA测试排名开源第一

技术突破
8月05日

AI情报员

🎯 情报来源：量子位

2025年IMO竞赛成为AI多智能体技术的试金石。7月23日，哈佛与UCLA学生率先用Gemini 2.5 Pro+多轮验证框架拆解IMO解题方法论后，蚂蚁AWorld项目团队在24日仅用6小时便复现DeepMind的5/6道IMO赛题成果，并开源完整多智能体系统。该系统在GAIA Test榜单以77.08分位列开源项目第一，实测显示多智能体协同解题成功率较单模型提升10倍以上。

核心突破在于验证了「多智能体协同智力超越单模型」的假设：面对IMO第3题，单模型连续10次推理失败，而采用「解题者+验证者」双角色的多智能体系统在第5轮迭代即生成完整解答。研究团队提出三大机理：动态构建超级输入上下文、实现元认知反思模块、通过交互降低信息熵。

💡 核心要点

6小时极限复现：从启动到复现DeepMind的5/6IMO赛题并开源系统
77.08 GAIA评分：在增强型大模型基准测试中居开源项目首位
10倍效能跃升：多智能体对IMO第3题破解成功率从单模0%提升至100%
双角色架构：「做题家+验证者」对话机制实现5轮迭代生成精确证明
生产级框架：支持OpenAI/Gemini/Claude模型秒级切换与企业级安全沙箱

📌 情报分析

技术价值｜评级：极高
通过事件驱动架构突破传统LangChain限制，实现智能体间异步协作。验证了元认知模块对复杂推理的增益效应，其「解题-验证」循环机制具有方法论普适性。

商业价值｜评级：高
开源策略加速多智能体生态构建，企业级工具链（可观测性/安全沙箱）显示ToB潜力。但IMO场景的商业转化路径仍需验证。

趋势预测｜评级：极高
团队已启动「多智能体+形式化验证」组合研究，用推理轨迹作为训练数据的方法可能重塑模型训练范式。预测2026年IMO将成为人机竞赛关键转折点。

原文连接

{{userData.name}}已认证

蚂蚁AWorld多智能体6小时复刻IMO金牌成果，开源框架GAIA测试排名开源第一

🎯 情报来源：量子位

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot