🎯 情报来源:量子位
7月24日,蚂蚁AWorld项目团队采用其多智能体框架,仅用6小时便复现并开源了DeepMind在IMO 2025中5/6道题的解题结果,开发出可一键运行的多智能体IMO系统。该系统在GAIA Test榜单上以77.08分位列所有开源工作第一,首次通过工程实践验证了”多智能体协同智力超越单模型”的突破性结论。
实验数据显示:单模型(如Gemini 2.5 Pro)尝试IMO第3题时连续10次推理失败,而采用”解题者+验证者”双智能体架构后,第5轮迭代即生成完整解答,证明多智能体系统能通过动态构建”超级上下文”解锁模型深层能力。团队提出的MCP协议支持模型即插即用,30秒可切换不同大语言模型。
💡 核心要点
- 6小时复现:从启动到复现DeepMind的5/6道IMO赛题仅用6小时
- 77.08分:GAIA Test榜单开源项目最高分,总排名第三
- 10次vs5轮:单模型连续10次失败 vs 多智能体5轮迭代成功
- 30秒切换:支持OpenAI/Gemini/Claude等模型快速切换
- 超越99%人类:当前系统数学能力已超过绝大多数人类选手
📌 情报分析
技术价值(极高):首次工程验证多智能体协同超越单模型的理论,提出”元认知外挂””信息熵降低”等创新机制,事件驱动架构突破LangChain局限。
商业价值(高):MCP协议和企业级安全设计适合商业化部署,77.08分的GAIA成绩证明其在增强推理赛道的竞争力,但IMO场景商业化路径仍需探索。
趋势预测(极高):”多智能体+形式化验证”的后续规划直指数学证明自动化,团队计划用推理轨迹训练下一代模型,可能加速AGI发展进程。