Sakana AI开源TreeQuest算法:ChatGPT/Gemini/DeepSeek协同工作,ARC-AGI-2测试得分提升30%

🎯 情报来源:量子位

由Transformer作者Llion Jones创立的Sakana AI近日发布开源算法AB-MCTS(TreeQuest),实现多LLM协同工作新突破。该算法通过自适应分支蒙特卡洛树搜索技术,让ChatGPT、Gemini和DeepSeek等大模型像人类团队般协作解决问题。在ARC-AGI-2基准测试中,多模型组合解决率达30%,较顶尖独立模型(23%)提升7个百分点,部分问题仅靠模型协作才能破解。

技术核心在于动态平衡探索(生成新方案)与利用(优化现存方案),通过贝叶斯后验预测和Thompson采样实现自适应分支。开源项目包含AB-MCTS-M(分层贝叶斯推断)和AB-MCTS-A(共轭先验优化)两个变体,在LiveCodeBench、CodeContest等基准测试中均超越传统MCTS方法。当计算预算增至512时,DeepSeek-V3配合AB-MCTS的性能持续提升,而重复采样方法已现增长瓶颈。

💡 核心要点

  • 性能突破:多LLM协作在ARC-AGI-2测试中解决率30%,比单模型最佳水平高7%
  • 算法创新:首次实现无界分支MCTS,节点可重复扩展并引入GEN子节点机制
  • 计算效率:预算512时AB-MCTS持续提升,DeepSeek-V3性能较重复采样高42%
  • 开源生态:以TreeQuest名义开源,含两种优化变体适配不同场景
  • 技术传承:延续团队2024年进化模型融合研究,受生物集体智能启发

📌 情报分析

技术价值:极高 – 突破传统MCTS固定分支限制,通过无界分支+自适应策略实现多LLM协同框架,实验数据表明其在不同预算下均优于基线方法15-40%

商业价值:高 – 开源策略加速生态建设,多模型协作方案可降低企业对单一供应商依赖,ARC-AGI测试提升证明其在复杂决策场景的应用潜力

趋势预测:极高 – 生物启发式AI设计成显学(参考同期达尔文-哥德尔机),多智能体协作将成AGI研发标配,论文显示该方法在预算增加时仍保持线性增长优势

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索