Eigen-1多智能体系统基于DeepSeek V3.1开源模型在HLE Bio/Chem Gold测试集上首次突破60分大关,Pass@5准确率达61.74%

🎯 情报来源:量子位

在AI科学推理的终极试炼——HLE(人类最后考试)Bio/Chem Gold测试集上,由耶鲁大学、上海交通大学、UCLA、牛津大学和Eigen AI联合开发的Eigen-1多智能体系统实现了历史性突破。该系统基于开源的DeepSeek V3.1模型,通过三大创新机制,在HLE Bio/Chem Gold测试集上Pass@1准确率达到48.3%,Pass@5准确率飙升至61.74%,首次跨越60分大关,远超谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。

Eigen-1的成功关键在于其三大创新机制:Monitor-based RAG(隐式知识增强)将token消耗减少53.5%,工作流迭代次数减少43.7%;分层解法修复(HSR)革新了多智能体协作模式;质量感知迭代推理(QAIR)实现了效率与准确率的平衡。这些创新不仅提升了性能,还大幅降低了计算资源消耗。

💡 核心要点

  • Eigen-1在HLE Bio/Chem Gold测试集上Pass@5准确率达61.74%,首次突破60分大关
  • 基于开源DeepSeek V3.1模型,性能远超GPT-5(22.82%)和Gemini 2.5 Pro(26.9%)
  • Monitor-based RAG机制减少53.5% token消耗和43.7%工作流迭代次数
  • 在SuperGPQA生物学(Hard版)测试中Pass@5达78.26%
  • TRQA文献理解任务Pass@5达79.07%

📌 情报分析

技术价值:极高 – Eigen-1通过三大创新机制解决了传统RAG的”工具税”问题,实现了性能与效率的双重突破,技术架构具有开创性。

商业价值:高 – 基于开源模型实现顶尖性能,降低了商业化应用门槛,在科研辅助、教育等领域有广阔应用前景。

趋势预测:极高 – 这一突破预示着AI辅助科学研究的新范式,开源生态的参与将加速科学AI的发展进程。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索