上海交大联合深势科技开源X-Master,在“人类最后的考试”HLE上创32.1分新纪录

🎯 情报来源:量子位

上海交通大学联合深势科技团队近日发布开源工具增强推理智能体X-Master及多智能体工作流系统X-Masters,在被誉为“人类最后的考试”的HLE测试集上取得32.1分,成为首个突破30分大关的AI系统。该测试集由AI安全中心和Scale AI发起,包含3000多道研究生难度题目,此前最高分为26.9分。

研究团队采用DeepSeek-R1-0528作为推理模型核心,通过创新的工具增强推理机制和多智能体协作架构实现突破。特别值得注意的是,该系统在仅使用两种网络工具的情况下,生物学/医学类题目准确率达27.6%,超越专业生物智能体Biomni(17.3%)和STELLA(26%)。

💡 核心要点

  • HLE测试得分32.1分,创历史新高,较之前最佳成绩提升19.3%
  • 生物学/医学类准确率27.6%,超越专业生物智能体系统
  • 仅用两种网络工具即超越配备500+工具的OriGene系统
  • 开源方案包含X-Master智能体及X-Masters多智能体工作流系统
  • 测试集包含3000+题目,来自500+机构的1000+学者编制

📌 情报分析

技术价值:极高 – 创新的“代码即交互语言”设计理念和分散-堆叠式工作流架构具有突破性,消融研究显示各模块贡献明确(工具增强+3.4%,迭代优化+9.5%)

商业价值:高 – 开源策略将加速AI智能体生态发展,在科研、医疗等高价值领域具有明确应用场景,生物学专项测试67.4%的准确率证明其专业潜力

趋势预测:高 – 多智能体协作架构展示出超越单一模型的潜力,其“探索-利用”机制可能成为下一代AI系统的标准范式,为DeepSeek-V4等后续模型奠定基础

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索