Google发布多智能体推理模型Gemini 2.5 Deep Think:IMO金牌级数学能力+HLE基准测试领先34.8%

🎯 情报来源:AI News & Artificial Intelligence | TechCrunch

Google DeepMind于5月I/O大会首次公开的Gemini 2.5 Deep Think多智能体模型将于本周五正式上线,面向每月250美元的Ultra订阅用户开放。该模型采用并行计算架构,在国际数学奥林匹克竞赛(IMO)中斩获金牌,并在Humanity's Last Exam(HLE)基准测试中以34.8%的得分超越Grok 4(25.4%)和OpenAI o3(20.3%)。

同步发布的还有专用于IMO赛事的特殊版本,其单次推理需要数小时运算时间。Google声称通过新型强化学习技术优化了推理路径选择,在LiveCodeBench6编程测试中取得87.6%的行业最佳成绩,较竞品高出8-15个百分点。

💡 核心要点

  • 订阅门槛:仅限$250/月的Ultra套餐用户
  • 性能突破:HLE测试得分34.8%,领先Grok 4达9.4个百分点
  • 技术架构:多智能体并行计算,单任务消耗资源提升但质量显著提高
  • 学术应用:IMO专用模型将开放给数学家群体
  • 成本劣势:运算成本超传统模型,或长期限于高端订阅

📌 情报分析

技术价值:极高 – 多智能体架构在IMO/HLE等复杂任务中验证其技术优势,新型强化学习技术具原创性

商业价值:高 – 虽受限于高订阅门槛,但为Google Cloud AI服务提供差异化竞争力

趋势预测:极高 – xAI/OpenAI/Anthropic均已布局多智能体赛道,行业技术路线趋于统一

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索