Claude Opus 4.1以47.6%人类专家级表现登顶OpenAI GDPval基准测试,领先GPT-5近9个百分点

🎯 情报来源:量子位

OpenAI于2025年9月26日发布名为GDPval的新型AI评估基准,该基准聚焦AI模型在真实经济场景中的价值创造能力。测试覆盖对美国GDP贡献最大的9个行业(年创收合计3万亿美元)中的44种数字职业,任务设计基于平均14年经验的行业专家工作样本,最终形成包含1320项任务的全集。

在开源220项任务的优质子集测试中,Anthropic的Claude Opus 4.1以47.6%的产出被评定为媲美人类专家成果的表现位列第一,显著领先OpenAI自家GPT-5(38.8%)和GPT-4o(12.4%)。值得注意的是,前沿模型在一年内胜率实现近翻倍增长,且超过50%任务中至少有一个模型达到或超越人类水平。

💡 核心要点

  • 经济价值覆盖:测试涵盖年创收3万亿美元的44种核心职业,单个任务平均经济价值=7小时×职业中位时薪
  • 性能差距:Claude Opus 4.1(47.6%)领先GPT-5(38.8%)8.8个百分点,GPT-4o仅12.4%
  • 评估规模:全集1320项任务,开源220项优质子集,每任务平均经过5轮人工审核
  • 进步速度:前沿模型一年内胜率提升近100%
  • 成本效益:AI+人类协作模式比纯人工效率提升50%以上

📌 情报分析

技术价值(高):GDPval首次实现多模态(PDF/XLSX/PPT处理)+经济价值量化的综合评估,自动评分器与人类一致性差距仅5%(66% vs 71%)。但44种职业覆盖度仍有限。

商业价值(极高):测试显示AI已能在50%+任务中替代年薪超10万美元的专家工作,按3万亿美元行业规模测算,潜在替代价值达万亿级。微软已与Anthropic合作优化Copilot验证其商业转化。

趋势预测(高):模型年进步率达100%,按此速度2年内或将实现80%+任务超越人类。需关注多模态能力(Claude优势领域)与垂直行业解决方案的融合突破。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索