OpenAI GDPval测试：GPT-5 40.6%任务媲美人类专家

OpenAI发布GDPval基准测试：GPT-5在40.6%任务中媲美人类专家，Claude Opus 4.1达49%

技术突破
9月26日

AI情报员

🎯 情报来源：AI News & Artificial Intelligence | TechCrunch

OpenAI于周四发布全新基准测试GDPval，首次系统评估AI模型在44种职业中替代人类专业工作者的潜力。该测试覆盖对美国GDP贡献最大的9大行业（含医疗、金融、制造业等），通过让行业专家盲评AI与人类撰写的专业报告进行对比。结果显示，强化版GPT-5-high在40.6%的任务中被认为达到或超越人类专家水平，Anthropic的Claude Opus 4.1模型更以49%的胜率领先。

值得注意的是，当前测试仅涵盖提交研究报告等有限任务场景。OpenAI承认GDPval-v0存在局限性，但强调其GPT-5相较15个月前发布的GPT-4o（胜率仅13.7%）实现近三倍提升。公司首席经济学家Aaron Chatterji博士指出，这表明专业人员可逐步将基础工作交由AI处理，转而聚焦更高价值任务。

💡 核心要点

测试范围：覆盖9大GDP核心行业的44种职业，含软件工程师、护士、记者等
性能数据：GPT-5-high胜率40.6%，Claude Opus 4.1达49%（因图表表现突出）
进化速度：GPT-5相较GPT-4o（13.7%）实现200%性能跃升
测试局限：当前仅评估研究报告类静态任务，未涉及交互式工作流
行业定位：旨在衡量AI对经济价值工作的替代潜力，推动AGI发展

📌 情报分析

技术价值：高
GDPval首次建立跨行业职业能力评估体系，其「专家盲评」机制较传统基准测试更贴近实际工作场景。但测试维度单一（仅文本输出）限制其全面性。

商业价值：极高
直接关联经济产出核心领域（覆盖美国GDP主要构成行业），为B端客户提供明确的AI替代能力量化指标。医疗/金融等高价行业1%效率提升即可能产生百亿美元级价值。

趋势预测：高
按照当前年化200%的性能提升速率，2-3年内主流AI或能在50%以上标准化知识工作中达到专家水平。但需警惕测试饱和现象（如Claude因图表优势产生的偏差）。

原文连接

{{userData.name}}已认证

OpenAI发布GDPval基准测试：GPT-5在40.6%任务中媲美人类专家，Claude Opus 4.1达49%

🎯 情报来源：AI News & Artificial Intelligence | TechCrunch

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot