GPT-5编程测评反转:未提交任务占比63.1%,实际准确率超Claude一倍

🎯 情报来源:量子位

Scale AI最新发布的软件工程基准测试SWE-BENCH PRO引发行业关注。测试结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5的表面解决率分别为23.3%、22.7%和13.5%,均未超过25%。然而深入分析发现,GPT-5在已提交任务中的准确率达到63%,远超Claude Opus 4.1的31%。

SWE-BENCH PRO包含1865个来自商业应用和开源项目的全新题目,严格排除数据污染和简单修改任务。测试采用人工增强的问题陈述和容器化评估环境,确保测试结果真实反映模型能力。值得注意的是,GPT-5有63.1%的任务未提交,若全部计算则整体表现仍有提升空间。

💡 核心要点

  • GPT-5在已提交任务中准确率达63%,比Claude Opus 4.1高出一倍
  • SWE-BENCH PRO包含1865个全新题目,解决率普遍低于25%
  • GPT-5未提交任务占比高达63.1%,影响整体表现
  • 商业集测试中,最优模型得分仍低于20%
  • Go和Python语言表现最佳,部分模型解决率超30%

📌 情报分析

技术价值:高
GPT-5在已提交任务中保持63%的高准确率,延续了其在编程任务中的稳定表现。测试采用严格的人工增强方法和容器化环境,技术验证价值显著。

商业价值:一般
虽然GPT-5在部分任务表现优异,但63.1%的未提交率和商业集低于20%的解决率,显示其在真实商业场景中的应用仍有限。

趋势预测:高
测试结果表明大模型在复杂编程任务上仍有提升空间。随着模型迭代,预计未来6-12个月内可能出现突破30%解决率的模型,Go和Python领域可能率先突破。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索