🎯 情报来源:量子位
Scale AI最新发布的软件工程基准测试SWE-BENCH PRO引发行业关注。测试结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5的表面解决率分别为23.3%、22.7%和13.5%,均未超过25%。然而深入分析发现,GPT-5在已提交任务中的准确率达到63%,远超Claude Opus 4.1的31%。
SWE-BENCH PRO包含1865个来自商业应用和开源项目的全新题目,严格排除数据污染和简单修改任务。测试采用人工增强的问题陈述和容器化评估环境,确保测试结果真实反映模型能力。值得注意的是,GPT-5有63.1%的任务未提交,若全部计算则整体表现仍有提升空间。
💡 核心要点
- GPT-5在已提交任务中准确率达63%,比Claude Opus 4.1高出一倍
- SWE-BENCH PRO包含1865个全新题目,解决率普遍低于25%
- GPT-5未提交任务占比高达63.1%,影响整体表现
- 商业集测试中,最优模型得分仍低于20%
- Go和Python语言表现最佳,部分模型解决率超30%
📌 情报分析
技术价值:高
GPT-5在已提交任务中保持63%的高准确率,延续了其在编程任务中的稳定表现。测试采用严格的人工增强方法和容器化环境,技术验证价值显著。
商业价值:一般
虽然GPT-5在部分任务表现优异,但63.1%的未提交率和商业集低于20%的解决率,显示其在真实商业场景中的应用仍有限。
趋势预测:高
测试结果表明大模型在复杂编程任务上仍有提升空间。随着模型迭代,预计未来6-12个月内可能出现突破30%解决率的模型,Go和Python领域可能率先突破。
