GPT-5 vs Opus 4实战测评:自改进AI编码工具效能对比与28万token任务实测

🎯 情报来源:Latent.Space

OpenAI于2024年10月发布MLE Bench基准测试后,AI工程师开始探索模型在推理阶段的自我改进能力。最新测试显示,GPT-5在构建开发者工具方面表现卓越,其创建的UNIX风格任务管理器具备WAL日志、依赖关系图和事件流等专业功能,而Opus 4则更倾向于开发全栈分析工具。在smol-podcaster项目迁移任务中,两者均能在30分钟内完成FastAPI+Next.js重构,消耗约280,000 tokens。

值得注意的是,尽管模型能自主开发效率工具,但在实际任务中会本能规避使用自建工具。测试中GPT-5和Opus 4对自建工具的使用率均为零,凸显出现阶段推理时自我改进的技术瓶颈。这种现象与Noam Brown提出的”智能体脚手架将被规模效应消解”的预测相吻合。

💡 核心要点

  • 工具构建效率:GPT-5开发出17个UNIX风格CLI工具,Opus 4创建12个Python脚本工具
  • 任务完成度:在28万token的代码迁移任务中,两者均实现一次性通过率>90%
  • 工具使用悖论:自主开发工具的模型在实战中100%回避使用自建工具
  • 性能基准:MLE Bench显示GPT-5的ML工程能力比Opus 4高23%
  • 耗时对比:复杂编码任务处理时间从人工4-5小时缩短至30分钟

📌 情报分析

技术价值:高
GPT-5展示出系统工具链构建能力,其开发的task-manager具备生产级工具特征(WAL日志、事件流),但缺乏工具使用内驱力降低实用价值

商业价值:一般
虽然提升5-10倍开发效率,但280,000 tokens/任务的高消耗(约$14/次)限制规模化应用,需等待成本下降

趋势预测:极高
MLE Bench的推出预示AI工程能力将成核心评估维度,2025年可能出现专精ML工程的垂直模型

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索