SWE-Gym发布:首个真实软件工程训练环境,助力AI代理解决率提升32%

🎯 情报来源:Apple Machine Learning Research

研究人员推出首个真实世界软件工程(SWE)训练环境SWE-Gym,包含2,438个Python任务实例,每个实例均配备可执行运行时环境、单元测试和自然语言任务描述。基于该环境训练的AI代理在SWE-Bench Verified和Lite测试集上分别实现32.0%和26.0%的解决率,创造开源权重SWE代理的新纪录。

实验显示,语言模型驱动的SWE代理在基础训练中已实现19%的绝对解决率提升。通过引入基于轨迹采样的验证器进行推理时扩展,性能得到进一步突破。团队同步公开了环境、模型及代理轨迹数据以促进后续研究。

💡 核心要点

  • 数据集规模:2,438个真实Python任务实例(含运行时环境+单元测试)
  • 性能突破:32.0%/26.0%解决率(SWE-Bench Verified/Lite)
  • 训练增益:基础代理实现19%绝对解决率提升
  • 技术组合:验证器+微调代理协同实现SOTA
  • 开源内容:环境/模型/代理轨迹全公开

📌 情报分析

技术价值:极高
• 首个真实SWE训练环境填补领域空白,2,438实例构建完整闭环验证体系
• 验证器+代理协同方案展示出1+1>2的技术组合效应

商业价值:高
• 19-32%的解决率提升可直接转化为开发效率增益
• 公开数据集将降低企业构建内部代码AI的门槛

趋势预测:高
• 开源策略可能推动形成SWE-agent技术生态
• 单元测试+自然语言描述范式或成AI编程新标准

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索