突破Claude-4极限!中科院清华联合团队开源SE-Agent框架,代码修复成功率最高提升112%

🎯 情报来源:量子位

中科院、清华大学及阶跃星辰联合团队于2025年8月19日发布自进化Agent框架SE-Agent,在SWE-Bench Verified基准测试中创下80%的Top-1问题解决率新纪录。该框架通过创新性的轨迹进化机制,使Claude-3.7-Sonnet模型解题成功率提升20.6个百分点至61.2%,在开源模型DeepSeek-V3上更实现73%的相对性能提升。

SE-Agent突破传统智能体单轨迹独立优化模式,引入”修订-重组-精炼”三维进化算子,通过多轨迹协同实现集体智慧进化。测试数据显示,其对Llama-3.1-70B模型的提升幅度高达112%,是目前首个在500个真实GitHub问题上验证有效的自进化框架。

💡 核心要点

  • 破纪录性能:在SWE-Bench Verified达到80% Top-1 Resolution Rate,刷新领域纪录
  • 跨模型普适性:Llama-3.1-70B表现提升112%(15.4%→32.6%),GPT-4o提升80%(22.4%→40.4%)
  • 关键技术突破:三大进化算子实现73%-112%不等的模型性能提升
  • 开源生态完善:代码已在GitHub开源,支持即插即用集成
  • 商业验证案例:成功修复scikit-learn深层BUG,突破传统智能体思维定式

📌 情报分析

技术价值:极高
轨迹级优化范式颠覆传统参数微调方式,消融实验证实修订/重组模块贡献度超70%,具备方法论突破意义。

商业价值:高
在500个真实GitHub问题上验证有效,可直接降低20%-40%的代码维护成本,但需配套计算资源支持进化计算。

趋势预测:极高
轨迹进化机制可迁移至强化学习等领域,团队已布局AgentRL方向,预计2-3年内将出现工业级应用案例。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索