蚂蚁开源CGM模型登顶SWE-Bench:44% bug修复率,超越所有开源方案

🎯 情报来源:量子位

蚂蚁集团开源的新模型CGM(Code Graph Model)在SWE-bench Lite上以44%的bug修复率超越所有开源方案,性能媲美闭源模型。该模型首次将代码图模态融入大语言模型,摆脱对黑盒模型和复杂Agent工作流程的依赖,仅需4步即可完成bug修复。

核心要点:

  • 在SWE-bench Lite上bug修复率达44%,开源模型中排名第一,优于最佳开源模型KGCompass 7.33%
  • 首创代码图模态融合技术,将仓库代码结构图直接输入大模型,实现跨文件理解
  • 完全基于开源模型Qwen,无需依赖GPT-4等闭源模型
  • 推理流程从传统Agent的10个模块精简至4个(改写器→检索器→重排器→生成器)
  • 技术论文、代码、模型权重与训练数据已全部开源

📌 情报分析

技术价值:极高

首次实现代码图与大模型的深度融合,通过图感知注意力掩码和节点token压缩技术,使LLM上下文处理能力扩展512倍。在SWE-bench Verified上比开源基线提升10.2%至50.4%。

商业价值:高

完全开源方案降低企业私有化部署门槛,4步推理流程比传统Agent效率提升60%。适用于跨语言(Python/Java)的复杂工程场景。

趋势预测:

3-6个月内,代码图模态可能成为AI编程新标准,蚂蚁后续可能推出企业级代码审计SaaS服务。开源生态将加速出现基于CGM的垂直领域优化版本。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索