昆仑万维发布Skywork-SWE:32B参数开源模型,修复代码准确率达47%

🎯 情报来源:机器之心

近日,昆仑万维推出自主代码智能体基座模型 Skywork-SWE-32B,成为当前参数规模在 32B 以下的最强开源软件工程智能体。该模型基于其自研大规模、高质量且可验证的软件工程数据集 Skywork-SWE 训练而成,在 SWE-bench Verified 基准测试中达到了 47% 的准确率,超越了包括 DeepSeek-V3-0324 在内的多个闭源大模型。

核心要点:

  • Skywork-SWE 数据集包含 10,169 个真实代码问题和 8,209 条多轮交互轨迹,覆盖 GitHub 开源项目中的复杂修复任务。
  • Skywork-SWE-32B 在 SWE-bench 测试中取得 47% 准确率,超越 GPT-4.1-mini 和 Claude 3.5 等主流闭源模型。
  • 实验揭示 LLM 软件工程能力的 Scaling Law,性能随数据扩展呈指数级增长,尚未出现饱和迹象。

📌 情报分析

技术价值:极高

Skywork-SWE 数据集的质量和规模显著领先同类产品,其任务复杂度和真实性远超现有基准(如 SWE-bench)。同时,模型在修复代码时展现出强大的上下文理解与多轮推理能力,表明其在复杂工程任务中的潜力。

商业价值:高

作为开源模型,Skywork-SWE-32B 可直接应用于企业级软件开发和维护场景,降低人力成本并提升效率。此外,昆仑万维通过开源策略进一步巩固其技术生态,吸引更多开发者参与共创。

趋势预测:

未来 3-6 个月内,随着 Skywork-SWE 数据集向更多编程语言扩展,以及在线强化学习方法的引入,类似 Skywork-SWE 的智能体可能成为软件工程领域的标配工具,推动行业从传统开发模式向“AI+工程”转型。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索