K Prize首轮获胜者仅答对7.5%题目,AI编程基准测试迎来新标杆

🎯 情报来源:AI News & Artificial Intelligence | TechCrunch

美国西部时间3月12日下午5点,由Databricks联合创始人Andy Konwinski发起的K Prize编程挑战赛公布首轮获胜者。巴西提示工程师Eduardo Rocha de Andrade以仅7.5%的正确率赢得5万美元奖金,这一成绩与当前SWE-Bench基准测试75%的最高正确率形成强烈反差。

K Prize采用与SWE-Bench相似的GitHub问题测试机制,但创新性地设置了”零污染”竞赛规则:仅使用3月12日截止日期后新标记的GitHub问题构建测试集,并通过定时提交系统防止针对性训练。Konwinski已承诺将向首个得分超过90%的开源模型提供100万美元奖金。

💡 核心要点

  • 首轮最高分仅7.5%,远低于SWE-Bench当前75%(简易版)和34%(完整版)的最高记录
  • 设置100万美元悬赏首个得分超90%的开源模型
  • 采用”零污染”测试机制,仅使用3月12日后新出现的GitHub问题
  • 测试环境限制计算资源,侧重中小型开源模型公平竞争
  • 对比显示当前AI编程能力与市场宣传存在显著差距

📌 情报分析

技术价值 | 评级:高
建立防数据污染的测试机制(仅使用截止日期后新问题),为解决AI评估体系普遍存在的”基准污染”问题提供新范式。但7.5%的超低基准也反映当前技术局限。

商业价值 | 评级:一般
100万美元悬赏具有话题性,但测试难度过高可能影响商业公司参与热情。更可能吸引开源社区和学术机构参与模型优化。

趋势预测 | 评级:极高
Princeton研究者Kapoor等学界人士已提出类似方案,反映行业对重建评估体系的迫切需求。未来6-12个月内,预计将出现更多防污染的垂直领域基准测试。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索