🎯 情报来源:量子位
近日,由谢赛宁及多位华人参与的团队推出了全新的编程竞赛基准测试LiveCodeBench Pro。该基准基于IOI、Codeforces和ICPC等顶级竞赛题目,每日更新题库以防止LLMs“背题”。在测试中,包括o3、Gemini-2.5-pro、Claude-3.7等在内的领先大模型均表现不佳,甚至全部未能通过高难度题目。
核心要点:
- LiveCodeBench Pro包含584道竞赛级编程问题,分为知识密集型、逻辑密集型和观察密集型三大类。
- 最佳模型o4-mini-high在工具调用被屏蔽后Elo分数仅为2100,远低于大师级2700线。
- 大模型在简单和中等难度题目上一次通过率最高仅53%,而高难度题目通过率为0。
📌 情报分析
技术价值:极高
LiveCodeBench Pro采用动态更新机制,确保了评估的真实性和挑战性,能够有效检测LLMs在算法逻辑深度上的不足。其对问题分类和标注方法细致且科学,为后续改进提供了明确方向。
商业价值:高
尽管当前模型表现欠佳,但这一基准揭示了LLMs在特定场景下的局限性,有助于推动相关技术优化,同时也为招聘和技术评测领域带来潜在应用。
趋势预测:
未来6个月内,类似LiveCodeBench Pro的动态基准可能成为行业标准,进一步倒逼大模型提升推理能力;同时,观察密集型问题或将成为下一阶段的研究热点。