月之暗面发布Kimi-Researcher:端到端强化学习Agent,HLE Pass@1达26.9%

🎯 情报来源:机器之心

昨日,月之暗面发布了一款名为Kimi-Researcher的自主智能体(Agent),其核心特点是基于端到端强化学习训练,并在复杂任务中展现出强大性能。Kimi-Researcher在「人类最后一场考试」(Humanity's Last Exam, HLE) 中取得了26.9%的Pass@1成绩,创下最新的SOTA水平,同时在多个基准测试中表现优异。

核心要点:

  • Kimi-Researcher平均每项任务执行23个推理步骤,访问超过200个网址,展现了强大的多轮搜索与推理能力。
  • 在xbench-DeepSearch子任务中,Kimi-Researcher的Pass@1准确率达到69%,超越了带有搜索工具的同类模型。
  • 通过端到端强化学习,Kimi-Researcher从初始8.6%的HLE分数提升至26.9%,证明了该方法在提升智能体性能方面的潜力。
  • 研究团队构建了完全异步的rollout系统和回合级局部回放机制,以应对大规模强化学习的效率与稳定性挑战。
  • Kimi-Researcher计划在未来几个月开源其基础预训练模型及强化学习模型。

📌 情报分析

技术价值:高

Kimi-Researcher采用端到端强化学习,解决了传统智能体开发中灵活性不足的问题,同时在长程任务和动态环境适应方面表现突出。其上下文管理机制和负样本控制策略显著提升了模型的鲁棒性和效率。

商业价值:高

Kimi-Researcher不仅适用于学术研究、法律分析等高价值领域,还具备向企业用户推广的潜力。未来开源计划可能吸引更多开发者参与生态建设,进一步扩大其市场影响力。

趋势预测:

未来3-6个月内,端到端强化学习可能成为智能体开发的主流方向,更多企业将探索类似技术。Kimi-Researcher的开源计划或将推动国内自研大模型的发展,同时吸引国际关注。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索