L-Zero通过强化学习提升大模型性能84%-166%,开源框架NB-Agent展现通用智能路径

🎯 情报来源:量子位

招商局狮子山人工智能实验室最新研究L-Zero通过强化学习(RLVR)让大模型自主进化出通用探索、验证与记忆能力,性能提升显著。该研究开源了框架、模型及训练集,展现了通往更高级通用智能的路径。

核心要点:

  • L-Zero系统在HotpotQA任务上将Qwen2.5-7B模型的得分从22%提升至41%(提升84%),在SimpleQA数据集上EM得分从30%暴涨到80%(提升166%)。
  • 提出结构化智能体框架NB-Agent,通过“Think-Code-Observe”循环和双向绑定上下文窗口,实现主动记忆管理。
  • 采用端到端强化学习训练,提出Agentic Policy Gradient算法和多维度自动奖励函数。
  • 全部框架、模型及训练集已开源,包括20K训练数据集和模型checkpoint。

📌 情报分析

技术价值:极高

L-Zero通过RLVR范式实现了大模型自主进化,性能提升显著,尤其在开放领域问答任务上表现突出。

商业价值:高

开源框架和训练集降低了行业门槛,适用于复杂任务处理,有望推动AI Agent在多个领域的应用。

趋势预测:

未来3-6个月,L-Zero的开源生态可能吸引更多开发者参与,进一步优化框架并拓展应用场景,尤其是在需要长程记忆和复杂推理的任务中。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索