阿里通义开源WebSailor网络智能体:BrowseComp基准超越DeepSeek R1与Grok-3,推理效率提升2-3倍

🎯 情报来源:量子位

阿里巴巴通义实验室2025年7月开源网络智能体WebSailor,在高度复杂的BrowseComp基准测试中全面超越DeepSeek R1、GPT-4.1和Grok-3等开闭源模型。该方案通过创新的SailorFog-QA数据集生成技术和DUPO强化学习算法,将复杂网页推理任务的训练效率提升2-3倍,成为首个在超越人类能力边界的网络信息检索任务中达到领先水平的开源Agent。

核心突破在于构建了包含三级不确定性任务的SailorFog-QA数据集,其中最高难度问题需调用工具达40次才能解决。通过RFT冷启动训练结合DUPO算法,模型在BrowseComp-en/zh、XBench-DeepSearch和GAIA等基准测试中刷新开源记录,部分指标接近闭源顶尖系统DeepResearch的表现。

💡 核心要点

  • 性能突破:BrowseComp基准得分超越DeepSeek R1 15.6%、Grok-3 9.8%
  • 训练效率:DUPO算法使RL训练速度提升2-3倍,解决单问题最多需40次工具调用
  • 数据规模:SailorFog-QA生成超10万条高不确定性QA对,覆盖三级难度任务
  • 模型基础:基于Qwen-2.5-72b-instruct和Qwen-2.5-32b-instruct构建
  • 资源开放:已开源部分训练数据,模型checkpoint即将发布

📌 情报分析

技术价值:极高 – 首创随机游走建图+信息模糊化方法构建高难度训练集,DUPO算法解决多步推理样本效率问题,为开源社区提供可复现的技术路线。

商业价值:高 – 在情报分析、学术研究等专业信息检索场景具直接应用价值,但需验证实际部署中的计算成本控制。

趋势预测:高 – 开源方案首次逼近闭源顶级系统,预示开源生态在复杂Agent领域将加速发展,未来1-2年内可能出现更多超越人类的专项AI助手。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索