腾讯发布120元超低成本AI训练法:无训练GRPO技术性能提升5.4%

🎯 情报来源:量子位

腾讯优图团队于2025年10月15日发布突破性AI训练方法——无训练组相对策略优化(Training-Free GRPO)。该方法通过动态更新外部经验知识库而非调整模型参数,在DeepSeek-V3.1-Terminus模型上实现跨领域性能提升,数学推理任务准确率最高提升5.4%,成本仅需18美元。

实验数据显示,该方法在AIME24/AIME25数学竞赛基准测试中,将模型表现从80.0%/67.9%提升至82.7%/73.3%。相较传统需70000元微调的32B模型强化学习方法,新方案仅消耗100个样本和120元成本,实现成本效益500倍提升。

💡 核心要点

  • 成本突破:训练成本仅18美元(约120元),比传统方法降低99.7%
  • 性能提升:数学推理任务准确率绝对提升2.7%-5.4%,网页搜索Pass@1提升4.6%
  • 样本效率:仅需100个跨域训练样本,无需梯度更新
  • 工具优化:平均工具调用次数下降,验证方法有效性
  • 模型依赖:需671B级大模型支持,32B模型效果不佳

📌 情报分析

技术价值(极高):突破参数调优范式,通过token先验实现非参数化优化,论文已发表于arXiv

商业价值(高):成本效益比达500:1,可快速部署于金融、搜索等专业场景,但依赖大模型基础设施

趋势预测(高):预示提示工程新方向,轻量化调优方法或成中小型企业AI部署首选方案

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索