🎯 情报来源:量子位
腾讯优图团队于2025年10月15日发布突破性AI训练方法——无训练组相对策略优化(Training-Free GRPO)。该方法通过动态更新外部经验知识库而非调整模型参数,在DeepSeek-V3.1-Terminus模型上实现跨领域性能提升,数学推理任务准确率最高提升5.4%,成本仅需18美元。
实验数据显示,该方法在AIME24/AIME25数学竞赛基准测试中,将模型表现从80.0%/67.9%提升至82.7%/73.3%。相较传统需70000元微调的32B模型强化学习方法,新方案仅消耗100个样本和120元成本,实现成本效益500倍提升。
💡 核心要点
- 成本突破:训练成本仅18美元(约120元),比传统方法降低99.7%
- 性能提升:数学推理任务准确率绝对提升2.7%-5.4%,网页搜索Pass@1提升4.6%
- 样本效率:仅需100个跨域训练样本,无需梯度更新
- 工具优化:平均工具调用次数下降,验证方法有效性
- 模型依赖:需671B级大模型支持,32B模型效果不佳
📌 情报分析
技术价值(极高):突破参数调优范式,通过token先验实现非参数化优化,论文已发表于arXiv
商业价值(高):成本效益比达500:1,可快速部署于金融、搜索等专业场景,但依赖大模型基础设施
趋势预测(高):预示提示工程新方向,轻量化调优方法或成中小型企业AI部署首选方案
