清华英伟达联合提出NFT:隐式负向策略提升数学能力,性能持平强化学习

🎯 情报来源:量子位

清华大学与英伟达、斯坦福大学联合提出了一种新的监督学习方案——NFT(Negative-aware FineTuning),通过引入“隐式负向策略”来利用负向数据优化正向模型。这一方法不仅弥合了监督学习和强化学习的差距,还在大模型中表现出显著优势。

NFT在Qwen-7B模型上实现了最高的数学平均成绩,并且在32B模型中性能与主流强化学习算法DAPO基本持平。研究团队发现,模型规模越大,NFT相较于传统监督学习的优势越明显。

核心要点:

  • NFT通过隐式负向策略直接优化正向模型,其损失函数梯度与GRPO在On-Policy条件下等价。
  • 在Qwen-7B模型上,NFT达到最高数学平均成绩;在32B模型中,NFT性能与DAPO持平。
  • NFT不依赖任何外界数据,可大幅提高数学能力,同时增加模型熵以鼓励探索。

📌 情报分析

技术价值:极高

NFT通过理论推导证明了监督学习和强化学习的深层联系,并提出了一种全新的隐式负向策略建模方法,使得纯监督学习框架下实现强化学习效果成为可能。

商业价值:高

该技术无需额外数据即可大幅提升模型性能,尤其适用于资源受限场景下的大模型优化,具有较高的商业化潜力。

趋势预测:

未来3-6个月内,NFT可能会引发学术界对监督学习与强化学习关系的进一步探讨,同时推动更多基于负向数据优化的研究方向。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索