🎯 情报来源:量子位
清华大学与英伟达、斯坦福大学联合提出了一种新的监督学习方案——NFT(Negative-aware FineTuning),通过引入“隐式负向策略”来利用负向数据优化正向模型。这一方法不仅弥合了监督学习和强化学习的差距,还在大模型中表现出显著优势。
NFT在Qwen-7B模型上实现了最高的数学平均成绩,并且在32B模型中性能与主流强化学习算法DAPO基本持平。研究团队发现,模型规模越大,NFT相较于传统监督学习的优势越明显。
核心要点:
- NFT通过隐式负向策略直接优化正向模型,其损失函数梯度与GRPO在On-Policy条件下等价。
- 在Qwen-7B模型上,NFT达到最高数学平均成绩;在32B模型中,NFT性能与DAPO持平。
- NFT不依赖任何外界数据,可大幅提高数学能力,同时增加模型熵以鼓励探索。
📌 情报分析
技术价值:极高
NFT通过理论推导证明了监督学习和强化学习的深层联系,并提出了一种全新的隐式负向策略建模方法,使得纯监督学习框架下实现强化学习效果成为可能。
商业价值:高
该技术无需额外数据即可大幅提升模型性能,尤其适用于资源受限场景下的大模型优化,具有较高的商业化潜力。
趋势预测:
未来3-6个月内,NFT可能会引发学术界对监督学习与强化学习关系的进一步探讨,同时推动更多基于负向数据优化的研究方向。
