🎯 情报来源:Hugging Face – Blog
Hugging Face技术团队在TRL库中新增三种视觉语言模型(VLM)对齐方法:混合偏好优化(MPO)、群体相对策略优化(GRPO)及其变体群体序列策略优化(GSPO)。其中MPO通过组合DPO、BCO和SFT的联合损失函数,在MathVista基准测试中实现6.2分的显著提升。这些方法突破传统两两对比的DPO局限,能从偏好数据中提取更多信号,更适合现代VLM规模化训练。
团队同步开源了训练脚本和演示notebook,支持通过vLLM实现在线对齐训练。测试显示,使用GRPO方法的Qwen2.5VL-3B模型在几何推理任务中输出准确率显著优于基准模型,正确识别130°角度的解题过程与标准答案完全一致。
💡 核心要点
- MPO方法组合三种损失函数,使MathVista得分提升6.2个百分点
- GRPO通过群体级策略更新实现抗噪声训练,已成功应用于DeepSeek R1大模型
- GSPO在序列级别计算重要性采样权重,特别适合MoE架构模型
- vLLM集成支持colocate/server两种在线训练模式,GPU利用率提升
- Qwen2.5VL-3B经新方法微调后,几何题解准确率达100%
📌 情报分析
技术价值:极高 – MPO的复合损失函数设计解决多模态模型固有缺陷,GRPO/GSPO的群体学习机制突破PPO单样本限制,MathVista 6.2分提升具有实证
商业价值:高 – 方法已落地DeepSeek、Qwen等知名模型,vLLM集成降低训练成本,开源生态加速行业应用
趋势预测:高 – 多模态对齐将向更细粒度(序列级/群体级)发展,复合损失函数策略或成2024年VLM训练新标准