视觉语言模型(VLM)中的思维链(CoT)推理对于提高模型的可解释性和可信度至关重要。然而,当前训练方法主要依赖带有简短注释的数据集,这些数据集往往缺乏详细的推理过程。最新研究表明,仅使用简短答案训练VLM会导致模型在需要详细解释的推理任务上表现不佳。
为解决这一局限性,研究团队提出了一种创新的两阶段后训练策略,能够充分利用现有简短答案数据来增强CoT推理能力。第一阶段采用GPT-4o生成思维链推理内容,对简短答案进行数据增强,然后通过微调提升VLM的CoT能力。第二阶段将简短答案作为结果奖励用于强化学习,具体而言,这些答案被用作正确性指标,从模型生成的推理链中构建正负样本对,再通过直接偏好优化(DPO)来校准模型的推理过程。
实验结果表明,该方法在基准数据集上显著提升了CoT推理能力,同时增强了直接答案预测的泛化性能。这项工作不仅为VLM的CoT训练提供了关键数据资源,还证明了结果奖励在多模态模型后训练中的有效性。
从技术角度看,这项研究有三大突破:1) 创造性地将大语言模型的推理能力迁移到视觉语言模型;2) 开发了基于结果奖励的强化学习新范式;3) 实现了CoT推理与直接预测能力的协同提升。这些发现为构建更可靠、更透明的多模态AI系统提供了重要启示。