清华腾讯联合发布MindOmni:推理生成能力全面提升,WISE基准测试得分0.71

🎯 情报来源:量子位

近日,清华大学、腾讯ARC Lab、香港中文大学和香港大学联合推出一款名为MindOmni的多模态大模型,显著提升了AI在复杂指令理解和推理生成方面的能力。该模型在多个基准测试中表现出色,特别是在WISE基准测试中取得了0.71的总体分数,超越现有方法。

相比传统的图像生成模型,MindOmni能够理解复杂的数学表达式和多模态输入,并生成逻辑一致的图像。例如,它能正确解析“(3+6)条命的动物”为猫,并生成相关图像。这一突破得益于其三阶段训练策略和基于强化学习的推理生成策略优化(RGPO)算法。

核心要点:

  • MindOmni在WISE基准测试中得分为0.71,超越现有生成型和统一模型。
  • 通过三阶段训练策略(预训练、CoT监督微调、RGPO强化学习),模型实现了从基础理解到高级推理生成的飞跃。
  • 在MMMU和MMBench等视觉理解基准测试中,分别比Janus-Pro和MetaMorph提升10.6%和9.8%。
  • 代码和论文已开源,项目地址:原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索