ViLaSR-7B:蚂蚁技术研究院开源新模型,空间推理任务提升18.4%

🎯 情报来源:量子位

近日,蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源了全新视觉语言模型ViLaSR-7B。该模型通过“Drawing to Reason in Space”范式,在包括迷宫导航、静态图像理解、视频空间推理等5个基准测试中平均性能提升18.4%,并在VSI-Bench上达到与Gemini-1.5-Pro相当的45.4%准确率。

核心要点:

  • ViLaSR-7B在5个主要空间推理基准测试中平均提升18.4%,显著增强多类型任务中的泛化能力。
  • 三阶段训练框架(冷启动训练、反思拒绝采样、强化学习)有效培养模型的空间推理能力。
  • 消融实验表明,反思拒绝采样机制对模型自我修正能力提升关键,强化学习优化绘图操作效率达159.4%。

📌 情报分析

技术价值:极高

ViLaSR-7B通过创新性的“边画边想”机制,解决了传统“视觉转文本”范式中信息丢失的问题,显著提升了空间感知与推理能力。其三阶段训练框架设计科学,尤其强化学习阶段优化了推理路径选择和绘图工具使用效率。

商业价值:高

该模型为机器人导航、虚拟助手等领域的空间智能应用提供了重要技术支持,未来可能在自动驾驶、AR/VR等领域实现商业化落地,市场潜力巨大。

趋势预测:

未来3-6个月内,“Thinking with Images”范式可能成为视觉推理领域主流方向,更多团队将探索类似方法以提升模型的时空推理能力,推动多模态推理向通用性与高效性发展。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索