华科大白翔团队推出多模态新框架LIRA:分割理解双SOTA,性能提升最高达33.2%

🎯 情报来源:量子位

华中科技大学与金山办公团队联合研发的多模态大模型LIRA在ICCV 2025上获得录用,该模型通过语义增强特征提取器(SEFE)和交错局部视觉耦合(ILVC)两大创新模块,同时实现图像分割与理解任务的双重突破。

实验数据显示,LIRA在分割任务上较OMG-LLaVA平均提升8.5%,在MMBench理解任务上提升33.2%。其7B参数版本通过ILVC模块将幻觉率降低4.8%,且联合训练时性能仅下降0.2%,显著优于同类方案15%的性能衰减。

💡 核心要点

  • 双任务突破:首个在分割(8.5%↑)和理解(33.2%↑)任务均达SOTA的多模态模型
  • 技术创新:SEFE模块融合语义与像素特征,1.8B模型分割性能提升3.8%
  • 幻觉控制:ILVC机制使7B模型幻觉率降低4.8%,联合训练仅损失0.2%性能
  • 语义解析:首次证实分割token蕴含物体方位(left/right)等丰富语义信息
  • 架构优势:基于InternLM2.5-7B骨干网络,支持448×448局部特征精细化处理

📌 情报分析

技术价值:极高
• SEFE+ILVC双模块设计系统性解决属性理解与幻觉问题,实验数据验证模块有效性(如3.8%分割提升)
• 首次揭示分割token的方位语义编码能力,为多模态表征研究提供新方向

商业价值:高
• 金山办公参与预示文档图像处理场景落地可能,细粒度分割能力适合医疗/自动驾驶领域
• 联合训练仅0.2%性能损失展现工程化潜力,优于竞品15%的衰减幅度

趋势预测:高
• 像素级任务正成为多模态竞争新赛道,LIRA的embedding-as-mask优化路径或成行业标准
• 论文披露的token语义分析方法论将推动更多视觉-语言关联研究

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索