Meta SAM 3.0曝光:支持概念提示的多实例分割,处理百物体图像仅30ms

🎯 情报来源:量子位

Meta第三代”分割一切”模型SAM 3.0技术细节曝光,已投稿ICLR 2026。该模型突破性地支持基于短语/图像示例的概念提示(PCS),实现开放词汇的多实例分割,处理含100+物体的图像仅需30ms,视频处理接近实时。

研究团队构建了包含400万独特概念、5200万掩码的大规模数据集,并推出SA-Co基准(概念覆盖达现有基准50倍)。实验显示,SAM 3在LVIS零样本分割任务中准确率达47.0(较SOTA提升8.5分),与多模态大模型结合后能处理复杂推理任务。

💡 核心要点

  • 处理速度:单图(100+物体)30ms,视频5并发目标近实时
  • 性能突破:LVIS零样本分割准确率47.0(前代38.5)
  • 数据规模:400万概念标签+5200万验证掩码训练集
  • 基准测试:SA-Co含214K概念,覆盖范围超现有基准50倍
  • 架构创新:Presence Head模块解耦识别/定位任务

📌 情报分析

技术价值:极高 – 首创可提示概念分割范式,DETR架构+Presence Head设计解决多实例检测冲突,实验数据验证显著性能提升

商业价值:高 – 30ms级响应速度满足工业级应用需求,但医疗/热成像等垂直领域零样本能力有限

趋势预测:高 – 与MLLM的协同效果显示多模态系统化解决方案潜力,视频多目标性能瓶颈需硬件协同突破

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索