🎯 情报来源:量子位
Meta第三代”分割一切”模型SAM 3.0技术细节曝光,已投稿ICLR 2026。该模型突破性地支持基于短语/图像示例的概念提示(PCS),实现开放词汇的多实例分割,处理含100+物体的图像仅需30ms,视频处理接近实时。
研究团队构建了包含400万独特概念、5200万掩码的大规模数据集,并推出SA-Co基准(概念覆盖达现有基准50倍)。实验显示,SAM 3在LVIS零样本分割任务中准确率达47.0(较SOTA提升8.5分),与多模态大模型结合后能处理复杂推理任务。
💡 核心要点
- 处理速度:单图(100+物体)30ms,视频5并发目标近实时
- 性能突破:LVIS零样本分割准确率47.0(前代38.5)
- 数据规模:400万概念标签+5200万验证掩码训练集
- 基准测试:SA-Co含214K概念,覆盖范围超现有基准50倍
- 架构创新:Presence Head模块解耦识别/定位任务
📌 情报分析
技术价值:极高 – 首创可提示概念分割范式,DETR架构+Presence Head设计解决多实例检测冲突,实验数据验证显著性能提升
商业价值:高 – 30ms级响应速度满足工业级应用需求,但医疗/热成像等垂直领域零样本能力有限
趋势预测:高 – 与MLLM的协同效果显示多模态系统化解决方案潜力,视频多目标性能瓶颈需硬件协同突破
