PAM模型2.0:分割一切的同时输出丰富语义信息

在AI领域的最新进展中,PAM(Perceive Anything Model)模型的2.0版本引起了广泛关注。这一由港中文MMLab、港理工、北京大学等机构联合开源的模型,不仅继承了SAM2的分割和追踪能力,还能输出丰富的语义信息,实现了从分割到理解的全方位突破。

PAM模型的创新之处在于其能够通过一次交互,完成分割、识别、解释和描述的全过程,支持图像、视频和长视频的处理,同时输出文本和Mask。这一能力的实现,得益于PAM团队构建的超大规模高质量训练数据集,包含150万个图像区域和60万个视频区域的标注。

实验结果显示,PAM仅使用3B参数,就在多个图像和视频理解基准上达到或接近SOTA水平,同时在推理效率和显存占用上表现出色,真正实现了性能与轻量的统一。

PAM模型的应用前景广阔,从AR/VR到移动端推理,都能发挥其快速响应和高效处理的优势。特别是在视频理解领域,PAM首创的流式视频字幕能力,为实时事件描述和动态叙述提供了新的可能性。

所有相关数据和研究已完全开源,为AI社区的发展贡献了宝贵资源。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索