苹果CVPR 2025重磅发布:FastVLM、Matrix3D等四大AI突破重塑计算机视觉边界

在田纳西州纳什维尔举行的IEEE/CVF计算机视觉与模式识别大会(CVPR 2025)上,苹果研究院以行业赞助商身份展示了四项颠覆性AI技术,涵盖视觉语言模型、3D摄影测量、多模态预训练和视频生成领域,其开源策略与硬件适配特性引发业界广泛关注。

FastVLM:高分辨率视觉编码的实时革命
针对视觉语言模型(VLMs)在高分辨率图像处理中的效率瓶颈,苹果提出FastViTHD混合视觉编码器。该技术通过减少token数量将1080P图像编码速度提升3倍,同时保持90%以上的准确率。特别值得注意的是,配套发布的MLX框架iOS/macOS演示应用,标志着苹果在端侧隐私保护AI的实质性进展。

Matrix3D:单模型统一多任务3D重建
传统摄影测量需要密集图像采集和分立算法串联的痛点被Matrix3D创新解决。这个基于多模态扩散Transformer的模型,通过掩码学习策略实现姿态估计、深度预测和新视角合成的端到端训练。测试数据显示,其在稀疏视角(<10张)场景下的重建精度超越现有方案27%,为移动端AR内容创作提供新范式。

AIMv2:多模态自回归预训练新范式
苹果首次将语言模型的成功经验迁移至视觉领域,AIMv2通过联合生成图像块和文本token的预训练方式,在ImageNet-1K分类任务中仅用1/5训练样本即达到85.3%准确率。这种”视觉GPT”架构展现出在具身智能等新兴领域的应用潜力。

WVD:显式3D建模的视频扩散框架
突破传统RGB帧生成的隐式限制,世界一致视频扩散(WVD)模型通过联合学习RGB-XYZ空间分布,实现单图3D生成与摄像机轨迹控制的统一。在NeRF合成数据集测试中,其跨视角一致性误差降低至0.32px,为影视级特效制作提供工业化工具。

苹果研究院负责人表示,这些突破性成果将在年内通过Core ML框架落地至苹果生态,同时持续加码对拉丁裔CV学者(LXCV)和计算机视觉女性(WiCV)等少数群体的支持。本次开源的三项核心算法代码库已在GitHub获得超过2,400颗星标,反映出学术界对苹果开放策略的积极回应。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索