DeepMind提出帧链CoF概念:Veo 3视频模型零样本任务成功率78%,展现通用视觉潜力

🎯 情报来源:量子位

DeepMind在最新公开的Veo 3论文中首次提出”帧链(CoF)”概念,类比语言模型中的思维链(CoT),使视频模型具备跨时空视觉推理能力。团队通过18384个视频测试发现,Veo 3在5×5迷宫路径规划任务中成功率高达78%(Veo 2仅14%),并能零样本完成62项定性任务和7项定量任务。

研究表明,Veo 3展现出感知、建模、操控和推理四大能力层级,包括理解物理规则(如石头会沉)、处理抽象关系(如背包收纳)等复杂任务。其多尝试(pass@10)策略显示性能提升无上限,结合RLHF微调等技术仍有进步空间。

💡 核心要点

  • 提出帧链(CoF)新范式:使视频模型具备时空推理能力,类比NLP领域的CoT
  • 零样本任务表现:5×5迷宫路径规划成功率78%(较Veo 2提升5.6倍)
  • 测试规模:分析18384个视频,覆盖62项定性+7项定量任务
  • 成本趋势:参考LLM每年9-900倍成本下降曲线,通用模型成本优势将显现
  • 能力跃升:从Veo 2到Veo 3实现感知→建模→操控→推理的完整能力栈

📌 情报分析

技术价值:极高
CoF架构首次实现视频模型的链式推理,测试显示其可处理物理规律理解等复杂任务,标志着视觉AI从专用工具向通用智能演进的关键突破。

商业价值:高
虽当前视频生成成本高于专用模型,但参照GPT-3发展路径,通用模型在影视制作、工业仿真等领域的规模化应用潜力巨大。pass@10策略已验证其性能扩展性。

趋势预测:极高
类比2020年LLM爆发期,Veo 3的78%迷宫任务成功率(较前代提升5.6倍)表明视频模型正处于能力跃迁拐点,3年内可能复现NLP领域”基础模型取代专用模型”的变革。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索