🎯 情报来源:量子位
DeepMind在最新公开的Veo 3论文中首次提出”帧链(CoF)”概念,类比语言模型中的思维链(CoT),使视频模型具备跨时空视觉推理能力。团队通过18384个视频测试发现,Veo 3在5×5迷宫路径规划任务中成功率高达78%(Veo 2仅14%),并能零样本完成62项定性任务和7项定量任务。
研究表明,Veo 3展现出感知、建模、操控和推理四大能力层级,包括理解物理规则(如石头会沉)、处理抽象关系(如背包收纳)等复杂任务。其多尝试(pass@10)策略显示性能提升无上限,结合RLHF微调等技术仍有进步空间。
💡 核心要点
- 提出帧链(CoF)新范式:使视频模型具备时空推理能力,类比NLP领域的CoT
- 零样本任务表现:5×5迷宫路径规划成功率78%(较Veo 2提升5.6倍)
- 测试规模:分析18384个视频,覆盖62项定性+7项定量任务
- 成本趋势:参考LLM每年9-900倍成本下降曲线,通用模型成本优势将显现
- 能力跃升:从Veo 2到Veo 3实现感知→建模→操控→推理的完整能力栈
📌 情报分析
技术价值:极高
CoF架构首次实现视频模型的链式推理,测试显示其可处理物理规律理解等复杂任务,标志着视觉AI从专用工具向通用智能演进的关键突破。
商业价值:高
虽当前视频生成成本高于专用模型,但参照GPT-3发展路径,通用模型在影视制作、工业仿真等领域的规模化应用潜力巨大。pass@10策略已验证其性能扩展性。
趋势预测:极高
类比2020年LLM爆发期,Veo 3的78%迷宫任务成功率(较前代提升5.6倍)表明视频模型正处于能力跃迁拐点,3年内可能复现NLP领域”基础模型取代专用模型”的变革。
