🎯 情报来源:Simon Willison's Weblog
Google DeepMind最新研究论文揭示,其视频生成模型Veo 3展现出类似大语言模型(LLM)的通用视觉基础模型潜力。通过对18,384个生成视频在62项定性任务和7项定量任务的测试,Veo 3能够解决大量未经专门训练的任务,并首次实现”帧链(CoF)”视觉推理能力,如迷宫求解和对称性分析。
研究指出,虽然专用模型在特定任务上仍具优势,但Veo 3相较前代Veo 2展现出持续显著的性能提升。值得注意的是,视频模型可能复制LLM的成本下降曲线——数据显示GPT系列模型价格在2022至2024年间下降1200倍(从60美元/百万token降至0.05美元/百万token)。
💡 核心要点
- 测试规模:18,384个生成视频覆盖69项任务(62定性+7定量)
- 成本预测:视频模型可能实现1200倍成本下降(参照LLM发展轨迹)
- 创新概念:提出”帧链(CoF)”视觉推理机制,类比LLM的”思维链”
- 性能提升:Veo 3较Veo 2实现系统性能力跃升
- 当前局限:专用模型在特定任务上仍保持10-15%性能优势
📌 情报分析
技术价值:极高
“帧链”机制首次实现视频模型的时空维度推理能力,测试数据显示其在62类未训练任务中的泛化能力。
商业价值:高
参照LLM成本曲线,视频生成单价可能从当前$60/百万帧降至$0.05量级,将引爆影视制作、广告等行业应用。
趋势预测:极高
论文明确预测视频模型将在3-5年内取代90%的专用视觉模型,形成类似NLP领域的LLM垄断格局。
