美团开源13.6B视频生成模型LongCat-Video:5分钟长视频SOTA,物理理解能力比肩谷歌Veo3

🎯 情报来源:量子位

美团于2025年10月27日开源视频生成模型LongCat-Video,参数规模达13.6B,采用MIT商用许可协议。该模型在文生视频、图生视频和视频延长三大任务上均达到开源SOTA水平,可稳定生成5分钟级别720p/30fps高清视频,在VBench 2.0测试中总分62.11%位列第三,物理常识维度超越谷歌Veo3排名第一。

技术层面,模型采用Diffusion Transformer框架,通过原生预训练设计解决长视频色彩漂移问题,配合块稀疏注意力将计算量降低90%,在单H800 GPU上实现分钟级生成效率。美团表示其目标是构建世界模型,通过视频生成任务压缩物理规律等知识体系。

💡 核心要点

  • 13.6B参数开源模型,MIT商用许可协议
  • 文生视频质量超越PixVerse-V5和Wan2.2-T2V-A14B
  • 5分钟长视频生成能力,无质量损失
  • VBench物理常识维度得分第一(超越谷歌Veo3)
  • 单H800 GPU实现720p视频分钟级生成

📌 情报分析

技术价值:极高
模型集成三大视频生成任务,物理建模能力达行业顶尖水平。采用DiT框架创新性实现原生长视频预训练,块稀疏注意力等优化使计算效率提升10倍。

商业价值:高
MIT协议降低商用门槛,5分钟生成能力可直接应用于影视预演、电商视频制作等场景。美团生态内可结合外卖、到店等业务开发新型营销工具。

趋势预测:高
世界模型赛道竞争白热化,视频生成作为关键路径将持续迭代。美团连续发布Flash-Chat、Audio-Codec等模型,显示其AI技术矩阵已形成规模效应。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索