百度蒸汽机实现AI视频流式生成:边看边改,最长60秒碾压Sora2

🎯 情报来源:量子位

百度旗下AI视频生成模型「蒸汽机」于2025年10月完成重大升级,全球首创流式生成技术,实现最长60秒视频实时生成与交互修改。该技术突破使中国在AI视频领域首次实现对OpenAI Sora2的全面超越,VBench-I2V榜单曾以89.38%得分登顶。

新版本支持图生视频(I2V)和视频续写(V2V)双模式,仅需1张图片+1条指令即可启动生成。关键突破在于12秒自动暂停机制,允许用户通过WASD+鼠标控制视角修改内容,支持任意位置提示词改写。实测显示,生成20秒视频的推理延迟已压缩至近实时水平。

💡 核心要点

  • 60秒超长生成:突破行业10秒天花板,支持2-60秒视频无限续写
  • 实时交互修改:生成过程可随时中断,历史帧扰动增强保障连贯性
  • 双模式生成:图生视频(I2V)与视频续写(V2V)最低仅需1图1指令
  • 12秒暂停机制:每12秒自动暂停等待用户指令,支持WASD视角控制
  • 技术架构革新:自回归扩散模型+噪声重注入技术实现平方级计算效率提升

📌 情报分析

技术价值:极高
通过自研Autoregressive Diffusion Models重构底层架构,采用流式滑窗技术解决Transformer架构的平方级计算瓶颈,实现业界首个真正意义上的实时交互生成。

商业价值:高
已打通Turbo/Pro/Lite多版本商用通道,在教育、影视、直播等场景完成落地验证。但实时生成对算力要求仍可能限制大规模商用。

趋势预测:极高
标志AI视频从「单向输出」转向「人机共创」范式,其技术路径可能成为行业新标准。根据百度5个月内连续4次重大迭代的节奏,预计6个月内将实现3分钟以上长视频生成。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索