开源世界模型Emu3.5炸场:34B参数拿下多模态SOTA,物理模拟能力超Nano Banana

🎯 情报来源:量子位

北京智源研究院发布开源多模态世界模型Emu3.5,以34B参数量实现多项技术突破。该模型在10万亿Token视频数据上预训练,支持2K分辨率图像重建,在文本渲染、多模态交错生成等任务上超越Gemini-2.5-Flash-Image(Nano Banana)。其核心创新在于将全部任务统一为下一状态预测,通过离散扩散适配技术实现20倍推理加速。

演示视频显示,Emu3.5可生成物理规则严谨的动态3D场景,支持第一人称视角漫游。在「整理桌面」等具身操作任务中,模型展现出长时序理解能力,并能生成连贯的视觉教学流程。官方宣布模型完全开源,开发者可直接基于此构建智能体应用。

💡 核心要点

  • 参数量仅34B,在文本渲染任务上超越Nano Banana模型
  • 训练数据达10万亿Token,含海量视频连续帧与转录文本
  • 支持2K分辨率图像重建,推理速度提升20倍
  • 开源首个原生世界模型基座,支持具身操作等前沿应用
  • 采用离散扩散适配技术,突破自回归模型生成效率瓶颈

📌 情报分析

技术价值:极高 – 统一架构解决多模态长时序预测难题,DiDA技术突破生成速度限制

商业价值:高 – 开源策略加速生态构建,视频生成、智能体开发等场景可直接商业化

趋势预测:极高 – 世界模型赛道将迎爆发期,物理规则建模能力或成下一代AI竞争焦点

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索