腾讯开源80B参数混元生图3.0:首个工业级原生多模态生图模型,效果对标闭源头部

🎯 情报来源:量子位

腾讯混元于2025年9月30日正式发布并开源混元图像3.0(HunyuanImage 3.0),参数规模高达80B,是目前参数量最大的开源生图模型。该模型采用原生多模态架构,将文本理解、视觉理解与高保真图像生成深度融合,支持多分辨率图像生成,具备指令遵从、世界知识推理和文字渲染能力,效果对标业界头部闭源模型。

在技术方案上,HunyuanImage 3.0基于Hunyuan-A13B(总参数量80B,激活参数量13B),采用原生多模态、统一自回归框架,实现端到端图像生成一致性、可控性与推理能力。模型采用VAE+ViT的联合特征作为图像理解输入,将Diffusion建模无缝嵌入LLM架构,并引入广义因果注意力机制,兼顾语言因果推理与图像全局建模。

💡 核心要点

  • 参数规模80B,是目前参数量最大的开源生图模型
  • 首个开源工业级原生多模态生图模型,效果对标闭源头部
  • 在SSAE评测中,平均图像准确率和全局准确率媲美甚至超越业界领先模型
  • 在人工评测GSB中,相较于Seedream 4.0胜率为1.17%,相较于Nano Banana胜率为2.64%,相较于GPT-Image胜率为5.00%
  • 代码与权重同步开源,提供完整技术报告和提示词手册

📌 情报分析

技术价值:极高 – 80B参数规模、原生多模态架构、广义因果注意力机制等技术创新,显著提升语义对齐、细节控制与复杂场景的创作稳定性。

商业价值:高 – 作为首个开源工业级原生多模态生图模型,可降低企业使用门槛,推动AI生图技术在各行业的应用。

趋势预测:高 – 开源大模型生态持续壮大,混元生图3.0的发布将进一步推动开源生图模型的发展,挑战闭源模型的领先地位。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索