华为开源Omni-Infer:超大规模MoE推理框架单卡吞吐达1528 tokens/s,支持昇腾硬件

🎯 情报来源:量子位

华为近日开源了超大规模混合专家(MoE)推理项目Omni-Infer,该项目专为昇腾硬件优化,提供PD分离部署方案和系统级QPM优化。根据官方数据,其支持的盘古Pro MoE模型在昇腾800I A2上单卡推理吞吐性能达1148 tokens/s,经投机加速技术可提升至1528 tokens/s,显著优于同类稠密模型。

该项目包含推理框架和加速套件两大模块,支持与vLLM等主流开源框架兼容,并针对MoE模型特性开发了智能调度、负载均衡等专属功能。目前已在GitHub、Gitee等多个平台开放源代码,吸引了智源研究院、上海AI实验室等机构参与生态共建。

💡 核心要点

  • 性能突破:昇腾800I A2单卡推理吞吐达1528 tokens/s(投机加速后)
  • 架构优势:支持720亿参数MoE模型,激活参数量160亿
  • 部署简化:与vLLM框架解耦,降低90%维护成本
  • 硬件适配:专为CloudMatrix384推理卡优化,预集成CANN/Torch-NPU
  • 生态覆盖:已接入FlagScale框架,获三大开源社区支持

📌 情报分析

技术价值:极高
实现MoE模型推理性能突破,独创”快慢思考”双系统架构,关键技术指标超越稠密模型30%以上。

商业价值:高
PD分离部署方案可降低企业推理成本,开源策略有望快速占领昇腾生态,但现阶段仅支持华为特定硬件。

趋势预测:高
MoE架构正成为大模型主流选择,项目采用的主动适配生态策略可能推动国产AI软硬件标准建立。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索