🎯 情报来源:量子位
华为近日开源了超大规模混合专家(MoE)推理项目Omni-Infer,该项目专为昇腾硬件优化,提供PD分离部署方案和系统级QPM优化。根据官方数据,其支持的盘古Pro MoE模型在昇腾800I A2上单卡推理吞吐性能达1148 tokens/s,经投机加速技术可提升至1528 tokens/s,显著优于同类稠密模型。
该项目包含推理框架和加速套件两大模块,支持与vLLM等主流开源框架兼容,并针对MoE模型特性开发了智能调度、负载均衡等专属功能。目前已在GitHub、Gitee等多个平台开放源代码,吸引了智源研究院、上海AI实验室等机构参与生态共建。
💡 核心要点
- 性能突破:昇腾800I A2单卡推理吞吐达1528 tokens/s(投机加速后)
- 架构优势:支持720亿参数MoE模型,激活参数量160亿
- 部署简化:与vLLM框架解耦,降低90%维护成本
- 硬件适配:专为CloudMatrix384推理卡优化,预集成CANN/Torch-NPU
- 生态覆盖:已接入FlagScale框架,获三大开源社区支持
📌 情报分析
技术价值:极高
实现MoE模型推理性能突破,独创”快慢思考”双系统架构,关键技术指标超越稠密模型30%以上。
商业价值:高
PD分离部署方案可降低企业推理成本,开源策略有望快速占领昇腾生态,但现阶段仅支持华为特定硬件。
趋势预测:高
MoE架构正成为大模型主流选择,项目采用的主动适配生态策略可能推动国产AI软硬件标准建立。