🎯 情报来源:量子位
华为云在2025全联接大会上宣布重大算力升级:CloudMatrix384超节点规格将从384卡扩展至8192卡,构建百万级AI集群。其Tokens服务性能超越英伟达H20达3-4倍,首创EMS弹性内存存储使多轮对话时延降低67%。该服务已支撑360纳米AI(L4级多智能体平台)完成2000万Token/2小时的复杂任务,并为中科院「磐石·科学大模型」提供国产化算力底座。
数据显示,中国日均Token消耗量从2024年初的1000亿暴增至2025年6月的30万亿,增长300倍。华为云通过「智算+通算」双轨策略,鲲鹏云核数增长67%至1500万核,适配超25000个应用,形成覆盖AI推理到通用计算的完整算力体系。
💡 核心要点
- 性能突破:Tokens服务推理性能达英伟达H20的3-4倍
- 规模扩展:CloudMatrix超节点将支持8192卡规格,构建百万卡集群
- 成本优化:EMS服务降低多轮对话时延67%,显存可独立扩容
- 生态规模:鲲鹏云核数达1500万,年增长67%
- 应用实测:支撑360纳米AI完成2000万Token/1000步连续任务
📌 情报分析
技术价值:极高
全对等互联架构+MatrixLink网络实现384NPU/192CPU耦合,xDeepServe框架构建「超高速流水线」,PDC分离技术提升NPU利用率30%+
商业价值:高
按Token计费模式精准匹配30万亿级市场需求,已落地360、中科院等标杆案例,国产化替代对标英伟达
趋势预测:高
百万卡集群规划直指AI算力军备竞赛,MoE架构「一卡一专家」设计契合大模型分布式演进趋势
