🎯 情报来源:Microsoft Azure Blog
微软与NVIDIA联合发布全球首个规模化生产的NVIDIA GB300 NVL72超级计算集群,单集群部署超过4600块Blackwell Ultra GPU,通过下一代NVIDIA Quantum-X800 InfiniBand网络连接。这标志着微软全球AI数据中心将部署数十万块Blackwell Ultra GPU,旨在将大模型训练时间从数月缩短至数周,并首次支持训练参数规模达数百兆亿的AI模型。
该集群采用机架级设计,每机架含18台虚拟机共72块GPU,提供130TB/s的NVLink带宽和1,440 PFLOPS的FP4张量核心算力。微软通过重构计算、存储、网络、冷却等全栈系统,实现推理吞吐量提升和延迟降低,为多模态AI和智能体系统提供支持。
💡 核心要点
- 单集群规模突破4600块NVIDIA GB300 NVL72 GPU,采用Blackwell Ultra架构
- 机架级性能:72 GPU/机架,130TB/s NVLink带宽,37TB高速内存
- 算力指标:1,440 PFLOPS FP4算力,800Gbps InfiniBand网络带宽
- 训练效率:数百兆亿参数模型训练周期从数月压缩至数周
- 全球部署:微软计划在AI数据中心部署数十万块Blackwell Ultra GPU
📌 情报分析
技术价值:极高
Blackwell Ultra GPU+Quantum-X800 InfiniBand构建的异构架构,通过130TB/s机架内带宽和数学卸载技术(SHARP)突破内存墙限制,技术指标领先行业1-2代。
商业价值:高
微软Azure已为OpenAI等客户提供GB200集群服务,新系统将巩固其AI云服务领导地位。但每机架数百万美元的成本可能限制中小客户采用。
趋势预测:极高
数百兆亿参数模型训练需求将驱动超算集群标准化,预计2025年全球AI超算投资60%将采用类似架构。微软与NVIDIA的深度协同可能重塑AI基础设施供应链。
