🎯 情报来源:NVIDIA Blog
在MLPerf Inference v5.1最新基准测试中,NVIDIA基于Blackwell Ultra架构的GB300 NVL72机架级系统创下推理性能新纪录。该系统相比基于Blackwell的GB200 NVL72系统,在DeepSeek-R1推理吞吐量上实现1.4倍提升,同时在新增的Llama 3.1 405B Interactive基准测试中,GB200 NVL72系统比传统服务方式单GPU性能提升近50%。
Blackwell Ultra架构在Blackwell基础上实现重大升级:NVFP4 AI计算能力提升1.5倍,注意力层加速提升2倍,每个GPU配备高达288GB HBM3e内存。NVIDIA平台在MLPerf新增的全部数据中心基准测试(包括DeepSeek-R1、Llama 3.1 405B Interactive等)中均创下性能纪录。
💡 核心要点
- 1.4倍吞吐量提升:GB300 NVL72在DeepSeek-R1推理任务中对比前代GB200系统
- 288GB HBM3e内存:Blackwell Ultra单个GPU配备业界领先显存容量
- 50%单GPU性能跃升:Llama 3.1 405B Interactive测试中通过分解服务技术实现
- 全栈协同设计:NVFP4数据格式硬件加速+TensorRT-LLM软件优化组合
- 14家生态伙伴参与:包括Azure、戴尔、HPE等主流云服务商和服务器制造商
📌 情报分析
技术价值:极高 – NVFP4数据格式创新实现精度与性能平衡,分解服务技术突破LLM推理瓶颈,硬件规格(HBM3e显存)和架构优化(注意力层加速)形成技术护城河。
商业价值:高 – 云服务商和服务器制造商快速跟进(14家合作伙伴提交测试结果),TCO降低直接提升AI工厂经济性,但需关注竞争对手在4-bit量化领域的追赶。
趋势预测:极高 – 推理性能成为AI基础设施核心指标,Blackwell Ultra的架构优势可能延续至2025年;分解服务技术或成为LLM推理优化新标准。
