NVIDIA GB300 NVL72系统创MLPerf推理新纪录,DeepSeek-R1吞吐量提升1.4倍

🎯 情报来源:NVIDIA Blog

在MLPerf Inference v5.1最新基准测试中,NVIDIA基于Blackwell Ultra架构的GB300 NVL72机架级系统创下推理性能新纪录。该系统相比基于Blackwell的GB200 NVL72系统,在DeepSeek-R1推理吞吐量上实现1.4倍提升,同时在新增的Llama 3.1 405B Interactive基准测试中,GB200 NVL72系统比传统服务方式单GPU性能提升近50%。

Blackwell Ultra架构在Blackwell基础上实现重大升级:NVFP4 AI计算能力提升1.5倍,注意力层加速提升2倍,每个GPU配备高达288GB HBM3e内存。NVIDIA平台在MLPerf新增的全部数据中心基准测试(包括DeepSeek-R1、Llama 3.1 405B Interactive等)中均创下性能纪录。

💡 核心要点

  • 1.4倍吞吐量提升:GB300 NVL72在DeepSeek-R1推理任务中对比前代GB200系统
  • 288GB HBM3e内存:Blackwell Ultra单个GPU配备业界领先显存容量
  • 50%单GPU性能跃升:Llama 3.1 405B Interactive测试中通过分解服务技术实现
  • 全栈协同设计:NVFP4数据格式硬件加速+TensorRT-LLM软件优化组合
  • 14家生态伙伴参与:包括Azure、戴尔、HPE等主流云服务商和服务器制造商

📌 情报分析

技术价值:极高 – NVFP4数据格式创新实现精度与性能平衡,分解服务技术突破LLM推理瓶颈,硬件规格(HBM3e显存)和架构优化(注意力层加速)形成技术护城河。

商业价值:高 – 云服务商和服务器制造商快速跟进(14家合作伙伴提交测试结果),TCO降低直接提升AI工厂经济性,但需关注竞争对手在4-bit量化领域的追赶。

趋势预测:极高 – 推理性能成为AI基础设施核心指标,Blackwell Ultra的架构优势可能延续至2025年;分解服务技术或成为LLM推理优化新标准。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索