亚马逊SageMaker HyperPod集成NVIDIA GB200 NVL72,单系统支持72颗Blackwell GPU,提供1.4 exaflops稀疏计算能力

🎯 情报来源:Artificial Intelligence

亚马逊云科技今日宣布SageMaker HyperPod正式支持P6e-GB200 UltraServers,该系统搭载NVIDIA GB200 NVL72加速器,单节点可整合72颗Blackwell GPU,提供360 petaflops的FP8密集计算能力和1.4 exaflops的FP4稀疏计算能力。通过NVLink-C2C互连技术,每个Grace Blackwell超级芯片模块可提供10 petaflops FP8算力和40 petaflops FP4算力,CPU与GPU间带宽较前代提升一个数量级。

该系统支持高达13.4TB的HBM3e显存和405TB本地NVMe存储,配合130TBps的NVLink带宽和28.8Tbps的EFA v4网络吞吐,可显著加速万亿参数模型的训练与推理。实测显示,其在万亿参数LLM推理任务上的性能较前代平台提升30倍。

💡 核心要点

  • 单节点整合72颗Blackwell GPU,FP4稀疏算力达1.4 exaflops
  • NVLink-C2C互连实现CPU-GPU带宽10倍提升
  • 支持13.4TB HBM3e显存和405TB本地存储
  • 万亿参数模型推理性能提升30倍
  • 28.8Tbps网络带宽支持高并发训练

📌 情报分析

技术价值:极高
Blackwell架构第二代Transformer Engine支持MXFP6/MXFP4等新型数据格式,结合NVLink-C2C互连和拓扑感知调度,为万亿参数模型提供硬件级优化。

商业价值:高
通过SageMaker HyperPod的弹性训练计划,企业可按需采购9节点(36 GPU)或18节点(72 GPU)配置,显著降低大模型训练门槛。

趋势预测:高
该方案将加速千亿级参数模型向万亿级跃迁,NVLink全互联架构可能成为大模型训练基础设施新标准。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索