🎯 情报来源:Engineering at Meta
Meta在2025年OCP全球峰会上公布了下一代AI训练集群网络架构的重大进展。其核心创新包括:1)双阶段解耦调度架构(DSF)可支持多达18,432个XPU的非阻塞互连;2)全新非调度架构(NSF)采用浅缓冲以太网交换机,为千兆瓦级AI集群(如Prometheus)提供基础;3)新增基于NVIDIA Spectrum-4的51Tbps交换机Minipack3N,并联合AMD、微软等巨头启动ESUN以太网扩展计划。
💡 核心要点
- 18,432 XPU互连规模:双阶段DSF架构实现跨数据中心建筑的大规模AI集群互连
- 51Tbps交换机矩阵:新增NVIDIA Spectrum-4方案的Minipack3N,与Broadcom/Cisco方案形成完整产品线
- 微秒级延迟:NSF架构通过浅缓冲设计实现低往返延迟,支持自适应路由负载均衡
- 400G光学方案:推出500米距离的2x400G FR4 LITE光学模块,成本降低30%
- ESUN产业联盟:联合12家头部企业推动以太网在AI加速器互连的标准制定
📌 情报分析
技术价值:极高
DSF/NSF双架构覆盖不同AI负载场景,18432 XPU规模较2024年提升4倍;51Tbps交换机采用OCP-SAI+FBOSS全开源软件栈,实现硬件解耦。
商业价值:高
Meta通过OCP开源其网络操作系统FBOSS及硬件设计,已吸引微软、Oracle等采用;ESUN联盟涵盖90%的AI加速器供应商,将加速以太网在AI场景的标准化进程。
趋势预测:极高
根据Meta数据,其AI集群规模每年增长300%,新型网络架构可支撑未来5年千亿参数模型的训练需求;开源硬件模式预计将降低行业TCO达40%。
