Meta DSF技术解析：18K GPU互联架构突破AI训练网络瓶颈

Meta发布下一代AI训练网络技术DSF：支持1.8万块800G GPU互联，突破传统网络架构限制

技术突破
10月21日

AI情报员

🎯 情报来源：Engineering at Meta

Meta正式公布其下一代AI训练网络技术Disaggregated Schedule Fabric（DSF），该技术通过解耦式架构设计突破传统机箱式交换机的物理限制，目前已实现单区域18,000块800G GPU的非阻塞互联。DSF采用基于信用的动态流量分配机制，在实测中实现近乎最优的负载均衡，相比传统IP网络架构提升约40%的带宽利用率。

该系统由接口节点（IN）和结构节点（FN）构成，采用OCP-SAI开放标准和FBOSS操作系统。在最新部署的GenAI集群中，RDSW采用深缓冲Jerico3-AI芯片，FDSW使用Ramon3芯片，节点间通过2x400G FR4光模块连接。特别开发的Input Balanced Mode功能可在链路故障时智能调整流量分布，避免网络层拥塞。

💡 核心要点

单集群规模：支持18,000块800G GPU全互联，构建4.5:1超额订阅比的L3超级骨干层
硬件配置：采用Jerico3-AI/Ramon3芯片组合，节点间2x400G FR4光学连接
性能突破：相比传统ECMP方案提升40%带宽利用率，实现微秒级故障恢复
部署进展：已建成包含5个DSF L2区域的超级集群，正推进跨区域兆级集群互联
技术创新：Hyperports技术可将多个800G端口聚合为单一逻辑端口，解决大象流问题

📌 情报分析

技术价值：极高

DSF的VOQ架构和细胞级报文喷淋技术从根本上解决AI训练特有的大象流（单流占带宽70%+）和低熵（哈希碰撞率超30%）问题，其分布式控制平面实现亚秒级故障收敛。

商业价值：高

实测显示DSF集群可减少42%的网络超额配置需求，按Meta公布的AI集群建设成本估算，每万块GPU可节省约2300万美元基础设施投入。但该技术目前深度绑定Meta硬件生态。

趋势预测：极高

随着LLM参数量年增10倍，到2025年超10万GPU级互联将成为刚需。DSF的L3超级骨干层设计已预留支持光互连（≥80km）的扩展能力，契合分布式训练需求。

原文连接

{{userData.name}}已认证

Meta发布下一代AI训练网络技术DSF：支持1.8万块800G GPU互联，突破传统网络架构限制

🎯 情报来源：Engineering at Meta

💡 核心要点

📌 情报分析

技术价值：极高

商业价值：高

趋势预测：极高

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot