Meta发布下一代AI训练网络技术DSF:支持1.8万块800G GPU互联,突破传统网络架构限制

🎯 情报来源:Engineering at Meta

Meta正式公布其下一代AI训练网络技术Disaggregated Schedule Fabric(DSF),该技术通过解耦式架构设计突破传统机箱式交换机的物理限制,目前已实现单区域18,000块800G GPU的非阻塞互联。DSF采用基于信用的动态流量分配机制,在实测中实现近乎最优的负载均衡,相比传统IP网络架构提升约40%的带宽利用率。

该系统由接口节点(IN)和结构节点(FN)构成,采用OCP-SAI开放标准和FBOSS操作系统。在最新部署的GenAI集群中,RDSW采用深缓冲Jerico3-AI芯片,FDSW使用Ramon3芯片,节点间通过2x400G FR4光模块连接。特别开发的Input Balanced Mode功能可在链路故障时智能调整流量分布,避免网络层拥塞。

💡 核心要点

  • 单集群规模:支持18,000块800G GPU全互联,构建4.5:1超额订阅比的L3超级骨干层
  • 硬件配置:采用Jerico3-AI/Ramon3芯片组合,节点间2x400G FR4光学连接
  • 性能突破:相比传统ECMP方案提升40%带宽利用率,实现微秒级故障恢复
  • 部署进展:已建成包含5个DSF L2区域的超级集群,正推进跨区域兆级集群互联
  • 技术创新:Hyperports技术可将多个800G端口聚合为单一逻辑端口,解决大象流问题

📌 情报分析

技术价值:极高

DSF的VOQ架构和细胞级报文喷淋技术从根本上解决AI训练特有的大象流(单流占带宽70%+)和低熵(哈希碰撞率超30%)问题,其分布式控制平面实现亚秒级故障收敛。

商业价值:高

实测显示DSF集群可减少42%的网络超额配置需求,按Meta公布的AI集群建设成本估算,每万块GPU可节省约2300万美元基础设施投入。但该技术目前深度绑定Meta硬件生态。

趋势预测:极高

随着LLM参数量年增10倍,到2025年超10万GPU级互联将成为刚需。DSF的L3超级骨干层设计已预留支持光互连(≥80km)的扩展能力,契合分布式训练需求。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索