🎯 情报来源:Engineering at Meta
在2025年@Scale:Networking峰会上,Meta联合字节跳动、谷歌、微软等科技巨头披露了AI网络基础设施的最新进展。行业正进入千亿美元级基建投入周期,Meta已建成129K-GPU超算集群(基于以太网/RoCE架构),并部署全球最大跨洋光缆系统。短短两年内,其GPU集群规模从4K激增至129K,同时支撑混合专家、强化学习等新型AI工作负载。
为应对AI算力爆发需求,Meta创新性采用”弹簧结构”快速扩容,并建设吉瓦级数据中心集群Prometheus和Hyperion。网络层正成为AI系统的核心抽象层,需满足从分布式推理到合成数据生成等场景的差异化需求,可靠性要求达到99.99%级别。
💡 核心要点
- 千亿基建投入:全行业未来数年将投入超千亿美元建设AI专用基础设施
- 129K-GPU集群:Meta以太网架构集群规模两年增长32倍,达129,000块GPU
- 5类新型负载:混合专家模型/强化学习/后训练/合成数据/分布式推理带来新网络挑战
- 全球光缆布局:建设世界最大跨洋光纤系统保障全球AI服务低延迟
- 吉瓦级数据中心:Prometheus和Hyperion集群采用100%可再生能源供电
📌 情报分析
技术价值:极高
以太网架构支撑129K-GPU集群验证了去RDMA化可行性,NIC/路由/拥塞控制的全栈优化方案具有行业参考价值。
商业价值:高
千亿级基建投入将重塑云计算格局,光缆+数据中心+算力集群的立体布局形成Meta的AI基建护城河。
趋势预测:极高
2026年前AI网络将迎来三大变革:1) 400G/800G以太网普及 2) 网络计算一体化架构 3) 跨洲际AI算力调度成为标配。
