在巴黎GTC大会上,Hugging Face与NVIDIA联合宣布推出Training Cluster as a Service服务,旨在为全球研究机构提供便捷的大型GPU集群访问能力,助力各领域基础模型的训练。
当前,许多千兆瓦级GPU超级集群项目正在建设中,用于训练下一代AI模型。这似乎使得”GPU贫困”与”GPU富裕”之间的计算差距迅速扩大。但实际上,随着超大规模云服务商、区域云提供商和AI原生云服务商快速扩展其容量,GPU资源是存在的。
那么,如何将AI计算能力与需要它的研究人员连接起来?如何让全球的大学、国家研究实验室和企业能够构建自己的模型?这正是Hugging Face和NVIDIA通过Training Cluster as a Service要解决的问题——提供GPU集群的可访问性,并具有仅按训练时长付费的灵活性。
要开始使用,Hugging Face平台上的25万家组织中的任何一个都可以在需要时申请所需规模的GPU集群。
该服务整合了NVIDIA和Hugging Face的关键组件:NVIDIA云合作伙伴在区域数据中心提供最新加速计算能力;新发布的NVIDIA DGX Cloud Lepton简化了基础设施访问;Hugging Face的开发者资源和开源库则使训练启动变得简单。
服务已在多个领域发挥作用:意大利TIGEM研究所用于罕见遗传疾病研究;非营利组织Numina用于数学推理AI开发;初创公司Mirror Physics用于材料科学前沿研究。
Hugging Face联合创始人兼CEO Clément Delangue表示,这项服务将消除研究人员的障碍,推动AI各领域的边界拓展。NVIDIA DGX Cloud副总裁Alexis Bjorlin指出,这项合作为AI研究人员提供了使用熟悉工具扩展训练工作负载的便捷途径。