🎯 情报来源:Artificial Intelligence
亚马逊云科技今日宣布SageMaker HyperPod任务治理功能全面开放细粒度计算资源配额分配能力。该功能允许管理员在Amazon EKS集群上按团队或项目分配GPU、vCPU和内存资源,支持NVIDIA GPU和Trainium芯片混合部署。关键创新在于可对单个p5.48xlarge实例(含8块H100 GPU)进行1/4资源拆分,实现48 vCPU+512GiB内存的精确分配。
据Snorkel AI产品总监Daniel Xu表示,”对于前沿AI实验和生产管道,最大化集群利用率具有极高影响力。HyperPod任务治理提供的细粒度硬件分配能力,正是为满足这种需求而构建”。该方案通过集成Kubernetes原生队列系统Kueue,在保持kube-scheduler原有功能基础上,新增资源配额验证层,使空閒计算资源分配效率提升最高达50%。
💡 核心要点
- 支持GPU级配额分配:可按实例类型/家族或硬件类型(Trainium/NVIDIA)分配,最小单位1块GPU
- 资源利用率提升:通过LendAndBorrow策略实现最高50%的空閒资源共享,ml.p5.48xlarge实例可拆分为8个独立GPU单元
- 多场景适配:特别适用于小型语言模型(SLM)开发,单块H100 GPU即可满足fine-tuning需求
- 混合部署能力:同时管理CPU实例(如ml.g6.12xlarge)和GPU实例资源配额
- 优先级控制:支持任务抢占(preemption)和9级权重配置,关键工作负载可获得3倍资源优先级
📌 情报分析
技术价值:极高 – 首次在托管ML平台实现GPU级资源切分,突破传统实例级分配限制,技术实现依赖Kueue与kube-scheduler深度集成
商业价值:高 – 据AWS测算可使H100集群利用率提升40%,特别适合预算敏感型AI团队,但需EKS集群和HyperPod 1.3以上版本支持
趋势预测:高 – 随着小型语言模型(SLM)需求增长,2024年细粒度GPU分配将成为MLOps平台标配功能,但跨厂商方案兼容性可能成新痛点
