谷歌云发布GKE推理网关重大升级:vLLM支持TPU、延迟降低96%、吞吐量提升60%

🎯 情报来源:Cloud Blog

在Google Cloud Next 2025大会上,谷歌宣布其GKE Inference Gateway推理解决方案获得多项突破性升级,包括支持vLLM在TPU上运行、Ironwood TPU和Anywhere Cache。该方案基于每月处理980万亿token、服务4.5亿用户的AI Hypercomputer系统构建,通过硬件软件协同设计实现行业领先的推理性能。

关键性能指标显示,新推出的前缀感知负载均衡技术可将峰值吞吐量下的首token延迟(TTFT)降低96%;解耦服务架构使吞吐量提升60%;模型流技术通过5.4 GiB/s的直接内存吞吐,将大模型加载时间缩短4.9倍。GKE Inference QuickStart工具则通过每周100+次的基准测试数据,可将AI部署方案的评估周期从数月压缩至数天。

💡 核心要点

  • 延迟优化:前缀感知路由使TTFT延迟降低96%(对比其他云平台)
  • 吞吐提升:解耦服务架构实现60%吞吐量增长
  • 加载加速:Run:ai模型流技术缩短4.9倍模型加载时间
  • 规模数据:AI Hypercomputer月处理980万亿token,服务4.5亿用户
  • 部署效率:QuickStart工具将方案评估周期从数月缩短至数天

📌 情报分析

技术价值:极高
• 三项核心技术(前缀路由/解耦服务/模型流)均针对LLM推理痛点设计,实测数据验证其突破性(如96%延迟优化)
• 系统级优化覆盖从KV缓存复用(前缀路由)到计算/内存资源解耦(解耦服务)的全链路

商业价值:高
• 直接降低TCO:延迟优化减少所需加速器数量,QuickStart避免试错成本
• 服务对象明确:面向需要处理大流量(如4.5亿用户规模)且对延迟敏感的企业级场景

趋势预测:高
• 云厂商竞争进入推理优化深水区:谷歌通过全栈协同设计(TPU+GKE+算法)建立差异化优势
• 行业将加速向数据驱动的部署决策转型(QuickStart的基准测试方法论可能成为新标准)

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索