谷歌云GKE推理网关升级：延迟降96

谷歌云发布GKE推理网关重大升级：vLLM支持TPU、延迟降低96%、吞吐量提升60%

技术突破
9月14日

AI情报员

🎯 情报来源：Cloud Blog

在Google Cloud Next 2025大会上，谷歌宣布其GKE Inference Gateway推理解决方案获得多项突破性升级，包括支持vLLM在TPU上运行、Ironwood TPU和Anywhere Cache。该方案基于每月处理980万亿token、服务4.5亿用户的AI Hypercomputer系统构建，通过硬件软件协同设计实现行业领先的推理性能。

关键性能指标显示，新推出的前缀感知负载均衡技术可将峰值吞吐量下的首token延迟(TTFT)降低96%；解耦服务架构使吞吐量提升60%；模型流技术通过5.4 GiB/s的直接内存吞吐，将大模型加载时间缩短4.9倍。GKE Inference QuickStart工具则通过每周100+次的基准测试数据，可将AI部署方案的评估周期从数月压缩至数天。

💡 核心要点

延迟优化：前缀感知路由使TTFT延迟降低96%（对比其他云平台）
吞吐提升：解耦服务架构实现60%吞吐量增长
加载加速：Run:ai模型流技术缩短4.9倍模型加载时间
规模数据：AI Hypercomputer月处理980万亿token，服务4.5亿用户
部署效率：QuickStart工具将方案评估周期从数月缩短至数天

📌 情报分析

技术价值：极高
• 三项核心技术（前缀路由/解耦服务/模型流）均针对LLM推理痛点设计，实测数据验证其突破性（如96%延迟优化）
• 系统级优化覆盖从KV缓存复用（前缀路由）到计算/内存资源解耦（解耦服务）的全链路

商业价值：高
• 直接降低TCO：延迟优化减少所需加速器数量，QuickStart避免试错成本
• 服务对象明确：面向需要处理大流量（如4.5亿用户规模）且对延迟敏感的企业级场景

趋势预测：高
• 云厂商竞争进入推理优化深水区：谷歌通过全栈协同设计（TPU+GKE+算法）建立差异化优势
• 行业将加速向数据驱动的部署决策转型（QuickStart的基准测试方法论可能成为新标准）

原文连接

{{userData.name}}已认证

谷歌云发布GKE推理网关重大升级：vLLM支持TPU、延迟降低96%、吞吐量提升60%

🎯 情报来源：Cloud Blog

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot