🎯 情报来源:Cloud Blog
谷歌云于2024年推出的Vertex AI上下文缓存技术取得重大突破,该技术通过缓存预计算输入令牌,显著降低AI模型运行成本并提升响应速度。目前支持Gemini 2.5及以上所有模型,其中显式缓存可保证用户仅需支付标准输入令牌10%的费用,隐式缓存则在命中时自动实现同等成本节省。
该技术突破性地支持从2048个令牌到Gemini 2.5 Pro超百万令牌的缓存规模,涵盖文本、PDF、图像、音频和视频多模态内容。缓存机制通过复用先前计算的KV状态对,在保持24小时自动清理周期的同时,将延迟降低至重新计算所需时间的零头。
💡 核心要点
- 成本锐减:缓存令牌仅收取标准输入10%费用,显式缓存可保证该折扣
- 性能飞跃:通过复用KV状态对,消除重复计算带来的延迟
- 规模覆盖:支持2048至超百万令牌的缓存窗口,适配不同规模用例
- 多模态支持:文本/PDF/图像/音频/视频均可缓存,与Gemini多模态能力深度整合
- 双模机制:隐式缓存自动生效,显式缓存提供确定性成本控制
📌 情报分析
技术价值:极高
突破传统token-by-token处理范式,通过KV状态复用实现计算复杂度阶跃式下降,技术架构创新性获Gemini 2.5超长上下文窗口验证。
商业价值:高
直接降低90%重复内容处理成本,按谷歌云千万级开发者基数估算,年化可节省数亿美元级计算支出,尤其利好文档处理、视频分析等高重复场景。
趋势预测:高
随着AI应用复杂度提升,上下文重复问题将加剧,该技术可能成为云AI服务标配。谷歌先发优势明显,但需关注AWS/Azure的跟进速度。
