中兴Mariana突破显存壁垒:KV Cache吞吐提升1.7倍,延迟降低23%

🎯 情报来源:量子位

中兴通讯与华东师范大学联合研发的Mariana分布式KV存储技术,通过三项核心创新实现大模型推理显存突破。该技术发表于IEEE TPDS期刊,实验数据显示其吞吐量较现有方案提升1.7倍,尾延迟降低23%,支持将KV Cache扩展至远端DRAM/SSD存储池。

在vLLM框架实测中,当GPU显存仅能存储50% KV数据时,Mariana多级存储方案仍能保持高效推理性能。其设计兼容RDMA和未来CXL硬件生态,仅需替换远程访问API即可适配CXL.mem协议。

💡 核心要点

  • 吞吐量提升1.7倍,尾延迟降低23%
  • 支持无限扩展的分布式内存池(DRAM/PMem/SSD)
  • 细粒度并发控制方案减少写竞争达40%
  • SIMD优化使键查找速度提升3倍
  • 兼容CXL生态,延迟可再降15-30%

📌 情报分析

技术价值:极高
突破KV Cache显存限制的硬核创新,MSCS方案解决高并发写入竞争,TLN布局实现SIMD加速,技术指标具行业领先性。

商业价值:高
直接降低大模型推理硬件成本30%+(显存需求减半),适配vLLM等主流框架,商业化路径清晰。

趋势预测:极高
CXL生态成熟后将形成技术代差,论文显示其架构迁移成本极低,有望成为下一代推理基础设施标准组件。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索