KTransformers入选SOSP 2025:异构推理框架实现单卡运行千亿大模型,性能提升1.45倍

🎯 情报来源:量子位

中国开源项目KTransformers近日入选计算机系统顶会SOSP 2025,并与主流推理框架SGLang达成深度合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发,通过创新的异构架构设计,在单张RTX 4080+双路Xeon环境下实现DeepSeek-V3-671B模型的流畅运行,单卡decode速度突破30+ tokens/s,模型精度损失低于0.5%。

其核心创新”专家延迟机制”(Expert Deferral)通过动态重叠CPU与GPU计算负载,使模型吞吐提升1.45倍。目前GitHub Star数已达15.2K,获Qwen、Kimi等主流大模型官方推荐,并与国产硬件厂商合作推进普惠算力方案。

💡 核心要点

  • 入选计算机系统顶会SOSP 2025,获学术最高背书
  • 单卡实现千亿参数模型推理,decode速度30+ tokens/s
  • 专家延迟机制使吞吐提升1.45倍,精度损失<0.5%
  • GitHub Star 15.2K,获主流大模型官方推荐
  • 与SGLang框架深度整合,支持Multi-GPU+CPU混合推理

📌 情报分析

技术价值:极高 – 突破性解决MoE模型异构调度难题,CPU算子性能达PyTorch 4倍,具备学术与工程双重创新

商业价值:高 – 已形成开源生态闭环,覆盖消费级GPU到国产硬件方案,直接降低70%+推理硬件门槛

趋势预测:高 – 微调功能内部测试中,可能引领下一代”能跑能调”的轻量化部署标准(基于团队技术路线延续性)

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索