🎯 情报来源:量子位
中国开源项目KTransformers近日入选计算机系统顶会SOSP 2025,并与主流推理框架SGLang达成深度合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发,通过创新的异构架构设计,在单张RTX 4080+双路Xeon环境下实现DeepSeek-V3-671B模型的流畅运行,单卡decode速度突破30+ tokens/s,模型精度损失低于0.5%。
其核心创新”专家延迟机制”(Expert Deferral)通过动态重叠CPU与GPU计算负载,使模型吞吐提升1.45倍。目前GitHub Star数已达15.2K,获Qwen、Kimi等主流大模型官方推荐,并与国产硬件厂商合作推进普惠算力方案。
💡 核心要点
- 入选计算机系统顶会SOSP 2025,获学术最高背书
- 单卡实现千亿参数模型推理,decode速度30+ tokens/s
- 专家延迟机制使吞吐提升1.45倍,精度损失<0.5%
- GitHub Star 15.2K,获主流大模型官方推荐
- 与SGLang框架深度整合,支持Multi-GPU+CPU混合推理
📌 情报分析
技术价值:极高 – 突破性解决MoE模型异构调度难题,CPU算子性能达PyTorch 4倍,具备学术与工程双重创新
商业价值:高 – 已形成开源生态闭环,覆盖消费级GPU到国产硬件方案,直接降低70%+推理硬件门槛
趋势预测:高 – 微调功能内部测试中,可能引领下一代”能跑能调”的轻量化部署标准(基于团队技术路线延续性)
