百元级硬件跑21B大模型!上交&本智激活开源SmallThinker实现21倍推理加速

🎯 情报来源:量子位

上海交通大学IPADS研究所与初创公司本智激活联合开源端侧原生大模型SmallThinker系列,突破性实现百元级硬件流畅运行210亿参数模型。其旗舰型号SmallThinker-21B-A3B在RK3588开发板上相较Qwen-14B实现21倍推理加速,4B版本在1GB内存限制下仍保持19.41 tokens/s的推理速度。

该技术采用原生端侧架构设计,通过双层稀疏、路由预加载等创新将KV缓存降低76%,并兼容鸿蒙系统及主流芯片架构。配套的PowerInfer推理框架已获8.2K GitHub星标,形成从模型到部署的全栈优化方案。

💡 核心要点

  • 21倍加速:21B模型在RK3588开发板对比Qwen-14B
  • 19.41 tokens/s:4B模型在1GB内存下的极限性能
  • 76%缓存降低:混合稀疏注意力技术成果
  • 2.5T/7.5T Tokens:4B/21B模型预训练数据量
  • 8.2K Stars:配套推理框架PowerInfer的GitHub热度

📌 情报分析

技术价值:极高
双层稀疏架构与路由预加载设计具有原创性,实测性能超越同类方案19-21倍,KV缓存压缩等指标达到行业突破水平。

商业价值:高
百元硬件兼容性大幅降低部署成本,开源策略加速生态构建,但需验证商业场景的付费转化能力。

趋势预测:高
端侧AI需求明确,苹果等巨头的布局延迟为技术方案提供时间窗口,隐私计算趋势将强化该技术路线价值。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索