英伟达韩松团队开源高效语言模型Jet-Nemotron:生成速度提升53倍,准确率超越Qwen3/Gemma 3

🎯 情报来源:量子位

英伟达韩松团队于2025年8月26日开源基于后神经架构搜索(PostNAS)的高效语言模型Jet-Nemotron。该模型在MMLU、BBH等基准测试中,2B版本相比Qwen3-1.7B-Base实现47倍吞吐量提升,缓存大小缩减至1/47,4B版本在保持21倍速度优势下达到76.2%最高准确率。关键技术突破包括动态卷积核生成器JetBlock模块,通过硬件感知架构搜索将KV缓存大小固定为原始规格,在数学任务中比Qwen3基准模型快47倍且准确率高6.3个百分点。

💡 核心要点

  • 生成吞吐量最高提升53.6倍,预填充阶段加速6.1倍
  • Jet-Nemotron-2B在MMLU-Pro基准上超越Qwen3-1.7B-Base达47倍吞吐量
  • 4B版本在编码任务中实现76.2%准确率,速度仍快Qwen3系列21倍
  • 仅保留2个全注意力层,KV缓存体积缩减至竞品1/47
  • 动态卷积核生成器JetBlock模块实现内容自适应的特征提取

📌 情报分析

技术价值:极高
后神经架构搜索(PostNAS)实现预训练权重冻结下的架构优化,动态卷积核生成器突破静态卷积限制,硬件感知搜索直接关联KV缓存与计算效率。实验数据显示其2B模型数学推理准确率提升6.3%同时速度提升47倍。

商业价值:高
吞吐量53倍提升显著降低推理成本,1/47的缓存需求更适合边缘部署。开源策略将加速产业应用,但需观察英伟达后续是否推出配套计算卡优化方案。

趋势预测:高
硬件感知架构搜索可能成为下一代模型标配,动态卷积核技术或延伸至视觉领域。韩松团队背景暗示该技术可能整合至英伟达AI加速硬件体系,形成软硬协同优势。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索