🎯 情报来源:量子位
英伟达韩松团队于2025年8月26日开源基于后神经架构搜索(PostNAS)的高效语言模型Jet-Nemotron。该模型在MMLU、BBH等基准测试中,2B版本相比Qwen3-1.7B-Base实现47倍吞吐量提升,缓存大小缩减至1/47,4B版本在保持21倍速度优势下达到76.2%最高准确率。关键技术突破包括动态卷积核生成器JetBlock模块,通过硬件感知架构搜索将KV缓存大小固定为原始规格,在数学任务中比Qwen3基准模型快47倍且准确率高6.3个百分点。
💡 核心要点
- 生成吞吐量最高提升53.6倍,预填充阶段加速6.1倍
- Jet-Nemotron-2B在MMLU-Pro基准上超越Qwen3-1.7B-Base达47倍吞吐量
- 4B版本在编码任务中实现76.2%准确率,速度仍快Qwen3系列21倍
- 仅保留2个全注意力层,KV缓存体积缩减至竞品1/47
- 动态卷积核生成器JetBlock模块实现内容自适应的特征提取
📌 情报分析
技术价值:极高
后神经架构搜索(PostNAS)实现预训练权重冻结下的架构优化,动态卷积核生成器突破静态卷积限制,硬件感知搜索直接关联KV缓存与计算效率。实验数据显示其2B模型数学推理准确率提升6.3%同时速度提升47倍。
商业价值:高
吞吐量53倍提升显著降低推理成本,1/47的缓存需求更适合边缘部署。开源策略将加速产业应用,但需观察英伟达后续是否推出配套计算卡优化方案。
趋势预测:高
硬件感知架构搜索可能成为下一代模型标配,动态卷积核技术或延伸至视觉领域。韩松团队背景暗示该技术可能整合至英伟达AI加速硬件体系,形成软硬协同优势。