🎯 情报来源:量子位
阿里通义千问团队于2025年9月12日发布Qwen3-Next新一代模型架构,其核心突破在于通过混合注意力机制与高稀疏度MoE结构实现性能飞跃。基于该架构的Qwen3-Next-80B-A3B-Base模型仅需Qwen3-32B 9.3%的训练成本,在32k以上上下文推理吞吐量达到后者10倍以上。
团队同步推出两个衍生模型:Qwen3-Next-80B-A3B-Instruct在256K长文本处理中超越前代235B参数模型,Qwen3-Next-80B-A3B-Thinking则在多项基准测试中击败谷歌Gemini-2.5-Flash-Thinking闭源模型。实测显示,该模型可秒解AIME数学竞赛题,并支持多模态输入。
💡 核心要点
- 成本革命:80B参数模型训练成本仅为Qwen3-32B的9.3%
- 效率突破:32k+上下文推理吞吐量提升10倍,4k上下文预填充速度达7倍
- 架构创新:采用Gated DeltaNet混合注意力(3:1比例)与512专家MoE结构
- 性能表现:在RULER测试中超越235B参数前代模型,部分指标接近旗舰版Qwen3-235B
- 商业落地:已上线魔搭社区、抱抱脸及阿里云百炼平台API服务
📌 情报分析
技术价值:极高
混合注意力机制(Gated DeltaNet+标准注意力)与高稀疏度MoE(512专家/10路由)设计实现参数利用率突破,800亿总参数仅激活30亿/次。
商业价值:高
训练成本降低90%直接压缩企业AI部署门槛,10倍推理提速可支撑实时长文本处理场景(如法律、金融文档分析)。
趋势预测:高
该架构验证了稀疏化+混合注意力路线的可行性,或将推动行业从纯Transformer向异构架构转型,特别在需要性价比的长文本领域。