🎯 情报来源:Simon Willison's Weblog
通义千问团队通过Twitter突然发布Qwen3-Next-80B-A3B系列两款新模型(Instruct/Thinking版本),采用创新的超稀疏混合专家架构(512专家+10路由),在80B总参数量下仅激活3B参数运行。官方宣称其推理速度较Qwen3-32B提升10倍,训练成本降低90%,尤其在32K以上长上下文场景表现突出。
性能对标方面,Instruct版本接近团队235B旗舰模型水平,Thinking版本在特定任务中超越Gemini-2.5-Flash-Thinking。架构上融合门控DeltaNet与门控注意力机制,配合多令牌预测技术,实现响应速度与召回率的平衡。模型文件体积约150GB,已上线Hugging Face和OpenRouter平台。
💡 核心要点
- 80B参数仅激活3B:动态稀疏计算实现10倍推理加速(对比Qwen3-32B)
- 混合架构创新:Gated DeltaNet + Gated Attention + 512专家MoE
- 成本突破:训练成本降低90%,长上下文处理效率显著提升
- 性能对标:Instruct版接近235B旗舰,Thinking版超越Gemini-2.5-Flash
- 模型体积:约150GB,支持OpenRouter即时调用
📌 情报分析
技术价值:极高
超稀疏MoE架构(512专家+3B激活)实现参数量与计算效率的突破,门控混合机制为长上下文优化提供新范式,多令牌预测技术进一步提升推理速度。
商业价值:高
10倍成本下降大幅降低大模型商用门槛,32K+长上下文处理能力在金融、法律等高价值场景具备直接变现潜力。
趋势预测:高
动态稀疏计算将成为200B+参数模型标配技术,通义千问通过架构创新实现对GPT-4级模型的”降维打击”,可能加速行业向稀疏化架构转型。
