通义千问Qwen3-Next-80B-A3B发布:稀疏MoE架构实现10倍推理加速,性能对标235B旗舰模型

🎯 情报来源:Simon Willison's Weblog

通义千问团队通过Twitter突然发布Qwen3-Next-80B-A3B系列两款新模型(Instruct/Thinking版本),采用创新的超稀疏混合专家架构(512专家+10路由),在80B总参数量下仅激活3B参数运行。官方宣称其推理速度较Qwen3-32B提升10倍,训练成本降低90%,尤其在32K以上长上下文场景表现突出。

性能对标方面,Instruct版本接近团队235B旗舰模型水平,Thinking版本在特定任务中超越Gemini-2.5-Flash-Thinking。架构上融合门控DeltaNet与门控注意力机制,配合多令牌预测技术,实现响应速度与召回率的平衡。模型文件体积约150GB,已上线Hugging Face和OpenRouter平台。

💡 核心要点

  • 80B参数仅激活3B:动态稀疏计算实现10倍推理加速(对比Qwen3-32B)
  • 混合架构创新:Gated DeltaNet + Gated Attention + 512专家MoE
  • 成本突破:训练成本降低90%,长上下文处理效率显著提升
  • 性能对标:Instruct版接近235B旗舰,Thinking版超越Gemini-2.5-Flash
  • 模型体积:约150GB,支持OpenRouter即时调用

📌 情报分析

技术价值:极高
超稀疏MoE架构(512专家+3B激活)实现参数量与计算效率的突破,门控混合机制为长上下文优化提供新范式,多令牌预测技术进一步提升推理速度。

商业价值:高
10倍成本下降大幅降低大模型商用门槛,32K+长上下文处理能力在金融、法律等高价值场景具备直接变现潜力。

趋势预测:高
动态稀疏计算将成为200B+参数模型标配技术,通义千问通过架构创新实现对GPT-4级模型的”降维打击”,可能加速行业向稀疏化架构转型。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索