Qwen3-Next架构发布:80B参数模型训练成本降90%,推理速度提升10倍

🎯 情报来源:量子位

阿里通义千问团队于2025年9月12日发布Qwen3-Next新一代模型架构,其核心突破在于通过混合注意力机制与高稀疏度MoE结构实现性能飞跃。基于该架构的Qwen3-Next-80B-A3B-Base模型仅需Qwen3-32B 9.3%的训练成本,在32k以上上下文推理吞吐量达到后者10倍以上。

团队同步推出两个衍生模型:Qwen3-Next-80B-A3B-Instruct在256K长文本处理中超越前代235B参数模型,Qwen3-Next-80B-A3B-Thinking则在多项基准测试中击败谷歌Gemini-2.5-Flash-Thinking闭源模型。实测显示,该模型可秒解AIME数学竞赛题,并支持多模态输入。

💡 核心要点

  • 成本革命:80B参数模型训练成本仅为Qwen3-32B的9.3%
  • 效率突破:32k+上下文推理吞吐量提升10倍,4k上下文预填充速度达7倍
  • 架构创新:采用Gated DeltaNet混合注意力(3:1比例)与512专家MoE结构
  • 性能表现:在RULER测试中超越235B参数前代模型,部分指标接近旗舰版Qwen3-235B
  • 商业落地:已上线魔搭社区、抱抱脸及阿里云百炼平台API服务

📌 情报分析

技术价值:极高
混合注意力机制(Gated DeltaNet+标准注意力)与高稀疏度MoE(512专家/10路由)设计实现参数利用率突破,800亿总参数仅激活30亿/次。

商业价值:高
训练成本降低90%直接压缩企业AI部署门槛,10倍推理提速可支撑实时长文本处理场景(如法律、金融文档分析)。

趋势预测:高
该架构验证了稀疏化+混合注意力路线的可行性,或将推动行业从纯Transformer向异构架构转型,特别在需要性价比的长文本领域。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索