阿里通义千问发布Qwen3-Coder-480B代码大模型:4800亿参数、支持100万tokens上下文,20,000并行环境训练

🎯 情报来源:Simon Willison's Weblog

阿里云通义千问团队正式发布Qwen3-Coder系列代码大模型,其旗舰版本Qwen3-Coder-480B-A35B-Instruct采用混合专家架构(MoE),总参数量达4800亿(激活参数350亿),原生支持256K tokens上下文窗口,通过外推方法可扩展至100万tokens。该模型在SWE-Bench基准测试中取得开源模型最佳成绩,并采用Apache 2.0开源协议在Hugging Face发布FP8和标准权重版本。

团队为提升模型编程能力构建了20,000个并行训练环境,通过阿里云基础设施实施长周期强化学习(Agent RL)。模型已登陆OpenRouter平台,配套推出的终端编程助手qwen-code基于Gemini-cli二次开发,阿里云托管服务采用按输入长度分级的创新计费模式。

💡 核心要点

  • 参数规模:4800亿总参数/350亿激活参数的MoE架构,当前最大开源代码模型
  • 上下文窗口:原生256K tokens,通过外推支持100万tokens(Gemini 2.5 Pro为200K)
  • 训练规模:20,000个并行RL环境,基于阿里云基础设施实现
  • 部署表现:M3 Ultra Mac Studio(512GB)4bit量化版运行速度24 tokens/s,占用272GB内存
  • 商业策略:首创按输入长度分级定价模式,托管于阿里云服务

📌 情报分析

技术价值:极高
4800亿参数MoE架构配合百万级上下文处理能力,在SWE-Bench验证集达到SOTA性能。20,000并行RL环境训练体系突破Agent类模型规模化瓶颈。

商业价值:高
差异化定价策略精准匹配云计算资源消耗,阿里云基础设施与模型服务形成协同效应。开源策略可能加速企业级应用生态构建。

趋势预测:高
百万级上下文+Agent RL训练范式预示代码模型向复杂系统开发演进,MoE架构在专业领域的效率优势将推动更多垂直化大模型出现。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索