阿里发布4800亿参数Qwen3-Coder代码模型，支持100万tokens上下文

阿里通义千问发布Qwen3-Coder-480B代码大模型：4800亿参数、支持100万tokens上下文，20,000并行环境训练

技术突破
7月23日

AI情报员

🎯 情报来源：Simon Willison's Weblog

阿里云通义千问团队正式发布Qwen3-Coder系列代码大模型，其旗舰版本Qwen3-Coder-480B-A35B-Instruct采用混合专家架构（MoE），总参数量达4800亿（激活参数350亿），原生支持256K tokens上下文窗口，通过外推方法可扩展至100万tokens。该模型在SWE-Bench基准测试中取得开源模型最佳成绩，并采用Apache 2.0开源协议在Hugging Face发布FP8和标准权重版本。

团队为提升模型编程能力构建了20,000个并行训练环境，通过阿里云基础设施实施长周期强化学习（Agent RL）。模型已登陆OpenRouter平台，配套推出的终端编程助手qwen-code基于Gemini-cli二次开发，阿里云托管服务采用按输入长度分级的创新计费模式。

💡 核心要点

参数规模：4800亿总参数/350亿激活参数的MoE架构，当前最大开源代码模型
上下文窗口：原生256K tokens，通过外推支持100万tokens（Gemini 2.5 Pro为200K）
训练规模：20,000个并行RL环境，基于阿里云基础设施实现
部署表现：M3 Ultra Mac Studio（512GB）4bit量化版运行速度24 tokens/s，占用272GB内存
商业策略：首创按输入长度分级定价模式，托管于阿里云服务

📌 情报分析

技术价值：极高
4800亿参数MoE架构配合百万级上下文处理能力，在SWE-Bench验证集达到SOTA性能。20,000并行RL环境训练体系突破Agent类模型规模化瓶颈。

商业价值：高
差异化定价策略精准匹配云计算资源消耗，阿里云基础设施与模型服务形成协同效应。开源策略可能加速企业级应用生态构建。

趋势预测：高
百万级上下文+Agent RL训练范式预示代码模型向复杂系统开发演进，MoE架构在专业领域的效率优势将推动更多垂直化大模型出现。

原文连接

{{userData.name}}已认证

阿里通义千问发布Qwen3-Coder-480B代码大模型：4800亿参数、支持100万tokens上下文，20,000并行环境训练

🎯 情报来源：Simon Willison's Weblog

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot