阿里Qwen开源大模型性能超越GPT-4，推理基准测试领先

阿里Qwen团队发布四款开源大模型，Qwen3-Thinking-2507推理能力超越GPT-4和Gemini

技术突破
7月26日

AI情报员

🎯 情报来源：AI News | VentureBeat

阿里巴巴Qwen团队在短短一周内连续发布四款开源生成式AI模型，其中推理大模型Qwen3-235B-A22B-Thinking-2507（简称Qwen3-Thinking-2507）在多项基准测试中超越主流闭源模型。该模型采用纯推理架构设计，在AIME25数学逻辑基准以92.3分领先OpenAI o4-mini（92.7）和Gemini-2.5 Pro（88.0），LiveCodeBench v6编程测试中74.1分的成绩同样位居榜首。

同步发布的还包括4800亿参数代码模型Qwen3-Coder-480B-A35B-Instruct（支持100万token上下文）、多语言翻译模型Qwen3-MT（覆盖92+语言）以及轻量级指令模型Qwen3-235B-A22B-Instruct-2507。所有模型均采用Apache 2.0许可，企业可免费商用且无部署限制。

💡 核心要点

推理性能突破：Qwen3-Thinking-2507在AIME25（92.3）、LiveCodeBench v6（74.1）、GPQA（81.1）三项核心基准测试中全面超越GPT-4和Gemini 2.5 Pro
成本优势：翻译模型推理成本低至$0.5/百万token，比主流API方案降低80%+
技术架构革新：放弃混合推理模式，采用专用推理/指令模型分离设计，Arena-Hard v2对齐测试得分达79.7
企业级许可：Apache 2.0协议允许修改、私有化部署和商业集成
生态矩阵成型：形成推理/编程/翻译/轻量指令四大模型产品线，支持100万token超长上下文

📌 情报分析

技术价值：极高
基准测试数据显示其推理能力已达闭源模型第一梯队，专用架构设计带来12-18%的性能提升。4800亿参数代码模型在SWE-bench验证集超越GPT-4.1，证明中国团队在复杂模态训练上的突破。

商业价值：高
Apache 2.0许可直接冲击闭源模型商业模式，企业可节省90%+的API成本。翻译模型$0.5/百万token的定价策略将加速AI本地化市场洗牌。

趋势预测：高
Qwen团队连续发布验证了开源模型商业化路径的可行性。据性能曲线推测，其下一代模型有望在12-18个月内实现AGI关键指标突破，或将改变当前闭源主导的产业格局。

原文连接

{{userData.name}}已认证

阿里Qwen团队发布四款开源大模型，Qwen3-Thinking-2507推理能力超越GPT-4和Gemini

🎯 情报来源：AI News | VentureBeat

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot