🎯 情报来源:量子位
阿里通义千问团队在7月26日发布全新开源推理模型Qwen3-235B-A22B-Thinking-2507,以18.2分刷新”人类最后考试”评测纪录,超越OpenAI o4-mini(18.1分)和DeepSeek-R1(17.7分)。这是该团队一周内开源的第三款SOTA模型,此前已发布基础模型Qwen3-235B-A22B-Instruct-2507和编程模型Qwen3-Coder,形成”开源三连冠”格局。
据OpenRouter数据显示,此次开源推动阿里千问API调用量突破1000亿Tokens,包揽全球API趋势榜前三。新推理模型在LiveCodeBench v6和CFEval编程评测中甚至超越谷歌Gemini-2.5 Pro,支持256K原生上下文,逻辑推理和数学能力提升显著。
💡 核心要点
- 性能突破:推理模型在”人类最后考试”得分从11.8提升至18.2,超越o4-mini和DeepSeek-R1
- 编程领先:Qwen3-Coder超越Claude Sonnet 4,LiveCodeBench评分达开源最高
- 商业影响:API调用量激增至1000亿Tokens,登顶OpenRouter全球榜
- 生态规模:通义开源模型总数超300个,衍生模型达14万个全球第一
- 未来投入:阿里宣布三年将投入3800亿元建设AI基础设施
📌 情报分析
技术价值:极高
三项SOTA验证MoE架构优势,256K上下文和43秒复杂问题求解能力体现工程突破
商业价值:高
API调用量暴增显示商业化潜力,但需观察3800亿投入的边际效益
趋势预测:极高
中国开源模型已形成DeepSeek/Qwen/Kimi三驾马车,年内可能突破500B参数门槛