通义千问Qwen3-Max数学评测满分炸场,视觉与全模态模型同步开源

🎯 情报来源:量子位

阿里云在2025云栖大会发布通义千问Qwen3系列重大升级,旗舰模型Qwen3-Max以超万亿参数规模,成为首个在AIME25和HMMT数学评测中斩获100分的国产大模型。该模型分为指令版和思考版双版本,其中思考版实现数学满分突破,指令版则在SWE-Bench编码评测(69.6分)和Tau2 Bench工具调用测试(74.8分)中位列全球第一梯队。

同期开源的Qwen3-VL-235B多模态模型在视觉理解领域表现突出,其指令版性能超越Gemini 2.5 Pro,推理版斩获多项SOTA。全模态模型Qwen3-Omni-30B首次实现文本、图像、音频、视频端到端统一处理,衍生出的Qwen3-LiveTranslate支持18种语言实时翻译,准确率超竞品。编程模型Qwen3-Coder-Plus通过联合训练方案实现性能跃升,新增多模态编程支持能力。

💡 核心要点

  • 数学突破:Qwen3-Max思考版在AIME25/HMMT双榜满分,国产模型首次达成
  • 参数规模:Qwen3-Max保持超万亿参数,指令版SWE-Bench得分69.6(全球TOP1梯队)
  • 视觉SOTA:Qwen3-VL-235B开源模型在4项基准测试超越Gemini 2.5 Pro
  • 全模态统一:Qwen3-Omni-30B在22个音视频基准达SOTA,实时翻译覆盖18种语言
  • 效率革命:Qwen3-Next架构激活3B参数即达235B模型性能,训练成本降90%

📌 情报分析

技术价值:极高
Qwen3-Max数学推理能力达人类顶级水平,VL/Omni系列实现多模态架构创新(MRoPE-Interleave、DeepStack等技术突破),技术代差优势显著。

商业价值:高
全栈产品矩阵覆盖数学推理(教育/科研)、多模态(内容生产)、实时翻译(跨境商务)等场景,Qwen Code已显现开发者生态雏形。

趋势预测:极高
吴泳铭提出AI四阶段演进路径具有前瞻性,Qwen3-Next架构验证稀疏化训练可行性,或将重塑行业算力投入产出比标准。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索