🎯 情报来源:量子位
在2025年外滩大会上,蚂蚁集团与中国人民大学联合发布了业界首个原生MoE架构的扩散语言模型(dLLM)LLaDA-MoE。该模型在约20T数据上完成了从零训练,采用7B-A1B(总7B、激活1.4B)的MoE架构,性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct。
蚂蚁集团通用人工智能研究中心主任蓝振忠表示,LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,并将在近期完全开源模型权重和自研推理框架,以推动全球AI社区在dLLM上的技术发展。
💡 核心要点
- LLaDA-MoE在约20T数据上完成训练,采用7B-A1B的MoE架构,激活1.4B参数即可实现等效3B稠密模型的性能
- 在17项基准测试中平均提升8.4%,领先LLaDA-1.5达13.2%,与Qwen2.5-3B-Instruct打平
- 蚂蚁集团将在近期开源模型权重和自研推理框架,相比NVIDIA官方fast-dLLM实现显著加速
- 研究团队攻关3个月,在负载均衡、噪声采样漂移等核心难题上取得突破
- 验证了”MoE放大器”定律在dLLM领域成立,为后续10B–100B稀疏模型提供可行路径
📌 情报分析
技术价值(极高): 原生MoE架构在扩散语言模型中的成功应用,挑战了”语言模型必须自回归”的主流认知,为并行解码提供了新思路,技术突破显著。
商业价值(高): 开源策略将加速dLLM技术生态发展,蚂蚁集团通过技术输出强化其在AI领域的影响力,同时为后续商业化应用奠定基础。
趋势预测(高): 随着”MoE放大器”定律在dLLM领域的验证,更大规模的稀疏模型将成为研究热点,非自回归模型可能在特定场景下逐步替代传统自回归模型。
