摩尔线程AI超级工厂揭秘:国产GPU实现100 tokens/s,性能超英伟达2倍

🎯 情报来源:量子位

在2025世界人工智能大会(WAIC)上,摩尔线程宣布其国产GPU实现重大突破,运行DeepSeek大模型时达到100 tokens/s的推理速度,远超国外同类产品50 tokens/s和国内竞品15 tokens/s的表现。这一里程碑式进展背后是其创新的”AI超级工厂”体系,通过五大核心技术要素实现系统级突破。

据现场实测对比显示,当三款不同GPU同时运行DeepSeek模型时,摩尔线程设备率先完成完整响应,而其他产品仍处于计算状态。该公司成立不到5年便取得这一成就,关键在于其构建的端到端技术体系,而非单一芯片优化。

💡 核心要点

  • 性能突破:国产GPU首次实现100 tokens/s推理速度,达到英伟达同级产品2倍
  • 技术架构:MUSA统一系统架构实现资源全局共享,计算通信并行优化减少15%资源损耗
  • 集群效能:KUAE计算集群MFU(模型浮点利用率)达行业领先水平,支持万卡规模训练
  • 稳定性:零中断容错技术使集群有效训练时间占比超99%
  • 生态兼容:通过MUSIFY工具实现PyTorch/TensorFlow无缝支持,Triton-MUSA编译器加速DeepSeek推理1.5倍

📌 情报分析

技术价值:极高
全功能GPU集成四大引擎(AI计算/图形渲染/科学计算/视频编解码),支持FP8混合精度训练,是国内少数具备完整训练能力的平台。独创的ACE异步通信引擎和MTLink2.0协议分别提升30% FP8训练性能和60%互联带宽。

商业价值:高
AI超级工厂概念提供从芯片到集群的完整解决方案,实测数据显示其单节点计算效率提升50%,异常处理效率提升50%,大幅降低大规模训练中断风险。但需观察实际商业部署案例和客户反馈。

趋势预测:高
随着Agentic AI和空间智能发展,对多功能、高稳定算力需求将持续增长。摩尔线程提前布局的”全功能GPU+系统架构”路线,较专用芯片更具长期适应性优势,其技术路线与AI算力演进方向高度吻合。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索