清华大学发布 SageAttention3:FP4 注意力算子实现5倍推理加速,训练加速新突破

🎯 情报来源:机器之心

清华大学陈键飞团队近日发布了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子 SageAttention3。该技术实现了比 FlashAttention 快 5 倍的推理加速,并在 RTX 5090 上达到了 1040 TOPS 的速度,比 H100 使用 FlashAttention3 快 1.65 倍。此外,团队还首次提出可训练的 8 比特注意力(SageBwd),用于大模型的训练加速,在微调任务中保持了与全精度注意力相同的精度。

核心要点:

  • SageAttention3 在推理中相比 FlashAttention 提速 5 倍,RTX 5090 上达到 1040 TOPS。
  • SageBwd 实现 8 比特训练,支持前向和反向传播,在微调任务中无损精度。
  • SageAttention3 在视频生成(如 HunyuanVideo)端到端提速 3 倍,且保持几乎无损的质量。

📌 情报分析

技术价值:极高

SageAttention3 利用 BlackWell 架构的 FP4 Tensor Core 和创新的两阶段量化方法,显著提升了推理效率,同时解决了低比特量化中的精度损失问题。其提出的 Microscaling FP4 和 Two-Level Scaling 方法为硬件优化提供了新思路。

商业价值:高

凭借高效的推理和训练加速能力,SageAttention3 可大幅降低 AI 模型运行成本,尤其适用于视频生成、图像生成等需要长序列处理的应用场景。开源计划将进一步推动其被广泛采用。

趋势预测:

未来 3-6 个月内,SageAttention3 有望成为主流大模型的标配组件,特别是在资源受限的边缘设备上。然而,8 比特训练在预训练任务上的精度差距仍需进一步研究,预计下一阶段的研究将聚焦于这一方向。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索