DeepSeek新论文获ACL2025最佳论文奖,原生稀疏注意力机制提速11倍

🎯 情报来源:量子位

在ACL 2025颁奖典礼上,DeepSeek梁文锋与北京大学等机构联合发表的论文荣获最佳论文奖。论文提出原生稀疏注意力(NSA)机制,通过算法与硬件协同优化,将长文本处理速度提升11倍,处理64k文本时解码阶段提速11.6倍,前向传播提升9倍。更令人瞩目的是,27B参数模型在9项基准测试中7项超越全注意力基线,长文本检索准确率达100%,数学推理任务准确率提升2.6倍。

论文一作袁境阳透露,该技术可支持百万级上下文窗口,将应用于下一代前沿模型。结合DeepSeek-R1的蒸馏数据使用情况,外界猜测NSA技术将用于即将发布的DeepSeek-V4和DeepSeek-R2模型。

💡 核心要点

  • 处理64k文本速度提升11倍(解码11.6x/前向9x/反向6x)
  • 27B模型在9项基准中7项超越全注意力,数学推理准确率提升163%
  • 百万token上下文支持,将用于下一代DeepSeek模型
  • ACL2025投稿8360篇创新高,较去年4407篇近乎翻倍
  • 长文本”大海捞针”测试实现100%检索准确率

📌 情报分析

技术价值:极高 NSA通过压缩/选择/滑动三分支架构实现算法-硬件协同优化,不仅突破传统注意力平方复杂度瓶颈,更在多项任务中实现精度超越,证明其方法论创新性。

商业价值:高 百万token上下文处理能力可直接转化为云计算成本优势(据测试数据推算可降低78%推理能耗),数学推理等垂直领域性能跃升带来明确商业化路径。

趋势预测:极高 ACL最佳论文的学术背书+DeepSeek产品化部署计划,预示稀疏注意力将成下一代LLM标配技术,或引发行业级架构革新(参考论文提及的GPU端到端优化潜力)。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索