DeepSeek 的 NSA 性能优于 Full Attention,使 AI 模型更快、更智能
快速阅读: 《AZoAI》消息,通过结合可训练的稀疏注意力机制和GPU优化技术,国家安全局(NSA)实现了高达9倍的计算速度提升和完美的长上下文检索能力,为大语言模型树立新标准。研究团队在arXiv上发布论文,介绍NSA架构,该架构通过标记压缩、标记选择和滑动窗口注意力等技术显著提升了效率和准确性。
乔尔·斯坎隆(作者)2025年2月19日报道,通过结合可训练的稀疏注意力机制和前沿的GPU优化技术,国家安全局(NSA)实现了高达9倍的计算速度提升和完美的长上下文检索能力,为高效的大语言模型树立了新的标准。研究:原生稀疏注意力:硬件对齐且可训练的稀疏注意力
图片版权:克罗特工作室 / 视觉中国
重要通知:arXiv发布的初步科学报告未经同行评审,不应被视为最终结论,不应作为开发决策的依据,也不应被视为人工智能研究领域的权威信息。
北京大学PKU-Anker大语言模型实验室、DeepSeek-AI和华盛顿大学的研究团队近期在arXiv预印本服务器上发表的一篇论文中介绍了NSA——一种旨在提高长上下文建模效率而不牺牲准确性的新型稀疏注意力机制。通过整合基于Triton的硬件优化与层级稀疏注意力策略(包括标记压缩、标记选择和滑动窗口注意力),NSA实现了显著的速度提升,同时保持或超越了全注意力模型的性能。
随着语言模型处理更长的输入序列,标准注意力机制变得计算昂贵。稀疏注意力技术被探索作为一种解决方案,但许多方法受限于灵活性不足、KV缓存管理低效以及不可训练的稀疏模式。现有方法往往无法将理论上的效率提升转化为实际的速度提升,或者仅关注推理阶段,忽略了训练阶段的潜在优势。NSA通过引入一种既针对现代GPU优化又适用于所有模型阶段(包括训练和推理)的可训练稀疏注意力机制解决了这些问题。
NSA架构概述。左图:框架通过三个并行注意力分支处理输入序列:对于给定查询,先前的关键字和值被处理成压缩注意力以捕捉粗粒度模式,选定注意力以保留重要标记块,滑动注意力以捕捉局部上下文。右图:每个分支生成的不同注意力模式可视化。绿色区域表示需要计算注意力分数的区域,而白色区域表示可以跳过的区域。
NSA采用三种核心技术来增强效率和准确性。首先是标记压缩,它将标记分组成较粗的表示形式,减少计算开销同时保留关键上下文。其次是标记选择,确保只保留最相关的细粒度标记,防止关键信息丢失。最后,滑动窗口注意力机制有效地捕捉局部依赖关系,保持上下文连续性的同时最小化冗余。通过结合这些元素,NSA不仅减少了计算复杂度,还确保了全局上下文感知和局部精度之间的最佳平衡,从而提高了模型的泛化能力。
与其他主要目标是减少计算复杂度的稀疏注意力模型不同,NSA专门设计用于GPU加速。它利用分块内存访问、优化算术强度和GPU流式多处理器,确保其理论上的速度优势转化为实际性能提升。此外,该架构支持端到端训练,消除了在应用稀疏性之前进行全注意力预训练的需求。与许多现有方法不同,其中稀疏性仅在推理阶段应用,NSA从一开始就学习稀疏模式,避免了性能下降,并确保在整个训练阶段的高效适应。这使得模型能够从一开始就学习稀疏模式,从而在所有部署阶段实现更好的泛化。
由于GPU内存瓶颈、低效调度和不平衡的算术强度,稀疏注意力方法传统上难以实现实际加速。许多方法理论上减少了计算量,但未能优化硬件执行,导致实际应用中的速度提升有限。NSA通过将其稀疏注意力机制与硬件约束对齐,减少了无效计算并降低了内存传输开销来解决这些低效问题。例如,在解码过程中,NSA通过优化KV缓存管理显著减少了内存需求——最多实现了11.6倍的内存减少,这是现有稀疏注意力模型中的一个关键瓶颈。
现有稀疏注意力模型的另一个主要限制是稀疏性通常仅应用于推理阶段,迫使模型偏离其预训练的全注意力路径,从而降低性能。NSA引入了可训练的稀疏操作符,确保稀疏模式在整个训练和推理过程中持续学习。这种方法带来了更好的长上下文适应性和整体模型效率,使NSA成为比仅在推理阶段应用稀疏性的方法更为有效的解决方案。
为了评估NSA,研究人员在其使用的270亿参数变换器模型上进行了测试,该模型使用了2600亿个标记,并结合了分组查询注意力(GQA)和专家混合(MoE)架构以增强效率。该模型在语言理解、推理和编码任务中进行了基准测试,包括MMLU、GSM8K和HumanEval等,其表现与全注意力模型相当甚至更优。在长上下文检索任务中,如针在干草堆基准测试中,NSA在64k标记上下文中所有位置均实现了完美检索准确率,显著优于现有的稀疏注意力方法,并展示了其在长序列理解方面的优势。
在多文档问答和深度推理任务的LongBench基准测试套件中,NSA获得了最高平均分,超过了全注意力模型和竞争的稀疏注意力方法。在数学推理任务中,NSA在经过美国邀请数学竞赛(AIME)数据集的微调和测试后,表现优于全注意力模型,尤其是在需要处理扩展序列的场景中。
除了准确性提升外,NSA还带来了显著的效率提升。与目前最优化的全注意力实现FlashAttention-2相比,NSA在64k标记序列中实现了高达9.0倍的前向计算加速和6.0倍的后向计算加速。这些加速归因于基于Triton的内核优化、合并内存访问和消除冗余KV缓存传输。在解码任务中,内存访问是主要瓶颈,NSA将内存需求减少了11.6倍,从而加快了序列生成速度并提高了GPU利用率。与许多现有稀疏注意力方法中低效的KV缓存管理不同,NSA减少了不必要的缓存加载和内存带宽占用,使其成为高速推理应用的理想选择。
这项研究证明了稀疏注意力机制可以既可训练又硬件优化,为可扩展、高性能的长上下文语言模型铺平了道路。通过专注于算法效率以及硬件感知执行,NSA为未来LLM架构提供了一个实用的解决方案,随着序列长度的不断增加。
这项研究标志着稀疏注意力领域的重要进展,解决了基本的低效问题,并为现代AI基础设施提供了高性能的解决方案。
期刊参考:初步科学报告。
袁军, 高海, 戴东, 罗杰, 赵亮, 张志, 谢正, 魏亚轩, 汪林, 肖泽, 王宇, 阮超, 张明, 梁伟, 曾维. (2025). 原生稀疏注意力:硬件对齐且可训练的稀疏注意力。arXiv。https://arxiv.org/abs/2502.11089
(以上内容均由Ai生成)