DeepSeek 的 NSA 性能优于 Full Attention,使 AI 模型更快、更智能

发布时间:2025年2月20日    来源:szf
DeepSeek 的 NSA 性能优于 Full Attention,使 AI 模型更快、更智能

快速阅读: 《AZoAI》消息,通过结合可训练的稀疏注意力机制和GPU优化技术,国家安全局(NSA)实现了高达9倍的计算速度提升和完美的长上下文检索能力,为大语言模型树立新标准。研究团队在arXiv上发布论文,介绍NSA架构,该架构通过标记压缩、标记选择和滑动窗口注意力等技术显著提升了效率和准确性。

乔尔·斯坎隆(作者)2025年2月19日报道,通过结合可训练的稀疏注意力机制和前沿的GPU优化技术,国家安全局(NSA)实现了高达9倍的计算速度提升和完美的长上下文检索能力,为高效的大语言模型树立了新的标准。研究:原生稀疏注意力:硬件对齐且可训练的稀疏注意力

图片版权:克罗特工作室 / 视觉中国

重要通知:arXiv发布的初步科学报告未经同行评审,不应被视为最终结论,不应作为开发决策的依据,也不应被视为人工智能研究领域的权威信息。

北京大学PKU-Anker大语言模型实验室、DeepSeek-AI和华盛顿大学的研究团队近期在arXiv预印本服务器上发表的一篇论文中介绍了NSA——一种旨在提高长上下文建模效率而不牺牲准确性的新型稀疏注意力机制。通过整合基于Triton的硬件优化与层级稀疏注意力策略(包括标记压缩、标记选择和滑动窗口注意力),NSA实现了显著的速度提升,同时保持或超越了全注意力模型的性能。

随着语言模型处理更长的输入序列,标准注意力机制变得计算昂贵。稀疏注意力技术被探索作为一种解决方案,但许多方法受限于灵活性不足、KV缓存管理低效以及不可训练的稀疏模式。现有方法往往无法将理论上的效率提升转化为实际的速度提升,或者仅关注推理阶段,忽略了训练阶段的潜在优势。NSA通过引入一种既针对现代GPU优化又适用于所有模型阶段(包括训练和推理)的可训练稀疏注意力机制解决了这些问题。

NSA架构概述。左图:框架通过三个并行注意力分支处理输入序列:对于给定查询,先前的关键字和值被处理成压缩注意力以捕捉粗粒度模式,选定注意力以保留重要标记块,滑动注意力以捕捉局部上下文。右图:每个分支生成的不同注意力模式可视化。绿色区域表示需要计算注意力分数的区域,而白色区域表示可以跳过的区域。

NSA采用三种核心技术来增强效率和准确性。首先是标记压缩,它将标记分组成较粗的表示形式,减少计算开销同时保留关键上下文。其次是标记选择,确保只保留最相关的细粒度标记,防止关键信息丢失。最后,滑动窗口注意力机制有效地捕捉局部依赖关系,保持上下文连续性的同时最小化冗余。通过结合这些元素,NSA不仅减少了计算复杂度,还确保了全局上下文感知和局部精度之间的最佳平衡,从而提高了模型的泛化能力。

与其他主要目标是减少计算复杂度的稀疏注意力模型不同,NSA专门设计用于GPU加速。它利用分块内存访问、优化算术强度和GPU流式多处理器,确保其理论上的速度优势转化为实际性能提升。此外,该架构支持端到端训练,消除了在应用稀疏性之前进行全注意力预训练的需求。与许多现有方法不同,其中稀疏性仅在推理阶段应用,NSA从一开始就学习稀疏模式,避免了性能下降,并确保在整个训练阶段的高效适应。这使得模型能够从一开始就学习稀疏模式,从而在所有部署阶段实现更好的泛化。

由于GPU内存瓶颈、低效调度和不平衡的算术强度,稀疏注意力方法传统上难以实现实际加速。许多方法理论上减少了计算量,但未能优化硬件执行,导致实际应用中的速度提升有限。NSA通过将其稀疏注意力机制与硬件约束对齐,减少了无效计算并降低了内存传输开销来解决这些低效问题。例如,在解码过程中,NSA通过优化KV缓存管理显著减少了内存需求——最多实现了11.6倍的内存减少,这是现有稀疏注意力模型中的一个关键瓶颈。

现有稀疏注意力模型的另一个主要限制是稀疏性通常仅应用于推理阶段,迫使模型偏离其预训练的全注意力路径,从而降低性能。NSA引入了可训练的稀疏操作符,确保稀疏模式在整个训练和推理过程中持续学习。这种方法带来了更好的长上下文适应性和整体模型效率,使NSA成为比仅在推理阶段应用稀疏性的方法更为有效的解决方案。

为了评估NSA,研究人员在其使用的270亿参数变换器模型上进行了测试,该模型使用了2600亿个标记,并结合了分组查询注意力(GQA)和专家混合(MoE)架构以增强效率。该模型在语言理解、推理和编码任务中进行了基准测试,包括MMLU、GSM8K和HumanEval等,其表现与全注意力模型相当甚至更优。在长上下文检索任务中,如针在干草堆基准测试中,NSA在64k标记上下文中所有位置均实现了完美检索准确率,显著优于现有的稀疏注意力方法,并展示了其在长序列理解方面的优势。

在多文档问答和深度推理任务的LongBench基准测试套件中,NSA获得了最高平均分,超过了全注意力模型和竞争的稀疏注意力方法。在数学推理任务中,NSA在经过美国邀请数学竞赛(AIME)数据集的微调和测试后,表现优于全注意力模型,尤其是在需要处理扩展序列的场景中。

除了准确性提升外,NSA还带来了显著的效率提升。与目前最优化的全注意力实现FlashAttention-2相比,NSA在64k标记序列中实现了高达9.0倍的前向计算加速和6.0倍的后向计算加速。这些加速归因于基于Triton的内核优化、合并内存访问和消除冗余KV缓存传输。在解码任务中,内存访问是主要瓶颈,NSA将内存需求减少了11.6倍,从而加快了序列生成速度并提高了GPU利用率。与许多现有稀疏注意力方法中低效的KV缓存管理不同,NSA减少了不必要的缓存加载和内存带宽占用,使其成为高速推理应用的理想选择。

这项研究证明了稀疏注意力机制可以既可训练又硬件优化,为可扩展、高性能的长上下文语言模型铺平了道路。通过专注于算法效率以及硬件感知执行,NSA为未来LLM架构提供了一个实用的解决方案,随着序列长度的不断增加。

这项研究标志着稀疏注意力领域的重要进展,解决了基本的低效问题,并为现代AI基础设施提供了高性能的解决方案。

期刊参考:初步科学报告。

袁军, 高海, 戴东, 罗杰, 赵亮, 张志, 谢正, 魏亚轩, 汪林, 肖泽, 王宇, 阮超, 张明, 梁伟, 曾维. (2025). 原生稀疏注意力:硬件对齐且可训练的稀疏注意力。arXiv。https://arxiv.org/abs/2502.11089

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日