DeepSeek下一代技术获ACL2025最佳论文奖,长文本处理效率大幅提升

发布时间:2025年7月31日    来源:szf
DeepSeek下一代技术获ACL2025最佳论文奖,长文本处理效率大幅提升

快速阅读: 据《AIbase – AI新闻资讯》称,7月11日,ACL2025颁奖典礼上,DeepSeek与北京大学等机构合作的论文获最佳论文奖。论文介绍了一种原生稀疏注意力(NSA)机制,显著提升了长文本处理速度和性能,将上下文长度扩展至100万tokens,为未来模型发展奠定基础。

在刚刚结束的 ACL2025颁奖典礼上,由 DeepSeek 的梁文锋博士作为通讯作者,与北京大学等机构联合发表的研究论文荣获 最佳 论文奖。这次会议规模空前,投稿数量几乎翻倍,达到了8360篇,竞争之激烈可见一斑。
该论文提出了一种名为原生稀疏注意力(NSA)的新机制,能在算法与硬件的协同优化下,将长文本的处理速度提升至惊人的11倍。而更为振奋的是,这项技术的性能不仅提升,反而超越了传统的全注意力模型。通过这项技术,研究团队成功将上下文长度扩展到了惊人的100万 tokens,这为未来的前沿模型奠定了基础。
NSA 机制的核心在于通过动态分层的稀疏策略,结合三条并行的注意力分支,有效捕捉文本中的重要信息。首先是 “压缩注意力”,负责提炼全局信息;其次是 “选择性注意力”,聚焦于重要的词块;最后是 “滑动注意力”,确保局部上下文的完整性。这种设计不仅让模型更为灵活,同时在现代 GPU 硬件上进行了深度优化,实现了原生可训练模式。
在测试中,NSA 在处理64k 长度的文本时,解码阶段速度提升了11.6倍,前向传播和反向传播速度分别提升了9倍和6倍。更重要的是,NSA 在各种基准测试中表现优异,27B 参数的模型在9个评测指标中有7个超越了全注意力基线,特别是在多跳问答和代码理解等复杂任务中展现了明显的优势。
这项研究为长文本处理开辟了新的可能性,真正实现了速度与精度的双赢,证明了 NSA 机制在 AI 领域的广泛应用前景。
论文地址:https://arxiv.org/pdf/2502.11089

(以上内容均由Ai生成)

你可能还想读

前LinkedIn高管和AWS专家创办Apex职业训练营,实现千万级收入与千人就业

前LinkedIn高管和AWS专家创办Apex职业训练营,实现千万级收入与千人就业

快速阅读: 阿佩克斯研究所通过培训技术专业人士推动云计算发展,已帮助1000多名学生在微软等公司就业,就业率达90%,无需学位。过去八个月收入超100万美元,推出AI支持的职业保障计划。 2025年8月28日,旧金山 —— 阿佩克斯研究所通 […]

发布时间:2025年8月29日
苹果高管库伊提议收购特斯拉与Netflix,遭库克拒绝

苹果高管库伊提议收购特斯拉与Netflix,遭库克拒绝

快速阅读: 苹果高级副总裁埃迪・库伊长期主张大规模收购,但多次被CEO库克否决,包括特斯拉和Netflix。目前库伊正推动苹果收购人工智能公司Perplexity和Mistral。苹果曾以4亿美元收购Shazam,通过测算广告费确定价格。 […]

发布时间:2025年8月29日
苹果高管库伊力推收购特斯拉Netflix,均遭库克否决

苹果高管库伊力推收购特斯拉Netflix,均遭库克否决

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,特别是特斯拉和Netflix,但均被库克否决。库伊正推动苹果收购人工智能公司,Perplexity和Mistral为主要目标。 IT之家 8 月 28 日消息,昨日《The I […]

发布时间:2025年8月29日
苹果高管库伊曾提议收购特斯拉与Netflix,均被库克拒绝

苹果高管库伊曾提议收购特斯拉与Netflix,均被库克拒绝

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,包括特斯拉和Netflix,但均被库克否决。库伊正推动苹果收购人工智能公司,Perplexity和Mistral为主要目标。 IT之家 8 月 28 日消息,昨日《The In […]

发布时间:2025年8月28日
苹果高管库伊曾提议收购特斯拉与Netflix,遭库克拒绝

苹果高管库伊曾提议收购特斯拉与Netflix,遭库克拒绝

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,但多次提议被首席执行官蒂姆・库克否决,包括特斯拉和 Netflix。库伊曾推动收购 Beats 和 Shazam,目前正全力推动苹果收购人工智能公司。 IT之家 8 月 28 […]

发布时间:2025年8月28日
特朗普政府欲购英特尔大股,软银此前注资20亿美元

特朗普政府欲购英特尔大股,软银此前注资20亿美元

快速阅读: 美国商务部长卢特尼克确认,政府正争取获得英特尔10%股份,以加深与芯片制造商的财务联系。此举旨在提升美国芯片生产能力,应对中国竞争,同时为政府带来额外收入。 美国商务部长霍华德·卢特尼克周二确认,美国政府正争取获得硅谷先驱英特尔 […]

发布时间:2025年8月20日
六大项目落地临港新片区:总投资超400亿元,涵盖集成电路等关键方向

六大项目落地临港新片区:总投资超400亿元,涵盖集成电路等关键方向

快速阅读: 8月19日,临港新片区成立六周年,总投资超400亿元的6个重大项目集中签约,涵盖集成电路、高端装备、人工智能等领域,推动产业高质量发展。 8月19日,临港新片区揭牌成立六周年之际,总投资额超400亿元的6个重磅项目在临港新片区集 […]

发布时间:2025年8月19日
股票飙升近90%,公司业绩显著提升

股票飙升近90%,公司业绩显著提升

快速阅读: 特拉沃尔夫获谷歌14亿美元债务融资,股价一周涨近90%,将与Fluidstack共建CB-5设施,拓展人工智能基础设施。 比特币矿业公司特拉沃尔夫(Terawulf,纳斯达克代码:WULF)的股价在过去一周内飙升近90%,主要得 […]

发布时间:2025年8月19日