研究人员演示 AI 致残的 GPUHammer 攻击
快速阅读: 据《iT新闻》称,Nvidia确认存在类似Rowhammer的GPU内存漏洞,研究人员成功演示攻击,导致AI模型准确率骤降。该漏洞可能威胁云服务和AI系统安全。
由 Juha Saarinen 2025年7月15日 下午1:56,Nvidia 确认存在类似 Rowhammer 的严重内存漏洞。安全研究人员成功演示了针对图形处理单元(GPU)内存的第一个 Rowhammer 攻击,揭示了一个关键漏洞,该漏洞可能允许攻击者破坏运行在广泛使用的 Nvidia 硬件上的人工智能模型。
这项名为 GPUHammer 的攻击是由多伦多大学的研究人员 Chris Lin、Joyce Qu 和 Gururaj Saileshwar 开发的,可能对人工智能使用构成严重风险。通过翻转 GPU 内存中的单个位,研究人员能够将人工智能模型的准确性从 80% 骤降至不到 0.5%——只需一个损坏的位即可实现。
研究人员基于现有的 Rowhammer 硬件漏洞进行攻击,该漏洞利用现代内存芯片的物理特性,且难以防范。他们指出,尽管 Rowhammer 漏洞已在 CPU 系统上得到广泛研究,但其对机器学习应用中关键的 GPU 内存系统的影响仍未被探索。
技术上,研究人员通过快速激活特定的内存行来利用这一漏洞。这样做是为了引起电干扰,从而翻转相邻行中的位,可能会导致存储数据的损坏。为了使攻击生效,多伦多大学的团队克服了复杂的工程技术挑战,将 Rowhammer 技术适应于 GPU 系统。例如,图形处理器使用的内存架构与 CPU 不同,具有更高的延迟和更快的刷新率,通常会阻止成功的攻击。
为了解决这个问题,研究人员开发了新颖的技术来逆向工程 Nvidia GPU 如何映射内存地址,并创建了并行化的攻击模式,每刷新周期可达到 620,000 次激活率——接近理论最大值。他们的成功演示针对的是配备 48GB GDDR6(图形双倍数据速率)内存的 Nvidia A6000 GPU。该攻击在四个内存银行中产生了八个位翻转,证明了 GPU Rowhammer 攻击是可行的,而不仅仅是理论上的。
对人工智能系统的巨大影响
研究人员对五个 AI 模型进行了测试:AlexNet、VGG16、ResNet50、DenseNet161 和 InceptionV3。测试显示,针对神经网络权重指数最重要位的单个位翻转会导致准确性大幅下降。在最严重的情况下,之前在图像识别任务中达到 80% 准确性的模型,在单个损坏位后性能下降至仅 0.02%。这种程度的退化将导致人工智能系统性能大幅下降。
来源:Lin、Qu 和 Saileshwar
GPUHammer 对使用 16 位浮点权重的模型特别有效,这是现代人工智能系统中常见的优化方式。翻转这些权重指数部分的单个位可以指数级地改变它们的值,并在整个神经网络中传播。此外,GPUHammer 还对基于云的人工智能服务构成威胁,因为多个客户的任务通常共享同一 GPU 硬件,它们的数据也存储在同一内存银行中。
研究人员还展示了内存操作技术,可以通过利用 GPU 内存分配器如何重用已释放的内存块,让攻击者精确地针对受害者的数据。
Nvidia 确认 GPUHammer 并寻找缓解措施
GPUHammer 于今年 1 月披露给图形和人工智能处理器供应商 Nvidia,该公司已确认该漏洞并正在调查潜在的修复方案。亚马逊 AWS、微软 Azure 和谷歌云平台等主要云服务提供商也已被告知 GPUHammer。
虽然存在几种缓解策略,但每种策略都有权衡。启用纠错码(ECC)内存可以防止单个位翻转攻击,但会带来 3% 到 10% 的性能损失,以及 6.5% 的内存开销。研究人员发现,由于这些开销,许多组织默认禁用 ECC,这可能导致带宽减少高达 12%。
GPU 制造商还可以在未来内存版本中实施现代的 Rowhammer 防御措施,如刷新管理(RFM)或每行激活计数(PRAC)。随机化虚拟到物理内存映射将迫使攻击者反复分析内存布局,这将大大增加攻击的复杂性。
研究人员计划在 Nvidia 的禁售期于 8 月 12 日到期后公开其代码。
有新闻线索要提供给我们的记者吗?在这里匿名与我们分享。
版权 © iTnews.com.au。保留所有权利。
标签:
aws
google cloud platform
gpuhammer
大型语言模型
microsoft azure
nvidia
rowhammer
安全
(以上内容均由Ai生成)