英伟达GPU曝严重漏洞模型准确率骤降99.9%

发布时间：2025年7月20日来源：szf

快速阅读: 据相关媒体报道，英伟达GPU被发现存在严重漏洞，名为GPUHammer的物理攻击可使AI模型准确率骤降。该攻击通过Rowhammer技术翻转内存比特，影响深度学习模型。英伟达建议启用ECC保护，但会降低性能。

英伟达 GPU,被白帽黑客发现了严重漏洞。
通过一种名为 GPUHammer 的攻击方式,可以让 GPU 上跑的大模型,准确率从 80% 直接掉到 0.02%,可以说是渣都不剩。
多伦多大学的研究人员形容,这种攻击就像在模型中引发灾难性的脑损伤。
目前,研究人员已经在英伟达 RTX A6000 上成功测试了这种攻击,但不排除其他型号也可能受到影响。
英伟达这边建议用户实施一项防御措施,但这种措施会让模型性能下降 10%。
那么,这个漏洞到底是怎么一回事呢? 不是 Bug,而是“物理攻击” GPUHammer 是首个成功攻击 GPU 显存的 Rowhammer 攻击。它并不是通过代码篡改模型文件,而是直接对你的显存“物理动手”。
它属于 Rowhammer 攻击的一类:攻击者通过反复“敲击”内存某一行,引发相邻行中的比特翻转(从 0 变成 1,从 1 变成 0),从而悄悄篡改数据。
以前 Rowhammer 只能攻击 CPU 用的内存,现在,GPU 也中招了。
在 GPUHammer 中,研究人员成功翻转了深度学习模型中的权重指数位。
比如 FP16 浮点数,只要翻转一个关键位,指数就能飙升 16 倍 —— 模型准确率直接塌了。
在实验中,研究人员对 AlexNet、VGG、ResNet 等经典神经网络架构发起了攻击。
结果表明,即使是单个比特的翻转也可能导致模型性能的彻底崩溃。在受到攻击后模型的准确率就会从 80%(BaseAcc)直接暴跌至 0.1%(DegradedAcc.)。
在这种情况下,自动驾驶汽车可能会错误地识别交通标志,而在医疗 AI 情景中则可能发生误诊。
而在云机器学习平台或 VDI 设置等共享 GPU 环境中,恶意租户可能会对相邻的工作负载发起 GPUHammer 攻击,从而影响推理准确性或破坏缓存的模型参数。
可以说,GPUHammer 对 AI 时代的基础设施有着毁灭性的打击。
那么,有没有什么办法可以阻止这东西呢? 为了回应 GPUHammer 的攻击,英伟达发布了一份安全通知。
英伟达提醒用户可以开启一项名为系统级纠错码(ECC)的保护措施。
ECC(纠错码)的原理是:在每段内存数据旁边,额外加几位“校验码”。一旦有比特翻转,比如 0 变成了 1,ECC 就能自动识别并纠正。
不过它只能修复单个比特错误,遇上双比特翻转,只能发出警告,没法补救。
此外,ECC 还是一把“双刃剑”,在缓解 GPUHammer 的同时,还会导致 GPU 性能的衰退。
研究团队表示,系统一般默认禁用 ECC,因为它存储在带外的单独内存区域中,启用它会导致 6.5% 的内存开销和减速。而在 A6000GPU 上启用 ECC 会导致 12% 内存带宽损失,机器学习应用速度会降低 3%-10% 。
别怕,你的游戏不会崩不少网友在评论区,发出了疑问:GPUHammar 不会影响我打游戏吧? 放心,研究团队表明,虽然目前尚未发现影响 GPU 比特翻转的根本原因,但不同的 GPU 配置、设计在受 Rowhammer 攻击时有着明显区别。
例如,RTX3080、A100 等芯片就采用了与 A6000 GDDR 完全不同的 DRAM 架构,这些架构的存在使芯片避开了 Rowhammer 的影响。
而且,在未来的 GPU 的开发中,如果 GPU 集成了片上 ECC(on-die ECC),就可以纠正单位翻转,并默认检测双位翻转。这就进一步使 Rowhammer 对 GPU 的攻击更加困难。
此外,在云端环境中,NVIDIA 的 MIG 和机密计算(CC)技术通过内存隔离,能有效阻止多租户共享同一 DRAM 存储,从而防止 Rowhammer 类攻击生效。
不过,AI 越强大,盘外招也越隐蔽,GPUHammer 只是开始,未来模型的安全建设才刚刚开始。
参考链接: [1] https://arstechnica.com/security/2025/07/nvidia-chips-become-the-first-gpus-to-fall-to-rowhammer-bit-flip-attacks/ ?comments-page=1#comments [2] https://thehackernews.com/2025/07/gpuhammer-new-rowhammer-attack-variant.html