洛斯阿拉莫斯 AI 突破消除了对抗性攻击并恢复了对神经网络的信任
快速阅读: 据《AZoAI》称,洛斯阿拉莫斯国家实验室推出LoRID(低秩迭代扩散),一种新的人工智能防御系统,能在保持数据完整性的前提下消除对抗性威胁。LoRID结合去噪扩散与张量分解技术,有效抵御各类对抗性攻击。该技术已在多个基准数据集测试中展现卓越性能,有望提升AI的安全性和可靠性。
洛斯阿拉莫斯国家实验室
2025年3月11日
洛斯阿拉莫斯的科学家们推出LoRID(低秩迭代扩散),这是一种尖端的人工智能防御系统,能够在不损害数据完整性的情况下消除对抗性威胁——为安全和可信的神经网络树立了新的黄金标准。
研究:
LoRID:低秩迭代扩散用于对抗性净化
图片来源:Shutterstock AI
*重要通知:
arXiv 发布的是未经同行评审的初步科学报告,因此不应被视为最终结论,也不应用于指导开发决策或作为人工智能研究领域的既定信息。
神经网络是一种模仿人类大脑连接方式的人工智能模型,在广泛科学领域中推动着关键突破。然而,这些模型面临着来自对抗性攻击的重大威胁,这些攻击可能会破坏预测并产生错误信息。洛斯阿拉莫斯国家实验室的研究人员开创了一种新型的净化策略,以对抗对抗性攻击并保持神经网络的稳健性能。
“针对人工智能系统的对抗性攻击可以表现为对输入图像的微小且几乎不可见的改动,这些微妙的变化可以使模型得出攻击者想要的结果,”洛斯阿拉莫斯计算机科学家马尼斯·巴塔赖说。“这种漏洞允许恶意行为者在以真实输出为幌子的情况下向数字渠道注入欺骗性或有害内容,直接威胁到人工智能驱动技术的信任和可靠性。”
低秩迭代扩散(LoRID)方法通过利用生成去噪扩散过程与先进的张量分解技术相结合的力量,从输入数据中移除对抗性干预。在一系列基准数据集测试中,LoRID 在对抗性攻击场景中实现了无与伦比的精度,能够中和对抗性噪声,从而可能推进更安全、可靠的AI能力。
击败危险噪声
扩散是一种通过向数据添加噪声然后教模型去除噪声来训练AI模型的技术。通过学习清理噪声,AI模型有效地学习了数据的基本结构,使其能够自主生成逼真的样本。在基于扩散的净化过程中,模型利用其对“干净”数据的学习表示来识别并消除任何引入输入的对抗性干扰。
相关故事
AI驱动的μSAM以前所未有的速度加速显微镜图像分析
AI模型追踪脑老化速度以预测认知衰退
随着先进模型获得力量和自主性,AI风险升级
不幸的是,应用过多的噪声净化步骤可能会剥离数据中的重要细节——想象一下过度擦洗一张照片以至于失去清晰度——而太少的步骤则会让有害扰动继续存在。LoRID 方法通过在扩散过程的早期阶段进行多轮去噪,巧妙地解决了这一权衡问题,帮助模型消除恰好正确的噪声量,而不损害数据的有意义内容,从而加强了模型抵御攻击的能力。
至关重要的是,对抗性输入通常会揭示微妙的“低秩”特征——这些模式可以避开复杂的防御。通过引入称为张量分解的技术,LoRID 能够定位这些低秩特征,增强模型在广泛的对抗性攻击环境下的防御能力。
该团队使用广为人知的基准数据集,如CIFAR-10、CIFAR-100、Celeb-HQ和ImageNet,测试了LoRID的表现,并评估了它在最先进的黑盒和白盒对抗性攻击下的表现。在白盒攻击中,对手完全了解AI模型的架构和参数。在黑盒攻击中,他们只能看到输入和输出,模型的内部工作被隐藏起来。在每次测试中,LoRID始终优于其他方法,特别是在鲁棒准确性方面——这是衡量模型在对抗性威胁下可靠性的关键指标。
文多帮助解锁效率和结果
该团队在洛斯阿拉莫斯最新的AI超级计算机文多上运行LoRID模型,以测试各种最先进的视觉模型在黑盒和白盒对抗性攻击下的表现。
通过利用多个文多节点运行数周——考虑到巨大的计算需求,这是一个雄心勃勃的努力——他们成为第一个进行全面分析的团队。文多的强大功能将数月的模拟时间缩短到了仅仅几个小时,大幅缩短了总体开发周期从数年到仅一个月,并显著降低了计算成本。
稳健的净化方法无论在哪里应用神经网络或机器学习应用,都能增强人工智能安全性,包括可能在实验室的国家安全任务中。
“我们的方法在著名的数据集上达到了最先进性能的新标杆,在白盒和黑盒攻击场景中表现出色,”洛斯阿拉莫斯AI研究员明·武说。“这一成就意味着我们现在可以在使用数据训练基础模型之前对其进行净化——无论是私有还是公共来源——确保其安全性和完整性,同时持续提供准确结果。”
团队
在由美国人工智能促进协会主办的享有盛誉的AAAI人工智能会议上展示了他们的工作和成果,会议名为AAAI-2025。
资金:
这项工作得到了洛斯阿拉莫斯实验室定向研究与发展计划的支持。
*重要通知:
arXiv 发布的是未经同行评审的初步科学报告,因此不应被视为最终结论,也不应用于指导开发决策或作为人工智能研究领域的既定信息。
来源:
洛斯阿拉莫斯国家实验室
期刊参考:
初步科学报告。
佐利科夫弗,G.,武,M.,内本根,B.,卡斯特雷纳,J.,亚历山德罗夫,B.,及巴塔赖,M.(2024)。LoRID:低秩迭代扩散用于对抗性净化。
ArXiv
(以上内容均由Ai生成)