新的 AI 防御方法可保护模型免受对抗性攻击
快速阅读: 据《科技探索》称,洛斯阿拉莫斯国家实验室的研究人员开发了一种名为LoRID的新方法,通过生成去噪扩散过程和张量分解技术,有效抵御对抗性攻击,提高神经网络的稳健性。该方法在多种基准数据集测试中表现出色,显著提升了AI的安全性和可靠性。
一个未来的神经网络正遭受激烈的对抗攻击;左侧,扭曲和被污染的数据流(红色)压倒了神经网络,右侧,强大的AI去噪能量机制(蓝色)消除了干扰并恢复了网络。图片由马尼什·巴塔赖使用DALL-E创建。
神经网络,一种模仿人脑连接的人工智能模型,正在推动广泛科学领域的关键突破。但这些模型面临着来自对抗性攻击的重大威胁,这些攻击可以破坏预测并产生错误信息。洛斯阿拉莫斯国家实验室的研究人员现在开创了一种新型的净化策略,以对抗对抗性攻击并保持神经网络的稳健性能。他们的研究已发表在arXiv预印本服务器上。“对AI系统的对抗性攻击可以表现为输入图像上的微小、几乎看不见的调整,细微修改可以使模型朝攻击者想要的结果倾斜,”洛斯阿拉莫斯计算机科学家马尼什·巴塔赖说。“这种漏洞让恶意行为者能够在伪装成正常输出的情况下,向数字渠道中注入欺骗性或有害内容,直接威胁到AI驱动技术的信任和可靠性。”
低秩迭代扩散(LoRID)方法通过利用生成去噪扩散过程以及先进的张量分解技术的力量,从输入数据中去除对抗性干预。在一系列基准测试数据集测试中,LoRID在对抗性噪声消除方面实现了无与伦比的准确性,可能推进更安全、可靠的AI能力。击败危险噪声扩散是一种通过向数据添加噪声然后训练模型去除噪声来训练AI模型的技术。通过学习清理噪声,AI模型有效地学习了数据的基本结构,使其能够自行生成逼真的样本。在基于扩散的净化过程中,模型利用其对“干净”数据的学习表示来识别并消除任何引入输入的对抗性干扰。不幸的是,应用过多的去噪步骤可能会从数据中剥离掉重要细节——想象一下过度擦洗一张照片以至于失去清晰度——而太少的步骤则会让有害扰动继续存在。LoRID方法通过在扩散过程的早期阶段进行多轮去噪来平衡这一权衡,帮助模型消除恰好正确的噪声量,而不损害数据的有意义内容,从而增强模型的抗攻击能力。至关重要的是,对抗性输入通常会揭示微妙的“低秩”特征——这些模式可以避开复杂的防御。通过编织一种称为张量分解的技术,LoRID定位这些低秩特征,在大规模对抗性攻击中增强了模型的防御能力。
该团队使用广泛认可的基准数据集CIFAR-10、CIFAR-100、Celeb-HQ和ImageNet测试了LoRID,评估其在最先进的黑盒和白盒对抗性攻击中的表现。在白盒攻击中,对手完全了解AI模型的架构和参数。在黑盒攻击中,他们只能看到输入和输出,模型的内部工作隐藏起来。在所有测试中,LoRID始终优于其他方法,尤其是在鲁棒准确性的方面——这是衡量模型在对抗威胁下的可靠性的关键指标。文多帮助解锁效率和结果
该团队在实验室最新的人工智能超级计算机文多上运行了LoRID模型,测试了一系列最先进的视觉模型在黑盒和白盒对抗性攻击下的表现。通过利用多个文多节点进行了数周的计算——考虑到巨大的计算需求,这是一项雄心勃勃的努力——他们成为第一个进行全面分析的团队。文多的强大功能将数月的模拟时间压缩到了几天,将整个开发周期从数年缩短到仅仅一个月,并大幅降低了计算成本。鲁棒的净化方法可以在应用神经网络或机器学习应用的任何地方增强AI的安全性。“我们的方法在著名的数据集上达到了最先进的性能,在白盒和黑盒攻击场景下表现出色,”洛斯阿拉莫斯AI研究员明·武说。“这一成就意味着我们现在可以在使用数据训练基础模型之前对其进行净化,无论是私有还是公共来源的数据,确保它们的安全性和完整性,同时持续提供准确的结果。”
更多信息:盖奇·佐利科弗等人,《LoRID:用于对抗性净化的低秩迭代扩散》,arXiv,2024。DOI: 10.48550/arxiv.2409.08255
(以上内容均由Ai生成)