NSA、CISA、FBI 和国际合作伙伴发布有关 AI 数据安全的联合指南

快速阅读: 据《JD Supra》称，美国网络安全机构发布AI数据安全指南，指出数据供应链漏洞、数据中毒和数据漂移三大风险，并提出全生命周期安全措施。

人工智能系统不仅面临来自威胁行为者的攻击。我们的隐私、网络安全与数据战略小组分析了美国和国际网络安全机构联合发布的指导文件，该文件提供了保护人工智能系统数据免受各种安全威胁的最佳实践。该指南强调了三个主要风险：数据供应链漏洞、被恶意修改的数据以及因输入分布变化引发的“数据漂移”或模型性能下降。这些机构建议对人工智能生命周期的四个阶段实施控制措施。为降低风险，需更新响应计划，审计现有的AI项目，并实施跨职能的审查流程。2025年5月22日，国家安全局人工智能安全中心（AISC）、网络安全与基础设施安全局（CISA）、联邦调查局（FBI）及盟国的国际网络安全机构发布了联合指导文件，以帮助各类组织保护用于训练和运行人工智能（AI）系统的数据。

网络安全信息表（CSI）列出了人工智能数据可能受到侵害的方式，包括未经授权的访问、数据篡改、中毒攻击和无意的数据泄露，并根据NIST人工智能风险管理框架提出缓解策略。新的指导文件还为在关键环境中部署或管理人工智能系统的公司提供了针对性的技术建议。

关键风险与威胁路径

新指南重点关注威胁人工智能系统安全的三个主要风险：

1. 数据供应链漏洞；
2. 被恶意修改（或“中毒”）的数据；
3. 因输入分布变化引发的“数据漂移”或模型性能下降。

数据供应链漏洞

根据指南，当一个组织依赖第三方数据源和中介时，可能会无意中获取来自不可信来源的数据，这会损害模型准确性，暴露敏感系统，或引入法律和监管风险。特别是数据经纪人、开源数据集或未经验证的供应商可能提供不完整、不干净或恶意构造的数据。CSI特别强调使用“网络规模数据集”的危险——这些是大规模的互联网抓取数据集，通常在没有质量控制、适当许可或来源验证的情况下整理而成。这些数据集可能包含旨在毒害模型的对抗性数据、版权内容、个人可识别信息或其他敏感材料。它们的规模和不透明性使它们尤其难以审计或管理。依赖这些数据集的组织可能会面临更高的安全风险和监管暴露风险。

数据供应链中的风险缓解策略包括：

– 建立数据采集政策，要求所有第三方数据集进行来源检查、数字签名和来源认证；
– 筛查“恶意和不准确的内容”；
– 要求供应商验证所提供数据的完整性和合法来源。

被恶意修改（或“中毒”）的数据

指南指出了攻击者如何将操控后的数据插入训练集（称为“数据中毒”）所带来的关键风险，这可能导致分类错误、输出异常或模型安全性受损。指南详细描述了这种攻击的各种形式，包括“抢先中毒”，即攻击者预见到并提前在数据收集前插入恶意数据，以及“分视中毒”，即选择性地操纵数据的不同子集以造成特定故障而不影响测试期间的整体模型性能。最终，中毒数据可能导致用户在做决策时依赖不准确的数据，这会造成声誉损失和潜在的法律风险。指南建议组织采用数据净化和异常检测工具来识别训练数据中的异常值或可疑模式。如果可行，组织应使用统计指纹和标签验证隔离并审计高风险数据子集。

数据漂移

数据漂移是指输入数据的统计特性随时间变化，从而降低模型的准确性与可靠性。因此，当底层数据不再反映模型训练时的条件时，人工智能系统的性能可能会下降。结果可能导致模型静默失败或在操作环境中增加错误率，特别是在动态环境如欺诈检测或自主系统中。数据漂移不同于中毒攻击，因为它是由现实世界条件的变化自然发生的，而不是由对手故意操纵造成的。缓解指南建议定期测试和验证数据输出，并实施反馈循环以定期重新训练模型并定义模型必须刷新的阈值。

基于生命周期的安全最佳实践

基于这些风险，CSI建议在整个人工智能生命周期的四个阶段应用安全控制措施，与NIST的人工智能风险管理框架保持一致。

1. 规划与设计阶段

这一初始阶段对于从一开始就将安全原则嵌入人工智能系统至关重要。关键建议：

– 在任何人工智能项目开始时进行数据安全威胁建模和隐私影响评估。
– 在系统设计中嵌入“数据最小化”和“目的限制”原则。
– 要求记录预期的数据用途和安全假设。
– 映射可能规范所用数据的合规义务（例如HIPAA、GDPR、第13960号行政命令）。
– 预测数据漏洞可能出现的位置——如不安全的数据管道和过度宽松的访问权限——允许开发人员主动减轻风险并尽早减少攻击面。

2. 收集与处理

数据收集和处理阶段由于摄入数据的数量和敏感性而成为主要攻击面。关键建议：

– 在收集时验证数据。
– 使用安全的摄入渠道，如带有相互认证的TLS 1.3。
– 在静态和传输过程中应用完整性检查（例如哈希验证）。
– 将原始数据和处理后的数据存储在逻辑上分隔的环境中。

摄入是一个特别容易受到攻击的环节，如果未充分执行安全措施，威胁行为者可以拦截、更改或替换数据。

3. 构建与使用

在这个阶段，一旦模型进入开发阶段，数据输入和模型输出都会带来额外的风险。关键建议：

– 防止未经授权的模型输入/输出操作。
– 评估模型在边缘情况下的行为。
– 使用多个评审员标记和验证的数据集进行训练。
– 在模型训练过程中屏蔽或删除不必要的敏感属性。
– 根据适用情况使用差分隐私或联邦学习以减少暴露。

即使经过良好训练的模型，如果没有实施适当的防护措施，也可能通过模型逆向、提取攻击或对抗样本被颠覆。

4. 运行与监控

在部署后，持续监控和审计对于维护人工智能系统完整性至关重要。关键建议：

– 记录所有数据访问和模型推理活动。
– 实施基于角色的访问控制和不可变日志记录。
– 监控模型输出分布的异常变化。
– 定期审核数据集和模型行为。

部署后的AI系统是被利用的诱人目标，尤其是如果反馈数据可以被操控以随时间推移降低模型性能。

技术建议

CSI提供了其他具体的控制措施，包括：

– 加密与签名。考虑使用符合FIPS 140-3标准的算法对敏感训练数据进行加密，并使用可信密钥管理基础设施对其进行数字签名。
– 数据溯源。使用自动化元数据标记和不可变日志系统跟踪数据从源头到模型输出的来源。
– 信任基础设施。建立内部框架以验证所有数据集的真实性、完整性和及时性，包括交叉验证数据和第三方认证服务。
– 安全存储。确认敏感数据集和模型存放在强制执行静态数据加密、完整性监控和受限API暴露的存储环境中。

关键要点

开发或部署人工智能系统的组织可以从将数据安全视为负责任的人工智能治理核心要素中受益。随着人工智能模型日益依赖于庞大且多样化数据集，与数据完整性、溯源和滥用相关的风险呈指数级增长。为了缓解这些风险并确保法规和伦理合规，新指南建议组织采取以下关键步骤：

– 更新事件响应计划以应对人工智能特有的威胁，如模型中毒、对抗性输入和数据漂移。这些计划应包括检测模型行为异常和应对受损训练数据或推理管道的协议。
– 审计现有的人工智能项目以查找与数据来源相关的风险，包括未经验证的数据溯源、缺乏同意或许可及对模型输出的监控不足。定期审计有助于发现盲点，并确保人工智能系统随着时间的推移保持安全和可信。
– 实施跨职能审查流程，结合网络安全、法律、数据科学和采购团队。这些审查在引入外部数据集、集成第三方模型或在敏感环境中部署人工智能时至关重要。协作监督有助于制定全面的伦理考量和安全合规方法。

[查看原文]

(以上内容均由Ai生成)