DeepMind 研究人员提出针对 LLM 快速注入的防御措施

发布时间：2025年4月27日来源：szf

快速阅读: 《InfoQ 公司》消息，谷歌DeepMind提出新防御层CaMeL，通过传统软件安全原则保护大型语言模型免受即时注入攻击，在AgentDojo测试中成功抵御67%攻击。CaMeL利用受限Python解释器追踪数据来源并强制执行安全措施，但仍需用户定义安全策略且可能引发用户疲劳。

为了防止在处理不受信任来源时遭受即时注入攻击，谷歌旗下的深度思维（Google DeepMind）的研究人员提出了一种名为CaMeL的防御层，该防御层围绕大型语言模型（LLMs）构建，通过从查询中提取控制流和数据流来阻止恶意输入。根据研究结果，CaMeL在AgentDojo安全基准测试中成功化解了67%的攻击。

众所周知，对手可以通过将恶意数据或指令注入大型语言模型（LLMs）的上下文中，以窃取数据或将模型引导至有害工具的方式使用。例如，攻击者可能试图发现聊天机器人的系统提示符以获取控制权，或者窃取敏感信息，比如访问私人Slack频道中的数据。更令人担忧的是，当大型语言模型（LLMs）能够访问具有现实世界影响的工具时，如发送电子邮件或下订单。即便大型语言模型（LLMs）实施了特定策略来保护自己免受即时注入攻击，攻击者仍然能够找到绕过这些防护的方法。近期的一个例子是AI安全专家约翰·雷伯格（Johann Rehberger）展示的网络钓鱼式攻击，他成功绕过了Gemini对延迟工具执行的保护措施。

CaMeL是一种新的解决方案，旨在应对此类风险。它不依赖更多的AI来防御AI系统，而是采用了传统的软件安全原则，如控制流完整性、访问控制和信息流控制。CaMeL使用自定义的Python解释器来跟踪数据和指令的来源，强制执行基于能力的安全保障，而无需修改大型语言模型（LLMs）本身。为此，它利用了西蒙·威利森（Simon Willison）描述的双重LLM模式，并巧妙地扩展了这一模式。西蒙·威利森最初创造了“即时注入”这个术语。威利森最初的提案包括一个特权LLM，直接处理用户的提示，以及一个隔离的LLM，暴露于不受信任的数据但无法访问工具。特权LLM管理整个工作流程，并可能要求隔离的LLM从不受信任的数据中提取特定信息，例如电子邮件地址。这确保了特权LLM不会接触到不受信任的标记，而只能接收到隔离模型返回的过滤后的结果。谷歌的研究人员指出，该方案的不足之处在于攻击者仍然可能操控隔离的LLM生成误导性输出，例如未经授权访问敏感信息的收件人电子邮件地址。

在他们的新方法中，特权LLM生成一段用受限Python子集编写的程序，负责执行所有必要的步骤。当此程序接收隔离的LLM或其他工具传来的数据时，它构建了一个数据流图，跟踪每个数据元素的来源、访问权限和相关元数据。然后使用这些元数据确保对数据的任何操作都遵循权限限制。正如威利森在回应CaMeL提案时所指出的那样，这种方法的重要性在于不依赖更多的AI来解决AI问题。

为检验CaMeL的有效性，深度思维的研究人员将其整合进AgentDojo，这是一个包含一系列现实实用性与安全性任务的安全基准，用于自主代理。深度思维的研究人员承认，CaMeL并非解决大型语言模型（LLMs）安全问题的完美方案，其最大的局限性在于依赖用户定义的安全策略。此外，由于CaMeL可能需要用户手动批准隐私敏感任务，存在用户疲劳的风险，这可能导致自动且草率的批准。

关于作者：塞尔吉奥·德·西莫内
显示更多
显示更少

（注：本文内容仅为示例，不代表真实情况）

(以上内容均由Ai生成)