DeepMind 对 LLM 进行分区的新方法以缓解提示注入

发布时间：2025年4月17日来源：szf

快速阅读: 据《技术点》称，谷歌DeepMind提出新方法CaMeL，将AI视为不受信任组件，通过双模型和严格边界限制系统操作，有效防御提示注入攻击，获开发者认可，但仍需解决用户体验等问题。

上下文：提示注入是大型语言模型的固有缺陷，允许攻击者通过在输入文本中嵌入恶意命令来劫持人工智能的行为。大多数防御措施依赖于内置防护机制，但攻击者总能找到绕过它们的方法——使得现有的解决方案充其量只是暂时有效的。现在，谷歌或许找到了一个永久性的解决方案。自2022年聊天机器人普及以来，一种名为提示注入的安全漏洞一直让人工智能开发者头疼。问题很简单：像ChatGPT这样的语言模型无法区分用户指令和隐藏在处理文本中的命令。这些模型假设所有输入（或获取）的文本都是可信内容，并将其视为可信内容，这使得恶意行为者能够将恶意指令插入查询中。如今，随着公司把这些人工智能嵌入我们的电子邮件客户端以及其他可能包含敏感信息的软件中，这个问题变得更加严重。

谷歌的深度思维部门开发了一种完全不同的方法，称为CaMeL（机器学习能力）。与其要求人工智能自行监管——这种做法已被证明不可靠——CaMeL将大型语言模型（LLMs）视为安全系统内的不受信任组件。它在用户请求、不受信任的内容（如电子邮件或网页）以及人工智能助手被允许采取的操作之间划定了严格界限。CaMeL建立在数十年经过验证的软件安全原则之上，包括访问控制、数据流跟踪和最小特权原则。它不是依赖人工智能捕捉每个恶意指令，而是限制系统对所处理信息的操作范围。

以下是其工作原理。CaMeL使用两个独立的语言模型：一个是“特权”模型（P-LLM），用于计划发送邮件等操作；另一个是“隔离”模型（Q-LLM），仅用于读取和解析不受信任的内容。P-LLM看不到原始邮件或文档——它只接收结构化数据，例如“邮件=获取最后一封邮件”。而Q-LLM则没有工具或内存访问权限，因此即使攻击者欺骗了它，也无法采取任何行动。所有操作都使用代码——具体来说是一种简化的Python版本——并在安全解释器中运行。这个解释器追踪每条数据的来源，跟踪其是否来自不受信任的内容。如果检测到必要的操作涉及潜在敏感变量（例如发送消息），它可以阻止该操作或请求用户确认。

2022年创造了“提示注入”一词的开发者西蒙·威利森称赞CaMeL是“首个可信的缓解措施”，它不依赖更多的人工智能，而是借鉴了传统安全工程的经验教训。他指出，大多数当前模型仍然易受攻击，因为它们在同一短期记忆或上下文中结合了用户提示和不受信任的输入。这种设计将所有文本同等对待——即使其中包含恶意指令。

CaMeL仍然不是完美的。它需要开发人员编写和管理安全策略，频繁的确认提示可能会让用户感到沮丧。然而，在早期测试中，它在现实世界的攻击场景中表现良好。它也可能通过阻止未经授权访问敏感数据或命令来帮助防御内部威胁和恶意工具。

如果你喜欢阅读未经过滤的技术细节，深度思维部门在康奈尔大学的arXiv学术存储库上发表了详细的研究报告。

(以上内容均由Ai生成)