DeepMind 研究人员提出针对 LLM 快速注入的防御措施

发布时间:2025年4月27日    来源:szf
DeepMind 研究人员提出针对 LLM 快速注入的防御措施

快速阅读: 《InfoQ 公司》消息,谷歌DeepMind提出新防御层CaMeL,通过传统软件安全原则保护大型语言模型免受即时注入攻击,在AgentDojo测试中成功抵御67%攻击。CaMeL利用受限Python解释器追踪数据来源并强制执行安全措施,但仍需用户定义安全策略且可能引发用户疲劳。

为了防止在处理不受信任来源时遭受即时注入攻击,谷歌旗下的深度思维(Google DeepMind)的研究人员提出了一种名为CaMeL的防御层,该防御层围绕大型语言模型(LLMs)构建,通过从查询中提取控制流和数据流来阻止恶意输入。根据研究结果,CaMeL在AgentDojo安全基准测试中成功化解了67%的攻击。

众所周知,对手可以通过将恶意数据或指令注入大型语言模型(LLMs)的上下文中,以窃取数据或将模型引导至有害工具的方式使用。例如,攻击者可能试图发现聊天机器人的系统提示符以获取控制权,或者窃取敏感信息,比如访问私人Slack频道中的数据。更令人担忧的是,当大型语言模型(LLMs)能够访问具有现实世界影响的工具时,如发送电子邮件或下订单。即便大型语言模型(LLMs)实施了特定策略来保护自己免受即时注入攻击,攻击者仍然能够找到绕过这些防护的方法。近期的一个例子是AI安全专家约翰·雷伯格(Johann Rehberger)展示的网络钓鱼式攻击,他成功绕过了Gemini对延迟工具执行的保护措施。

CaMeL是一种新的解决方案,旨在应对此类风险。它不依赖更多的AI来防御AI系统,而是采用了传统的软件安全原则,如控制流完整性、访问控制和信息流控制。CaMeL使用自定义的Python解释器来跟踪数据和指令的来源,强制执行基于能力的安全保障,而无需修改大型语言模型(LLMs)本身。为此,它利用了西蒙·威利森(Simon Willison)描述的双重LLM模式,并巧妙地扩展了这一模式。西蒙·威利森最初创造了“即时注入”这个术语。威利森最初的提案包括一个特权LLM,直接处理用户的提示,以及一个隔离的LLM,暴露于不受信任的数据但无法访问工具。特权LLM管理整个工作流程,并可能要求隔离的LLM从不受信任的数据中提取特定信息,例如电子邮件地址。这确保了特权LLM不会接触到不受信任的标记,而只能接收到隔离模型返回的过滤后的结果。谷歌的研究人员指出,该方案的不足之处在于攻击者仍然可能操控隔离的LLM生成误导性输出,例如未经授权访问敏感信息的收件人电子邮件地址。

在他们的新方法中,特权LLM生成一段用受限Python子集编写的程序,负责执行所有必要的步骤。当此程序接收隔离的LLM或其他工具传来的数据时,它构建了一个数据流图,跟踪每个数据元素的来源、访问权限和相关元数据。然后使用这些元数据确保对数据的任何操作都遵循权限限制。正如威利森在回应CaMeL提案时所指出的那样,这种方法的重要性在于不依赖更多的AI来解决AI问题。

为检验CaMeL的有效性,深度思维的研究人员将其整合进AgentDojo,这是一个包含一系列现实实用性与安全性任务的安全基准,用于自主代理。深度思维的研究人员承认,CaMeL并非解决大型语言模型(LLMs)安全问题的完美方案,其最大的局限性在于依赖用户定义的安全策略。此外,由于CaMeL可能需要用户手动批准隐私敏感任务,存在用户疲劳的风险,这可能导致自动且草率的批准。

关于作者:塞尔吉奥·德·西莫内
显示更多
显示更少

(注:本文内容仅为示例,不代表真实情况)

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日