DeepMind 研究人员提出针对 LLM 快速注入的防御措施

发布时间:2025年4月27日    来源:szf
DeepMind 研究人员提出针对 LLM 快速注入的防御措施

快速阅读: 《InfoQ 公司》消息,谷歌DeepMind提出新防御层CaMeL,通过传统软件安全原则保护大型语言模型免受即时注入攻击,在AgentDojo测试中成功抵御67%攻击。CaMeL利用受限Python解释器追踪数据来源并强制执行安全措施,但仍需用户定义安全策略且可能引发用户疲劳。

为了防止在处理不受信任来源时遭受即时注入攻击,谷歌旗下的深度思维(Google DeepMind)的研究人员提出了一种名为CaMeL的防御层,该防御层围绕大型语言模型(LLMs)构建,通过从查询中提取控制流和数据流来阻止恶意输入。根据研究结果,CaMeL在AgentDojo安全基准测试中成功化解了67%的攻击。

众所周知,对手可以通过将恶意数据或指令注入大型语言模型(LLMs)的上下文中,以窃取数据或将模型引导至有害工具的方式使用。例如,攻击者可能试图发现聊天机器人的系统提示符以获取控制权,或者窃取敏感信息,比如访问私人Slack频道中的数据。更令人担忧的是,当大型语言模型(LLMs)能够访问具有现实世界影响的工具时,如发送电子邮件或下订单。即便大型语言模型(LLMs)实施了特定策略来保护自己免受即时注入攻击,攻击者仍然能够找到绕过这些防护的方法。近期的一个例子是AI安全专家约翰·雷伯格(Johann Rehberger)展示的网络钓鱼式攻击,他成功绕过了Gemini对延迟工具执行的保护措施。

CaMeL是一种新的解决方案,旨在应对此类风险。它不依赖更多的AI来防御AI系统,而是采用了传统的软件安全原则,如控制流完整性、访问控制和信息流控制。CaMeL使用自定义的Python解释器来跟踪数据和指令的来源,强制执行基于能力的安全保障,而无需修改大型语言模型(LLMs)本身。为此,它利用了西蒙·威利森(Simon Willison)描述的双重LLM模式,并巧妙地扩展了这一模式。西蒙·威利森最初创造了“即时注入”这个术语。威利森最初的提案包括一个特权LLM,直接处理用户的提示,以及一个隔离的LLM,暴露于不受信任的数据但无法访问工具。特权LLM管理整个工作流程,并可能要求隔离的LLM从不受信任的数据中提取特定信息,例如电子邮件地址。这确保了特权LLM不会接触到不受信任的标记,而只能接收到隔离模型返回的过滤后的结果。谷歌的研究人员指出,该方案的不足之处在于攻击者仍然可能操控隔离的LLM生成误导性输出,例如未经授权访问敏感信息的收件人电子邮件地址。

在他们的新方法中,特权LLM生成一段用受限Python子集编写的程序,负责执行所有必要的步骤。当此程序接收隔离的LLM或其他工具传来的数据时,它构建了一个数据流图,跟踪每个数据元素的来源、访问权限和相关元数据。然后使用这些元数据确保对数据的任何操作都遵循权限限制。正如威利森在回应CaMeL提案时所指出的那样,这种方法的重要性在于不依赖更多的AI来解决AI问题。

为检验CaMeL的有效性,深度思维的研究人员将其整合进AgentDojo,这是一个包含一系列现实实用性与安全性任务的安全基准,用于自主代理。深度思维的研究人员承认,CaMeL并非解决大型语言模型(LLMs)安全问题的完美方案,其最大的局限性在于依赖用户定义的安全策略。此外,由于CaMeL可能需要用户手动批准隐私敏感任务,存在用户疲劳的风险,这可能导致自动且草率的批准。

关于作者:塞尔吉奥·德·西莫内
显示更多
显示更少

(注:本文内容仅为示例,不代表真实情况)

(以上内容均由Ai生成)

你可能还想读

LEO卫星信号助力弱GPS区域精准导航

LEO卫星信号助力弱GPS区域精准导航

快速阅读: 据最新消息,美国俄亥俄州立大学研究证实,星链与一网等低轨卫星信号可有效补充GPS,在无GNSS环境下将定位误差从超1公里降至约27米,为关键基础设施提供高精度导航备份方案。 日前,美国俄亥俄州立大学研究团队证实,商业低轨(LEO […]

发布时间:2025年12月8日
美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
星舰月球计划更新,SpaceX誓不放弃月球竞争

星舰月球计划更新,SpaceX誓不放弃月球竞争

快速阅读: FSD V14.2.1在标志识别方面改进明显,长期测试者Chuck Cook观察到学校区域行为改善,系统对时间规则认识提高,有助于减少动态环境中的误报。 FSD V14.2.1在标志识别方面也显示出改进。长期测试者Chuck C […]

发布时间:2025年11月30日
太空竞赛再起波澜,SpaceX澄清与NASA合作细节

太空竞赛再起波澜,SpaceX澄清与NASA合作细节

快速阅读: Riot Games计划举办《英雄联盟》人机对抗赛,Grok 5参赛将受限于人类水平,展现AI实时互动能力,有望成最具影响力赛事。 尽管尚未确定具体比赛,但从选手、队伍以及Riot Games的兴趣来看,这一概念有可能实现,成为 […]

发布时间:2025年11月26日
中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

快速阅读: 中国广电董事长宋起柱出席5G+工业互联网大会,提出强算注智、数智赋能、深耕特色三大举措,展示5G 700MHz应急基站,推动超高清产业与工业互联网发展。 IT之家 11 月 23 日消息,据人民邮电报报道,中国广电党委书记、董事 […]

发布时间:2025年11月23日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日