DeepMind 对 LLM 进行分区的新方法以缓解提示注入

发布时间:2025年4月17日    来源:szf
DeepMind 对 LLM 进行分区的新方法以缓解提示注入

快速阅读: 据《技术点》称,谷歌DeepMind提出新方法CaMeL,将AI视为不受信任组件,通过双模型和严格边界限制系统操作,有效防御提示注入攻击,获开发者认可,但仍需解决用户体验等问题。

上下文:提示注入是大型语言模型的固有缺陷,允许攻击者通过在输入文本中嵌入恶意命令来劫持人工智能的行为。大多数防御措施依赖于内置防护机制,但攻击者总能找到绕过它们的方法——使得现有的解决方案充其量只是暂时有效的。现在,谷歌或许找到了一个永久性的解决方案。自2022年聊天机器人普及以来,一种名为提示注入的安全漏洞一直让人工智能开发者头疼。问题很简单:像ChatGPT这样的语言模型无法区分用户指令和隐藏在处理文本中的命令。这些模型假设所有输入(或获取)的文本都是可信内容,并将其视为可信内容,这使得恶意行为者能够将恶意指令插入查询中。如今,随着公司把这些人工智能嵌入我们的电子邮件客户端以及其他可能包含敏感信息的软件中,这个问题变得更加严重。

谷歌的深度思维部门开发了一种完全不同的方法,称为CaMeL(机器学习能力)。与其要求人工智能自行监管——这种做法已被证明不可靠——CaMeL将大型语言模型(LLMs)视为安全系统内的不受信任组件。它在用户请求、不受信任的内容(如电子邮件或网页)以及人工智能助手被允许采取的操作之间划定了严格界限。CaMeL建立在数十年经过验证的软件安全原则之上,包括访问控制、数据流跟踪和最小特权原则。它不是依赖人工智能捕捉每个恶意指令,而是限制系统对所处理信息的操作范围。

以下是其工作原理。CaMeL使用两个独立的语言模型:一个是“特权”模型(P-LLM),用于计划发送邮件等操作;另一个是“隔离”模型(Q-LLM),仅用于读取和解析不受信任的内容。P-LLM看不到原始邮件或文档——它只接收结构化数据,例如“邮件=获取最后一封邮件”。而Q-LLM则没有工具或内存访问权限,因此即使攻击者欺骗了它,也无法采取任何行动。所有操作都使用代码——具体来说是一种简化的Python版本——并在安全解释器中运行。这个解释器追踪每条数据的来源,跟踪其是否来自不受信任的内容。如果检测到必要的操作涉及潜在敏感变量(例如发送消息),它可以阻止该操作或请求用户确认。

2022年创造了“提示注入”一词的开发者西蒙·威利森称赞CaMeL是“首个可信的缓解措施”,它不依赖更多的人工智能,而是借鉴了传统安全工程的经验教训。他指出,大多数当前模型仍然易受攻击,因为它们在同一短期记忆或上下文中结合了用户提示和不受信任的输入。这种设计将所有文本同等对待——即使其中包含恶意指令。

CaMeL仍然不是完美的。它需要开发人员编写和管理安全策略,频繁的确认提示可能会让用户感到沮丧。然而,在早期测试中,它在现实世界的攻击场景中表现良好。它也可能通过阻止未经授权访问敏感数据或命令来帮助防御内部威胁和恶意工具。

如果你喜欢阅读未经过滤的技术细节,深度思维部门在康奈尔大学的arXiv学术存储库上发表了详细的研究报告。

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日