DeepMind 对 LLM 进行分区的新方法以缓解提示注入

发布时间:2025年4月17日    来源:szf
DeepMind 对 LLM 进行分区的新方法以缓解提示注入

快速阅读: 据《技术点》称,谷歌DeepMind提出新方法CaMeL,将AI视为不受信任组件,通过双模型和严格边界限制系统操作,有效防御提示注入攻击,获开发者认可,但仍需解决用户体验等问题。

上下文:提示注入是大型语言模型的固有缺陷,允许攻击者通过在输入文本中嵌入恶意命令来劫持人工智能的行为。大多数防御措施依赖于内置防护机制,但攻击者总能找到绕过它们的方法——使得现有的解决方案充其量只是暂时有效的。现在,谷歌或许找到了一个永久性的解决方案。自2022年聊天机器人普及以来,一种名为提示注入的安全漏洞一直让人工智能开发者头疼。问题很简单:像ChatGPT这样的语言模型无法区分用户指令和隐藏在处理文本中的命令。这些模型假设所有输入(或获取)的文本都是可信内容,并将其视为可信内容,这使得恶意行为者能够将恶意指令插入查询中。如今,随着公司把这些人工智能嵌入我们的电子邮件客户端以及其他可能包含敏感信息的软件中,这个问题变得更加严重。

谷歌的深度思维部门开发了一种完全不同的方法,称为CaMeL(机器学习能力)。与其要求人工智能自行监管——这种做法已被证明不可靠——CaMeL将大型语言模型(LLMs)视为安全系统内的不受信任组件。它在用户请求、不受信任的内容(如电子邮件或网页)以及人工智能助手被允许采取的操作之间划定了严格界限。CaMeL建立在数十年经过验证的软件安全原则之上,包括访问控制、数据流跟踪和最小特权原则。它不是依赖人工智能捕捉每个恶意指令,而是限制系统对所处理信息的操作范围。

以下是其工作原理。CaMeL使用两个独立的语言模型:一个是“特权”模型(P-LLM),用于计划发送邮件等操作;另一个是“隔离”模型(Q-LLM),仅用于读取和解析不受信任的内容。P-LLM看不到原始邮件或文档——它只接收结构化数据,例如“邮件=获取最后一封邮件”。而Q-LLM则没有工具或内存访问权限,因此即使攻击者欺骗了它,也无法采取任何行动。所有操作都使用代码——具体来说是一种简化的Python版本——并在安全解释器中运行。这个解释器追踪每条数据的来源,跟踪其是否来自不受信任的内容。如果检测到必要的操作涉及潜在敏感变量(例如发送消息),它可以阻止该操作或请求用户确认。

2022年创造了“提示注入”一词的开发者西蒙·威利森称赞CaMeL是“首个可信的缓解措施”,它不依赖更多的人工智能,而是借鉴了传统安全工程的经验教训。他指出,大多数当前模型仍然易受攻击,因为它们在同一短期记忆或上下文中结合了用户提示和不受信任的输入。这种设计将所有文本同等对待——即使其中包含恶意指令。

CaMeL仍然不是完美的。它需要开发人员编写和管理安全策略,频繁的确认提示可能会让用户感到沮丧。然而,在早期测试中,它在现实世界的攻击场景中表现良好。它也可能通过阻止未经授权访问敏感数据或命令来帮助防御内部威胁和恶意工具。

如果你喜欢阅读未经过滤的技术细节,深度思维部门在康奈尔大学的arXiv学术存储库上发表了详细的研究报告。

(以上内容均由Ai生成)

你可能还想读

LEO卫星信号助力弱GPS区域精准导航

LEO卫星信号助力弱GPS区域精准导航

快速阅读: 据最新消息,美国俄亥俄州立大学研究证实,星链与一网等低轨卫星信号可有效补充GPS,在无GNSS环境下将定位误差从超1公里降至约27米,为关键基础设施提供高精度导航备份方案。 日前,美国俄亥俄州立大学研究团队证实,商业低轨(LEO […]

发布时间:2025年12月8日
美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
星舰月球计划更新,SpaceX誓不放弃月球竞争

星舰月球计划更新,SpaceX誓不放弃月球竞争

快速阅读: FSD V14.2.1在标志识别方面改进明显,长期测试者Chuck Cook观察到学校区域行为改善,系统对时间规则认识提高,有助于减少动态环境中的误报。 FSD V14.2.1在标志识别方面也显示出改进。长期测试者Chuck C […]

发布时间:2025年11月30日
太空竞赛再起波澜,SpaceX澄清与NASA合作细节

太空竞赛再起波澜,SpaceX澄清与NASA合作细节

快速阅读: Riot Games计划举办《英雄联盟》人机对抗赛,Grok 5参赛将受限于人类水平,展现AI实时互动能力,有望成最具影响力赛事。 尽管尚未确定具体比赛,但从选手、队伍以及Riot Games的兴趣来看,这一概念有可能实现,成为 […]

发布时间:2025年11月26日
中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

快速阅读: 中国广电董事长宋起柱出席5G+工业互联网大会,提出强算注智、数智赋能、深耕特色三大举措,展示5G 700MHz应急基站,推动超高清产业与工业互联网发展。 IT之家 11 月 23 日消息,据人民邮电报报道,中国广电党委书记、董事 […]

发布时间:2025年11月23日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日