宣布自适应提示注射挑战赛 (LLMail-Inject) 的获胜者
快速阅读: 据《Microsoft》最新报道,我们宣布LLMail-Inject挑战赛获奖名单,该挑战吸引621名参与者,设10,000美元奖金池。一等奖由“TH3L053R5”获得,解决36级别。新挑战Re:LLMail-Inject已开启,优化了防御措施,前三名奖金6,000美元。
我们很高兴地宣布LLMail-Inject挑战赛的获奖者,这是我们首次举办的自适应提示注入挑战!该挑战从2024年12月持续到2025年2月,并作为第三届IEEE安全可信机器学习会议(IEEE SaTML)的四个官方竞赛之一。本次挑战的主要目标是推进针对间接提示注入攻击的最先进防御技术,并提高对这些新技术的认识。我们为研究人员提供了一个平台,使他们能够开发和测试针对特定防御的新间接提示注入攻击。通过此次挑战获得的数据将帮助我们以及其他人评估现有的防御措施并开发更先进的防御方法。
挑战场景模拟了一个环境,在这个环境中,集成大语言模型(LLM)的电子邮件客户端LLMail服务可以读取电子邮件并代表用户采取行动,包括发送电子邮件。参与者扮演攻击者的角色,可以向(受害者)用户发送电子邮件。攻击者的目的是让用户的LLM执行特定的操作,而用户并未请求此操作。为了实现这一目标,攻击者必须精心设计其电子邮件,以便被LLM检索并绕过相关的提示注入防御。
在本次挑战中,所有防御措施对攻击者都是已知的,允许参与者根据每种防御调整其攻击策略。挑战场景的复杂性因上下文窗口中的电子邮件数量、攻击者电子邮件的位置、攻击者电子邮件是否默认被检索以及是否需要从用户的收件箱中提取数据而有所不同。我们采用了几种最先进的防御措施。这些防御措施包括基于文本的分类器(Prompt Shields)[1]、模型隐藏状态的分类器(TaskTracker)[2]、LLM作为裁判、Spotlighting[3]以及所有防御措施的组合。对于每个场景和防御措施,我们提供了两个LLM:微软的Phi-3中型指令模型和GPT-4o迷你版,后者经过指令层次训练[4]。每个场景、LLM和防御措施的组合形成一个独立的级别。团队争夺总额为10,000美元的奖金池,以尽可能多地解决这些级别,率先解决某个级别的团队可以获得额外积分,解决较少团队解决的级别的团队也将获得额外积分。
结果
挑战吸引了非常活跃的参与!在挑战结束时,共有621名注册参与者,组成了224个团队。我们共收到370,724份提交,每份提交都是尝试解决单个级别的努力。我们正在分析完整的提交数据集,并计划在未来几个月内提供详细分析。
恭喜所有参与的人——我们希望这次挑战为大家提供了一个了解AI安全的有用机会。特别祝贺排行榜上的前四支队伍!
由于许多参与者询问我们的策略,我们联系了这四支顶尖队伍,请他们分享一些关于他们的策略及其对整个挑战的看法。
一等奖得主:团队“TH3L053R5”
得分最高的团队只有一名成员(@0xSombra),他总共解决了36个级别,通常是最早解决一个级别的人之一。他们分享说,迭代构建和测试提示比一开始就使用大型复杂提示更为有效。他们正确地指出,在某些现实世界的情境中,攻击者也可能看到LLM的输出。然而,正如这次挑战所显示的那样,这并不总是成功攻击所必需的。
二等奖得主:团队“Abyss Watchers”
第二高分由来自趋势科技的团队获得,成员包括Jay K Liao、Ian CH Liu、Tony Kuo、Jannis Weigend和Danyael Manlangit。这个团队也解决了36个级别。他们分享说,他们在开发提示注入检测方面的经验在早期阶段给了他们显著的优势。随着比赛的进行,他们利用针对两种模型注意力行为定制的不同攻击策略提高了排名。
三等奖得主:团队“Enter a team name…”
二等奖得主是Tran Huu Bach,他成功解决了35个级别。虽然他们没有过多分享自己的策略,但提到这个挑战对初学者友好,因为它不需要广泛的知识或阅读。
四等奖得主:团队“A helpful assistant”
三等奖得主是Tsun-Han Chiang(同样来自趋势科技),他也解决了35个级别。他们的主要策略是使用响应中的特殊令牌,因为他们观察到这些令牌可以提高成功率。例如,他们使用了一些常见的特殊令牌如<|end|>、<|user|>和<|assistant|>。由于像LLM作为裁判这样的防御方法会检测到这种方法,他们尝试使用HTML(包含许多特殊令牌使用的符号)来绕过防御者。他们还试验了使用其他语言并添加随机字符或随机删除文本。
反馈
我们举办这次挑战的一个原因是为了帮助更广泛的社区了解间接提示注入,并为人们提供一个安全且真实的环境,让他们亲自尝试。我们非常高兴看到总体参与人数众多,我们也从几位匿名参与者那里得到了非常鼓舞人心的反馈。
如果你参加了挑战并且想与我们分享任何反馈,请告诉我们:llmailinject@microsoft.com
宣布Re:LLMail-Inject
我们很高兴地宣布下一个挑战Re:LLMail-Inject,它于3月13日开始!与之前一样,挑战网站为https://llmailinject.azurewebsites.net/
对于这次新挑战,我们重新使用了你已经见过的两个场景,但我们改进了防御措施。特别是,我们添加了一个基于先前提交的新高精度阻止列表。这个阻止列表旨在阻止第一轮挑战中的成功提交,包括这些提交的改写版本。我们增加了输入清理,更新了LLM作为裁判的提示,升级到了最新的Prompt Shields模型,并更新了TaskTracker以使用更新的LLMs。我们还对系统提示和用户的查询进行了更改,以鼓励模型不遵循电子邮件中的指令。
这次新挑战的前三名团队总奖金为6,000美元。我们邀请参与者思考新的策略,解决新的级别,并推动间接提示注入防御的前沿!
参考文献
[1] Azure AI宣布Prompt Shields用于越狱和间接提示注入攻击
[2] Sahar Abdelnabi等。你还好吗!?用激活函数捕捉LLM任务漂移
[3] Keegan Hines等。用Spotlighting防御间接提示注入攻击
[4] Eric Wallace等。指令层次结构:训练LLMs优先处理特权指令
组织者
比赛由以下人员联合主办:
Aideen Fay*1,Sahar Abdelnabi*1,Benjamin Pannell*1,Giovanni Cherubin*1,Ahmed Salem1,Andrew Paverd1,Conor Mac Amhlaoibh1,Joshua Rakita1,Santiago Zanella-Beguelin1,Egor Zverev2,Mark Russinovich1,和Javier Rando3。
微软(1)、IST(2)、苏黎世联邦理工学院(3),核心组织者(*)
(以上内容均由Ai生成)