即使是最好的保护措施也无法阻止 LLM 被愚弄

快速阅读: 据《帮助网络安全》最新报道，专家警告：大型语言模型（LLMs）带来的网络安全风险需警惕。组织在使用LLMs时易忽视数据上传风险及不受控的用户输入问题。为应对挑战，应实施严格的数据控制、定期测试及采用合适的框架如Haystack和LangChain，以确保安全集成。未来，需重新设计软件以适应LLMs的不确定性。

在《帮助网络安全》的采访中，诺丁汉大学副教授迈克尔·庞德分享了他对大型语言模型（LLMs）相关网络安全风险的看法。他讨论了组织在将LLMs整合到业务运营时常见的错误以及保护敏感数据所需的预防措施。

CISO 和安全团队在 LLMs 使用方面的理解或准备方面存在哪些最大的差距？许多安全专业人士——相当合理地——对 LLMs 的基础机器学习了解不多。在过去的技术中，这并不是大问题，但 LLMs 乍一看如此强大，可能会误导我们认为它们不会被愚弄。我们可能会匆忙构建出在现实世界中会严重崩溃的系统。也许最重要的是要记住，大多数生成式 AI，包括 LLMs，都是概率性的——它们的行为带有随机性。这意味着它们有很大机会按你所希望的方式行事，但这个概率很少能达到 100%。推销 AI 解决方案的公司会谈论 AI 防护措施和对齐，以暗示他们以一种不会破坏的方式开发了这些模型。实际上，这意味着公司试图训练 LLM 拒绝一系列他们自己精心设计的恶意提示。这将偏离正常行为的可能性降低到一个小值，但不能降到零。LLM 是否会拒绝一个新的、未见过的提示，在它发生之前我们无法确定。有许多例子表明有新的、令人惊讶的方法可以说服 LLM 做坏事。

当向 LLMs 输入数据时，特别是在涉及敏感或专有信息的情况下，组织通常会犯哪些最常见的错误？短期内，公司应该确定谁在内部使用这些工具，使用什么工具以及如何使用它们。许多最终用户没有意识到他们输入到这些模型中的查询会被上传到云端，在某些服务中，这些查询可能会成为训练数据的一部分。很容易在不考虑后果的情况下上传机密客户或公司信息。最近的模型有足够的参数来学习你的私人数据，并且乐意将其发送给新人。处理电子邮件或日历调度等生产力应用程序默认情况下可以访问这些信息。这些信息会流向哪里？这些工具的付费许可证通常有更强的使用控制和协议——值得探索。

与历史上的 SQL 攻击类似，你必须非常小心不受控的用户输入。在测试过程中，你可能会向 LLM 问同一个问题 100 次，答案不同但一致。然而一旦发布出去，有人可能会用稍微不同的方式提问，或者更糟的是故意引导 LLM 进行恶意操作。在传统代码中你可以控制这种情况，你可以指定“如果输入不符合这个精确格式，就拒绝它”，但在 LLMs 中很容易编写有效的提示来绕过安全措施。实际上，这个问题比 SQL 还要严重。对于 SQL 注入，你可以通过输入清理、参数化查询和其他机制来防止滥用，但对于 LLMs 来说是几乎不可能做到的。语言模型无法区分提示和它正在使用的数据，它们是一样的。这也意味着上传的文档或其他文件可能是恶意提示的来源，而不仅仅是直接文本输入。随着 LLMs 被赋予访问工具的能力——与其他代码和 API 的连接，风险增加了。如果 LLM 可以发起网络请求，有可能通过 markdown 或其他 URL 泄露数据。如果 LLM 可以访问任何私有数据，风险就会增加。

目前哪种防御或缓解措施最有效地减少了对抗性输入对 LLMs 操纵的风险？大多数尝试训练模型以避免恶意提示的努力在一段时间后就会失效，因为有人会想出不同的策略来规避防护措施。你的防御将取决于你希望 LLM 做什么。如果你希望它用来总结文档或检索数据，那么你需要仔细控制它可以阅读的文档，确保它们不包含恶意提示。如果你的 AI 直接响应用户输入——例如你的客户，不可避免地会在某个时刻有人会测试防护措施。你应该定期测试你的 LLMs，看看它们如何反应，也可以使用其他功能来检测和清除有问题的提示。在某种程度上，SQL 注入的规则仍然适用——最小权限原则和基于角色的访问控制。设置你的 AI 系统，即使 LLM 试图这样做，也不能造成损害。

你推荐哪些框架或指南来安全地将 LLMs 集成到业务流程中？尽管看起来我们已经谈论 LLMs 很久了，但实际上它们只有几年的历史。系统是新的，流行的库经常变化。目前好的选择包括 Haystack、LangChain 和 Llama-Index。大多数这些都围绕着运行自己的本地模型的想法，这对于担心数据隐私的人来说特别有用。最大的模型需要巨大的资源，但大多数适度的模型在标准硬件上表现出色。如果你想在本地测试模型，试试 Ollama。如果你想重新训练模型，这是一种非常有效地控制其输出的方式，看看 Unsloth。像 Copilot、ChatGPT 和 Anthropic Claude 这样的商业产品也是可靠的，但成本更高。

随着 LLMs 更深入地融入基础设施，我们可以预期哪些长期或系统的网络安全问题？我们正处于一个将 LLMs 嵌入越来越多系统的时代，人们还不习惯这些模型与普通软件开发的不同之处。想象一下编写有时根本不起作用或输出意想不到结果的代码。即使是几乎完美的 LLM，正确率达到 99.999%，从数学上讲每 1000 次调用也会失败一次。我们需要彻底重新思考如何构建软件，以确保非鲁棒的 LLMs 可以在鲁棒的系统中使用。正如我们花了多年时间关闭 SQL 注入漏洞一样，最近的重大漏洞发生在 2015 年，我们将花很长时间听到意外的提示是如何导致 LLM 以灾难性的方式表现失常的。

(以上内容均由Ai生成)