即使是最好的保护措施也无法阻止 LLM 被愚弄

发布时间:2025年5月8日    来源:szf
即使是最好的保护措施也无法阻止 LLM 被愚弄

快速阅读: 据《帮助网络安全》最新报道,专家警告:大型语言模型(LLMs)带来的网络安全风险需警惕。组织在使用LLMs时易忽视数据上传风险及不受控的用户输入问题。为应对挑战,应实施严格的数据控制、定期测试及采用合适的框架如Haystack和LangChain,以确保安全集成。未来,需重新设计软件以适应LLMs的不确定性。

在《帮助网络安全》的采访中,诺丁汉大学副教授迈克尔·庞德分享了他对大型语言模型(LLMs)相关网络安全风险的看法。他讨论了组织在将LLMs整合到业务运营时常见的错误以及保护敏感数据所需的预防措施。

CISO 和安全团队在 LLMs 使用方面的理解或准备方面存在哪些最大的差距?许多安全专业人士——相当合理地——对 LLMs 的基础机器学习了解不多。在过去的技术中,这并不是大问题,但 LLMs 乍一看如此强大,可能会误导我们认为它们不会被愚弄。我们可能会匆忙构建出在现实世界中会严重崩溃的系统。也许最重要的是要记住,大多数生成式 AI,包括 LLMs,都是概率性的——它们的行为带有随机性。这意味着它们有很大机会按你所希望的方式行事,但这个概率很少能达到 100%。推销 AI 解决方案的公司会谈论 AI 防护措施和对齐,以暗示他们以一种不会破坏的方式开发了这些模型。实际上,这意味着公司试图训练 LLM 拒绝一系列他们自己精心设计的恶意提示。这将偏离正常行为的可能性降低到一个小值,但不能降到零。LLM 是否会拒绝一个新的、未见过的提示,在它发生之前我们无法确定。有许多例子表明有新的、令人惊讶的方法可以说服 LLM 做坏事。

当向 LLMs 输入数据时,特别是在涉及敏感或专有信息的情况下,组织通常会犯哪些最常见的错误?短期内,公司应该确定谁在内部使用这些工具,使用什么工具以及如何使用它们。许多最终用户没有意识到他们输入到这些模型中的查询会被上传到云端,在某些服务中,这些查询可能会成为训练数据的一部分。很容易在不考虑后果的情况下上传机密客户或公司信息。最近的模型有足够的参数来学习你的私人数据,并且乐意将其发送给新人。处理电子邮件或日历调度等生产力应用程序默认情况下可以访问这些信息。这些信息会流向哪里?这些工具的付费许可证通常有更强的使用控制和协议——值得探索。

与历史上的 SQL 攻击类似,你必须非常小心不受控的用户输入。在测试过程中,你可能会向 LLM 问同一个问题 100 次,答案不同但一致。然而一旦发布出去,有人可能会用稍微不同的方式提问,或者更糟的是故意引导 LLM 进行恶意操作。在传统代码中你可以控制这种情况,你可以指定“如果输入不符合这个精确格式,就拒绝它”,但在 LLMs 中很容易编写有效的提示来绕过安全措施。实际上,这个问题比 SQL 还要严重。对于 SQL 注入,你可以通过输入清理、参数化查询和其他机制来防止滥用,但对于 LLMs 来说是几乎不可能做到的。语言模型无法区分提示和它正在使用的数据,它们是一样的。这也意味着上传的文档或其他文件可能是恶意提示的来源,而不仅仅是直接文本输入。随着 LLMs 被赋予访问工具的能力——与其他代码和 API 的连接,风险增加了。如果 LLM 可以发起网络请求,有可能通过 markdown 或其他 URL 泄露数据。如果 LLM 可以访问任何私有数据,风险就会增加。

目前哪种防御或缓解措施最有效地减少了对抗性输入对 LLMs 操纵的风险?大多数尝试训练模型以避免恶意提示的努力在一段时间后就会失效,因为有人会想出不同的策略来规避防护措施。你的防御将取决于你希望 LLM 做什么。如果你希望它用来总结文档或检索数据,那么你需要仔细控制它可以阅读的文档,确保它们不包含恶意提示。如果你的 AI 直接响应用户输入——例如你的客户,不可避免地会在某个时刻有人会测试防护措施。你应该定期测试你的 LLMs,看看它们如何反应,也可以使用其他功能来检测和清除有问题的提示。在某种程度上,SQL 注入的规则仍然适用——最小权限原则和基于角色的访问控制。设置你的 AI 系统,即使 LLM 试图这样做,也不能造成损害。

你推荐哪些框架或指南来安全地将 LLMs 集成到业务流程中?尽管看起来我们已经谈论 LLMs 很久了,但实际上它们只有几年的历史。系统是新的,流行的库经常变化。目前好的选择包括 Haystack、LangChain 和 Llama-Index。大多数这些都围绕着运行自己的本地模型的想法,这对于担心数据隐私的人来说特别有用。最大的模型需要巨大的资源,但大多数适度的模型在标准硬件上表现出色。如果你想在本地测试模型,试试 Ollama。如果你想重新训练模型,这是一种非常有效地控制其输出的方式,看看 Unsloth。像 Copilot、ChatGPT 和 Anthropic Claude 这样的商业产品也是可靠的,但成本更高。

随着 LLMs 更深入地融入基础设施,我们可以预期哪些长期或系统的网络安全问题?我们正处于一个将 LLMs 嵌入越来越多系统的时代,人们还不习惯这些模型与普通软件开发的不同之处。想象一下编写有时根本不起作用或输出意想不到结果的代码。即使是几乎完美的 LLM,正确率达到 99.999%,从数学上讲每 1000 次调用也会失败一次。我们需要彻底重新思考如何构建软件,以确保非鲁棒的 LLMs 可以在鲁棒的系统中使用。正如我们花了多年时间关闭 SQL 注入漏洞一样,最近的重大漏洞发生在 2015 年,我们将花很长时间听到意外的提示是如何导致 LLM 以灾难性的方式表现失常的。

(以上内容均由Ai生成)

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日