LlamaFirewall：用于检测和缓解以 AI 为中心的安全风险的开源框架

快速阅读: 《帮助网络安全》消息，Meta推出LlamaFirewall，一个面向大型语言模型的安全防护框架，旨在解决现有安全措施无法应对的新型威胁。该框架包含PromptGuard 2、代理对齐检查和CodeShield等核心组件，支持灵活定制和协作防御，现已开源供免费下载。

**Meta发布LlamaFirewall：面向大型语言模型的安全防护框架**

大型语言模型（LLM）正逐渐成为高信任度、自主系统的组成部分，但随之而来的安全风险也愈发显著。Meta的安全工程师萨哈娜·钱纳巴萨帕指出：“现有的安全措施从未考虑到LLM具备如此复杂的能力。”这种脱节正在组织保护这些系统方面造成危险盲点。

特别令人担忧的是LLM在编码应用程序中的应用。依赖LLM生成代码的编码代理可能会无意中将安全漏洞引入生产系统，同时错误对齐的多步推理也可能导致代理执行超出用户原始意图的操作。这种风险不仅已在编码助手和自主研究代理中显现，而且随着代理系统的普及，这种风险还会加剧。

然而，尽管LLM被嵌入到关键任务工作流程中，网络安全基础设施却未能跟上步伐。传统的网络安全基础设施主要集中在内容审核护栏上，旨在防止聊天机器人生成错误信息或滥用内容。这种狭窄的视角忽略了更深层次、更系统性的威胁，例如提示注入、不安全的代码生成以及代码解释器功能的滥用。此外，那些将规则硬编码到模型推理API中的专有安全系统也存在不足，因为它们缺乏确保复杂AI应用所需的透明性、可审计性和灵活性。

为此，萨哈娜·钱纳巴萨帕及其团队开发了LlamaFirewall，这是一个专门针对基于LLM的代理的新系统级安全架构。LlamaFirewall通过与护栏协同部署防御措施，旨在应对传统聊天机器人中心的安全措施无法处理的新兴威胁。

### LlamaFirewall的独特之处

LlamaFirewall是一个面向LLM驱动应用的系统级安全框架，采用模块化设计以支持分层、自适应防御。它旨在缓解广泛的AI代理安全风险，包括越狱和间接提示注入、目标劫持以及不安全的代码输出。

#### 提示注入/代理错位与不安全/危险代码

LlamaFirewall包括三个核心护栏，专门针对LLM代理工作流的需求：

1. **PromptGuard 2**：一种通用的越狱检测器，能够以高准确率和低延迟检测直接越狱尝试，并实时运行于用户提示和不受信任的数据源上。

2. **代理对齐检查**：一种思维链审计器，检查代理推理是否存在提示注入和目标错位（这是第一个开源护栏，实时审计LLM思维链，用于注入防御，确保AI代理的计划不会被敌意输入劫持）。

3. **CodeShield**：一种低延迟在线静态分析引擎，检测LLM生成的不安全代码输出，防范潜在漏洞。CodeShield最初在Llama 3发布时推出，并已纳入这个统一框架中。

此外，LlamaFirewall还提供可定制的正则表达式和基于LLM的检查，可根据特定应用的威胁模型和用例进行配置。

#### 灵活的协作安全基础

LlamaFirewall将这些护栏整合到一个统一的策略引擎中。借助LlamaFirewall，开发者可以构建自定义管道，定义条件修复策略，并插入新的检测器。正如传统网络安全中的Snort、Zeek或Sigma一样，LlamaFirewall旨在提供一个协作的安全基础——一个研究人员、开发者和操作员可以共享策略、组合防御并实时适应新威胁的基础。

LlamaFirewall的设计注重灵活性，允许它跨各种AI系统工作，无论底层代理框架如何。萨哈娜·钱纳巴萨帕强调：“它可以与任何允许开发人员加入额外安全机制的AI系统一起使用，无论是开放还是封闭的。”

作为一个专注于安全的开源解决方案，LlamaFirewall采取了纵深防御的方法。萨哈娜·钱纳巴萨帕表示：“这一策略借鉴了Meta在大规模系统和生产环境中的丰富经验，以帮助确保AI应用和代理的安全开发。”

与可能限制可见性和定制化的专有工具不同，LlamaFirewall拥抱开放性。萨哈娜·钱纳巴萨帕指出：“它的开源性质为社区构建的插件、规则和检测器提供了透明且可扩展的平台。”

### 未来计划与下载

虽然LlamaFirewall目前专注于提示注入和不安全的代码生成，但开发人员看到了扩大其范围的潜力，以涵盖其他高风险行为，如恶意代码执行和不安全的工具使用，从而在整个代理生命周期内实现更全面的保护。

LlamaFirewall可在GitHub上免费获取。想要了解更多关于开源网络安全工具的信息，可以订阅无广告的Help Net Security月刊。

—

**相关阅读推荐：**
– GitHub首席信息安全官谈安全战略和与开源社区合作
– 不要让这些开源网络安全工具从你的眼皮底下溜走
– 33个你不知道需要的开源网络安全解决方案

订阅这里！

(以上内容均由Ai生成)

LlamaFirewall：用于检测和缓解以 AI 为中心的安全风险的开源框架

你可能还想读

本周科技大事件：谷歌发布Pixel 10，Gamescom揭晓重磅游戏

SK海力士凭借HBM激增首次超越三星，领跑全球内存市场

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

“这改变了一切”：谷歌的人工智能模式迫使品牌重新考虑搜索策略

在 Android 上用更智能的应用程序替换 Google Assistant

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争：报告

Meta 超出预期，为“个人超级智能”做准备