LlamaFirewall:用于检测和缓解以 AI 为中心的安全风险的开源框架

发布时间:2025年5月26日    来源:szf
LlamaFirewall:用于检测和缓解以 AI 为中心的安全风险的开源框架

快速阅读: 《帮助网络安全》消息,Meta推出LlamaFirewall,一个面向大型语言模型的安全防护框架,旨在解决现有安全措施无法应对的新型威胁。该框架包含PromptGuard 2、代理对齐检查和CodeShield等核心组件,支持灵活定制和协作防御,现已开源供免费下载。

**Meta发布LlamaFirewall:面向大型语言模型的安全防护框架**

大型语言模型(LLM)正逐渐成为高信任度、自主系统的组成部分,但随之而来的安全风险也愈发显著。Meta的安全工程师萨哈娜·钱纳巴萨帕指出:“现有的安全措施从未考虑到LLM具备如此复杂的能力。”这种脱节正在组织保护这些系统方面造成危险盲点。

特别令人担忧的是LLM在编码应用程序中的应用。依赖LLM生成代码的编码代理可能会无意中将安全漏洞引入生产系统,同时错误对齐的多步推理也可能导致代理执行超出用户原始意图的操作。这种风险不仅已在编码助手和自主研究代理中显现,而且随着代理系统的普及,这种风险还会加剧。

然而,尽管LLM被嵌入到关键任务工作流程中,网络安全基础设施却未能跟上步伐。传统的网络安全基础设施主要集中在内容审核护栏上,旨在防止聊天机器人生成错误信息或滥用内容。这种狭窄的视角忽略了更深层次、更系统性的威胁,例如提示注入、不安全的代码生成以及代码解释器功能的滥用。此外,那些将规则硬编码到模型推理API中的专有安全系统也存在不足,因为它们缺乏确保复杂AI应用所需的透明性、可审计性和灵活性。

为此,萨哈娜·钱纳巴萨帕及其团队开发了LlamaFirewall,这是一个专门针对基于LLM的代理的新系统级安全架构。LlamaFirewall通过与护栏协同部署防御措施,旨在应对传统聊天机器人中心的安全措施无法处理的新兴威胁。

### LlamaFirewall的独特之处

LlamaFirewall是一个面向LLM驱动应用的系统级安全框架,采用模块化设计以支持分层、自适应防御。它旨在缓解广泛的AI代理安全风险,包括越狱和间接提示注入、目标劫持以及不安全的代码输出。

#### 提示注入/代理错位与不安全/危险代码

LlamaFirewall包括三个核心护栏,专门针对LLM代理工作流的需求:

1. **PromptGuard 2**:一种通用的越狱检测器,能够以高准确率和低延迟检测直接越狱尝试,并实时运行于用户提示和不受信任的数据源上。

2. **代理对齐检查**:一种思维链审计器,检查代理推理是否存在提示注入和目标错位(这是第一个开源护栏,实时审计LLM思维链,用于注入防御,确保AI代理的计划不会被敌意输入劫持)。

3. **CodeShield**:一种低延迟在线静态分析引擎,检测LLM生成的不安全代码输出,防范潜在漏洞。CodeShield最初在Llama 3发布时推出,并已纳入这个统一框架中。

此外,LlamaFirewall还提供可定制的正则表达式和基于LLM的检查,可根据特定应用的威胁模型和用例进行配置。

#### 灵活的协作安全基础

LlamaFirewall将这些护栏整合到一个统一的策略引擎中。借助LlamaFirewall,开发者可以构建自定义管道,定义条件修复策略,并插入新的检测器。正如传统网络安全中的Snort、Zeek或Sigma一样,LlamaFirewall旨在提供一个协作的安全基础——一个研究人员、开发者和操作员可以共享策略、组合防御并实时适应新威胁的基础。

LlamaFirewall的设计注重灵活性,允许它跨各种AI系统工作,无论底层代理框架如何。萨哈娜·钱纳巴萨帕强调:“它可以与任何允许开发人员加入额外安全机制的AI系统一起使用,无论是开放还是封闭的。”

作为一个专注于安全的开源解决方案,LlamaFirewall采取了纵深防御的方法。萨哈娜·钱纳巴萨帕表示:“这一策略借鉴了Meta在大规模系统和生产环境中的丰富经验,以帮助确保AI应用和代理的安全开发。”

与可能限制可见性和定制化的专有工具不同,LlamaFirewall拥抱开放性。萨哈娜·钱纳巴萨帕指出:“它的开源性质为社区构建的插件、规则和检测器提供了透明且可扩展的平台。”

### 未来计划与下载

虽然LlamaFirewall目前专注于提示注入和不安全的代码生成,但开发人员看到了扩大其范围的潜力,以涵盖其他高风险行为,如恶意代码执行和不安全的工具使用,从而在整个代理生命周期内实现更全面的保护。

LlamaFirewall可在GitHub上免费获取。想要了解更多关于开源网络安全工具的信息,可以订阅无广告的Help Net Security月刊。

**相关阅读推荐:**
– GitHub首席信息安全官谈安全战略和与开源社区合作
– 不要让这些开源网络安全工具从你的眼皮底下溜走
– 33个你不知道需要的开源网络安全解决方案

订阅这里!

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日