Anthropic强化AI模型抵御提示注入攻击

发布时间：2025年11月27日来源：szf

快速阅读: 研究显示，代理系统在提高韧性方面取得进展，但仍面临基于浏览器的自动化带来的安全威胁。提示注入攻击成主要挑战，98%企业领导者因信任问题拒绝授权代理访问核心系统。行业正通过训练与分类器加强防御。

研究显示，代理系统在提高韧性方面取得了进展。然而，随着基于浏览器的自动化日益普及，潜在的弱点仍然存在。提示注入攻击利用了人工智能模型处理指令的方式。当代理浏览网页或阅读邮件时，攻击者可以嵌入隐藏命令，指示模型泄露数据、转发机密通信或采取未经授权的行动。PYMNTS Intelligence发现，98%的企业领导者仍不愿授予人工智能代理对核心系统的操作级访问权限，信任问题成为采纳的主要障碍。这一挑战已得到行业内的广泛认可。OpenAI称提示注入为“前沿安全挑战”，需要持续努力。微软将其列为2025年大型语言模型应用程序OWASP Top 10中的首要威胁。安全研究人员指出，该问题源于人工智能系统处理自然语言的方式，而非典型的软件缺陷。

浏览器的使用带来了独特的风险。每个网页和嵌入文档都可能成为攻击载体。Brave的安全研究人员展示了攻击者如何在截图中嵌入几乎不可见的命令，绕过基于文本的过滤器。安全公司AppOmni透露，ServiceNow的Now Assist代理即使在内置保护措施启用的情况下，仍可被操纵招募更强大的代理来读取或修改记录及发送邮件。Smart Labs AI的研究表明，代理在日常任务中可能被迫泄露内部文件，成功率因实现方式而异。

一家财富500强金融服务公司发现其客户服务代理通过提示注入攻击泄露账户数据数周，导致数百万美元的监管罚款，据Obsidian的博客文章报道。

训练和分类器形成双重防御。Anthropic的改进集中在两个方面：一是在模型训练过程中应用强化学习，将Claude暴露于模拟网络内容中的提示注入，并在模型正确识别并拒绝恶意指令时给予奖励，从而直接构建能力的稳健性，而不是仅仅依赖外部过滤器；二是使用分类器扫描进入模型上下文窗口的不可信内容，检测隐藏在文本、图像或界面元素中的对抗性命令。自浏览器扩展在研究预览中推出以来，Anthropic改善了分类器和干预机制。公司还进行专家人工红队测试，并参与行业范围的外部竞技场式挑战，以评估稳健性。

1%的攻击成功率反映了针对结合多种已知技术的适应性对手的测试结果，这代表了实际风险，而非已解决的问题。其他人工智能提供商也提出了类似的防御框架，结合预防控制、检测工具和影响缓解措施。微软使用强化系统提示和称为“聚光灯”的技术隔离不可信输入，同时集成到Defender for Cloud的Prompt Shields。公司开发了FIDES方法，通过信息流控制确定性地防止代理系统中的间接提示注入。谷歌宣布了自主系统，能够实时检测和响应威胁，通常无需人工干预，这是向人工智能驱动的先发制人网络安全防御转变的一部分。

安全专家表示，模型的可靠性取决于提供给它们的数据，准确性和问责制决定了大规模预防是否具有经济可行性。整个安全团队的共识是，没有任何单一技术能彻底解决问题。供应商正在叠加训练、分类器、监控工具和内部防护措施，以缩小提示注入成功的窗口期。

欲了解所有PYMNTS关于人工智能的报道，请订阅每日AI通讯。

(以上内容均由Ai生成)