研究揭示多款主流AI模型易受攻击
快速阅读: 思科研究发现,多个知名AI模型存在严重安全漏洞,尤其对“多轮越狱攻击”敏感,可能导致数据泄露和内容操控,影响隐私和信息完整性。
据思科研究人员称,一系列领先的开放权重人工智能模型存在严重的安全漏洞。在一项新研究中,研究人员发现这些公开可用且可由用户根据个人需求下载和修改的模型,显示出“对抗性操纵技术”的高度易感性。
思科评估了来自多家公司的模型,包括阿里巴巴(Qwen3-32B)、DeepSeek(v3.1)、谷歌(Gemma 3-1B-IT)、Meta(Llama 3.3-70B-Instruct)、微软(Phi-4)、OpenAI(GPT-OSS-20b)和Mistral(Large-2)。所有这些模型都通过思科的人工智能验证工具进行了测试,该工具用于评估模型的安全性和探测潜在的安全漏洞。
研究人员发现,所有模型对“多轮越狱攻击”尤为敏感。这是一种方法,攻击者可以通过精心设计的指令逐步操纵模型的行为,迫使其产生禁止内容。这比“单轮”技术更为繁琐,后者涉及使用单一有效的恶意提示来操纵模型。
多轮越狱技术之前已有记录,特别是使用“万能钥匙方法”,这种方法允许黑客说服AI模型生成制造莫洛托夫鸡尾酒的指导。
研究显示,不同模型的成功率差异显著。例如,谷歌的Gemma-3-1B-IT模型的成功率为25.86%,而Mistral Large-2的成功率高达92.78%。对于单轮攻击方法,这两个模型也记录了最高的成功率。
思科的研究人员指出,这些不同的成功率反映了这些模型通常使用方式的两个关键因素:“对齐”和“能力”。其中,“对齐”是指AI模型如何在人类意图和价值观的背景下行动,而“能力”则指模型执行特定任务的能力。
例如,像Meta的Llama系列这样的模型,由于较少关注对齐,因此对多轮攻击方法最为敏感。这是因为Meta有意将开发者置于“驾驶座”,允许他们根据个别用途调整模型的安全机制。
研究报告指出:“高度重视对齐的模型(如谷歌的Gemma-3-1B-IT)在面对单轮和多轮策略时表现出更平衡的特征,表明其‘严格的安全协议’和‘低风险水平’。”
研究人员警告,这些模型中存在的缺陷可能带来现实世界的后果,特别是在数据保护和隐私方面。“这可能导致现实威胁,包括敏感数据泄露的风险、内容操控导致的数据和信息完整性受损、通过有偏见的输出引发的道德违规,以及集成系统(如聊天机器人或决策支持工具)中的操作中断。”此外,在企业环境中,这些漏洞可能“导致未经授权访问专有信息”。
自2022年底生成式AI兴起以来,关于AI模型操纵的担忧已成为一个常见的主题,新的越狱技术不断涌现。
确保关注ITPro的Google新闻,以跟踪我们最新的新闻、分析和评论。
(以上内容均由Ai生成)