研究揭示多款主流AI模型易受攻击

发布时间:2025年11月7日    来源:szf
研究揭示多款主流AI模型易受攻击

快速阅读: 思科研究发现,多个知名AI模型存在严重安全漏洞,尤其对“多轮越狱攻击”敏感,可能导致数据泄露和内容操控,影响隐私和信息完整性。

据思科研究人员称,一系列领先的开放权重人工智能模型存在严重的安全漏洞。在一项新研究中,研究人员发现这些公开可用且可由用户根据个人需求下载和修改的模型,显示出“对抗性操纵技术”的高度易感性。

思科评估了来自多家公司的模型,包括阿里巴巴(Qwen3-32B)、DeepSeek(v3.1)、谷歌(Gemma 3-1B-IT)、Meta(Llama 3.3-70B-Instruct)、微软(Phi-4)、OpenAI(GPT-OSS-20b)和Mistral(Large-2)。所有这些模型都通过思科的人工智能验证工具进行了测试,该工具用于评估模型的安全性和探测潜在的安全漏洞。

研究人员发现,所有模型对“多轮越狱攻击”尤为敏感。这是一种方法,攻击者可以通过精心设计的指令逐步操纵模型的行为,迫使其产生禁止内容。这比“单轮”技术更为繁琐,后者涉及使用单一有效的恶意提示来操纵模型。

多轮越狱技术之前已有记录,特别是使用“万能钥匙方法”,这种方法允许黑客说服AI模型生成制造莫洛托夫鸡尾酒的指导。

研究显示,不同模型的成功率差异显著。例如,谷歌的Gemma-3-1B-IT模型的成功率为25.86%,而Mistral Large-2的成功率高达92.78%。对于单轮攻击方法,这两个模型也记录了最高的成功率。

思科的研究人员指出,这些不同的成功率反映了这些模型通常使用方式的两个关键因素:“对齐”和“能力”。其中,“对齐”是指AI模型如何在人类意图和价值观的背景下行动,而“能力”则指模型执行特定任务的能力。

例如,像Meta的Llama系列这样的模型,由于较少关注对齐,因此对多轮攻击方法最为敏感。这是因为Meta有意将开发者置于“驾驶座”,允许他们根据个别用途调整模型的安全机制。

研究报告指出:“高度重视对齐的模型(如谷歌的Gemma-3-1B-IT)在面对单轮和多轮策略时表现出更平衡的特征,表明其‘严格的安全协议’和‘低风险水平’。”

研究人员警告,这些模型中存在的缺陷可能带来现实世界的后果,特别是在数据保护和隐私方面。“这可能导致现实威胁,包括敏感数据泄露的风险、内容操控导致的数据和信息完整性受损、通过有偏见的输出引发的道德违规,以及集成系统(如聊天机器人或决策支持工具)中的操作中断。”此外,在企业环境中,这些漏洞可能“导致未经授权访问专有信息”。

自2022年底生成式AI兴起以来,关于AI模型操纵的担忧已成为一个常见的主题,新的越狱技术不断涌现。

确保关注ITPro的Google新闻,以跟踪我们最新的新闻、分析和评论。

(以上内容均由Ai生成)

关键词: AI模型安全研究

你可能还想读

苹果计划使用定制版Google Gemini,大幅增强Siri功能

苹果计划使用定制版Google Gemini,大幅增强Siri功能

快速阅读: 苹果将在私有云计算服务器上运行定制的Gemini模型,参数达1.2万亿,远超现有1500亿参数模型,以提升Siri功能。 据彭博社报道,苹果将在其私有云计算服务器上运行定制的Gemini模型,尽管仍将继续使用内部模型来支持某些S […]

发布时间:2025年11月8日
谷歌发现新恶意软件利用AI模型实时优化攻击

谷歌发现新恶意软件利用AI模型实时优化攻击

快速阅读: 谷歌发现三种利用AI技术的新型恶意软件,包括窃取凭证的“Quietvault”、通过Gemini修改代码逃避检测的“Promptflux”及与Qwen关联的数据挖掘恶意软件“Promptsteal”。谷歌已采取行动禁用相关资产, […]

发布时间:2025年11月8日
美议员提案:公司需报告因AI裁员情况

美议员提案:公司需报告因AI裁员情况

快速阅读: 美国法案提议,公私企业和政府机构需每季度报告因人工智能导致的岗位流失及招聘培训情况,涵盖自动化替代人力的具体职位。 该法案提议要求美国的公共和私营公司以及政府机构每季度向劳工部报告因人工智能相关的岗位流失情况。这包括因自动化和使 […]

发布时间:2025年11月8日
量子计算机模拟超导现象,迈出重要一步

量子计算机模拟超导现象,迈出重要一步

快速阅读: 量子计算公司Quantinuum利用Helios-1量子计算机成功模拟Fermi-Hubbard模型,展示了量子计算机在材料科学尤其是超导性研究中的潜力,为未来量子技术发展铺平道路。 量子计算公司Quantinuum的研究人员利 […]

发布时间:2025年11月8日
苹果拟每年斥资10亿美元,与谷歌合作提升Siri智能

苹果拟每年斥资10亿美元,与谷歌合作提升Siri智能

快速阅读: 苹果正与谷歌洽谈使用Gemini技术升级Siri,预计2026年实施,年费约10亿美元。Gemini参数量达1.2万亿,将主要用于Siri的摘要和规划功能,提升处理复杂任务的能力,但不会深度集成至iOS系统。 苹果期待已久的Si […]

发布时间:2025年11月8日
中国禁用外国AI芯片,Nvidia等厂商受影响

中国禁用外国AI芯片,Nvidia等厂商受影响

快速阅读: 中国要求完成率低于30%的项目停止使用外国芯片,影响英伟达等企业。英伟达曾占中国AI加速器市场90%以上,现市场份额几乎为零。 据报道,完成率不足30%的项目被要求停止使用或移除所有已使用的外国芯片。对于曾经占据中国AI加速器市 […]

发布时间:2025年11月8日
“‘大空头’迈克尔·伯里再下重注,押注AI泡沫”

“‘大空头’迈克尔·伯里再下重注,押注AI泡沫”

快速阅读: 知名投资者迈克尔·伯里押注AI是泡沫,其基金Scion购入英伟达和帕兰提尔大量看跌期权,总额超11亿美元。伯里曾成功预测2008年金融危机。 知名投资者迈克尔·伯里,曾因《大空头》一书而闻名,现在押注人工智能更多是一个泡沫而非革 […]

发布时间:2025年11月8日
印度企业应对AI错误,多方向解决幻觉问题

印度企业应对AI错误,多方向解决幻觉问题

快速阅读: 印度初创公司应对AI幻觉,Tredence构建RAG管道确保准确性,Gupshup和Vexoo Labs改进提示工程与微调框架,提升模型识别模糊性和标记不确定性能力。 随着企业和消费者将生成式人工智能(GenAI)融入日常工作中 […]

发布时间:2025年11月8日