新研究揭示AI模型易受攻击,安全机制存漏洞

发布时间:2025年11月8日    来源:szf
新研究揭示AI模型易受攻击,安全机制存漏洞

快速阅读: 研究显示,先进AI模型易受“思维链劫持”攻击,成功率达80%,影响OpenAI、Anthropic等主流模型,引发安全担忧。研究人员提出“推理感知防御”作为解决方案。

新的研究表明,先进的AI模型可能比之前认为的更容易被黑客攻击,引发了对一些已被企业和消费者使用的领先AI模型的安全性和保障性的担忧。来自Anthropic、牛津大学和斯坦福大学的一项联合研究挑战了这样一种假设:模型在推理能力上的进步——即其“思考”用户请求的能力——会增强其拒绝有害命令的能力。

研究人员利用一种称为“思维链劫持”的方法发现,即使是主要的商业AI模型也可能被以惊人的高成功率欺骗,某些测试中的成功率达到80%以上。这种新型攻击方式实际上是通过利用模型的推理步骤,或者说是“思维链”,来隐藏有害命令,从而有效地诱骗AI忽略其内置的安全防护措施。

这些攻击可以使AI模型跳过其安全护栏,有可能打开大门,让其生成危险内容,例如制造武器的指令或泄露敏感信息。在过去的一年里,大型推理模型通过分配更多的计算时间来实现更高的性能,这意味着它们花费更多的时间和资源来分析每个问题或提示,从而进行更深入和复杂的推理。此前的研究表明,这种增强的推理能力也可能提高安全性,帮助模型拒绝有害请求。然而,研究人员发现,同样的推理能力可以被利用来绕过安全措施。

根据这项研究,攻击者可以在一长串无害的推理步骤中隐藏有害请求。这会通过用良性内容淹没AI的思维过程,削弱旨在捕捉并拒绝危险提示的内部安全检查。在劫持过程中,研究人员发现,AI的注意力主要集中在早期步骤上,而提示末尾的有害指令几乎被完全忽略。随着推理长度的增加,攻击成功率急剧上升。研究表明,当使用最小推理时,成功率为27%,自然推理长度时升至51%,而在扩展推理链的情况下,则跃升至80%以上。

这一漏洞几乎影响到市场上所有主要的AI模型,包括OpenAI的GPT、Anthropic的Claude、谷歌的Gemini和xAI的Grok。即使经过专门调优以增强安全性的模型,即所谓的“对齐调优”模型,在攻击者利用其内部推理层时也开始失效。扩大模型的推理能力是过去一年中AI公司改善其前沿模型整体性能的主要途径之一,因为在传统规模方法显示出递减收益之后,这种方法显得尤为重要。高级推理使模型能够应对更复杂的问题,帮助它们表现得更像是人类问题解决者而非简单的模式匹配器。

研究人员提出的一种解决方案是一种“推理感知防御”。这种方法跟踪AI在思考每个问题的每一步时有多少安全检查仍然有效。如果任何步骤削弱了这些安全信号,系统将对其进行惩罚,并将AI的注意力重新集中到提示中潜在的有害部分。初步测试显示,这种方法可以在保持AI良好性能和有效回答正常问题的同时恢复安全性。

(以上内容均由Ai生成)

你可能还想读

高通Q4财报亮眼:QCT创纪录,汽车与物联网增长强劲

高通Q4财报亮眼:QCT创纪录,汽车与物联网增长强劲

快速阅读: 高通发布2025财年第四季度财报,总收入113亿美元,同比增长10%,超出预期。QCT部门收入创历史新高,达98亿美元,同比增长13%;汽车和物联网业务增长显著,分别为17%和7%。调整后净利润33亿美元,同比增长7%。 高通( […]

发布时间:2025年11月8日
OpenAI呼吁扩大芯片法案税收优惠至AI数据中心

OpenAI呼吁扩大芯片法案税收优惠至AI数据中心

快速阅读: OpenAI向白宫请求扩大AMIC税收抵免范围,涵盖人工智能数据中心和服务器制造商,计划投资5000亿美元建设数据中心,以降低投资风险并加速美国人工智能发展。 OpenAI集团公共利益公司已向白宫请求,将芯片制造厂的税收抵免扩展 […]

发布时间:2025年11月8日
AI角色Tilly Norwood引发好莱坞争议

AI角色Tilly Norwood引发好莱坞争议

快速阅读: 生成式AI执行官范德维尔登创造的AI角色蒂莉·诺伍德意外成为好莱坞焦点。因《截止日》报道其受经纪公司青睐,引发关注与争议,包括创作者谴责、WME拒绝签约及SAG呼吁监管。 生成式人工智能执行官埃琳·范德维尔登表示,她未曾预料到自 […]

发布时间:2025年11月8日
中国AI新模型Kimi K2 Thinking免费发布,性能超越GPT-5

中国AI新模型Kimi K2 Thinking免费发布,性能超越GPT-5

快速阅读: 中国AI实验室Moonshot发布Kimi K2 Thinking模型,声称在多项基准测试中超越GPT-5和Claude Sonnet 4.5,编码能力相当。该模型开源且成本低,或改变AI市场格局。 周四,中国新兴人工智能实验室 […]

发布时间:2025年11月8日
中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5

中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5

快速阅读: 中国AI实验室Moonshot发布新模型Kimi K2 Thinking,声称在多项测试中超越GPT-5和Claude Sonnet 4.5,具备开源、低成本优势,可能改变企业AI工具选择逻辑。 周四,中国新兴人工智能实验室Mo […]

发布时间:2025年11月8日
谷歌地图AI升级,对话导航更智能

谷歌地图AI升级,对话导航更智能

快速阅读: 《Pixelated》第77期讨论谷歌地图即将推出的AI改进,包括对话式导航和地标导航功能;报道谷歌与迪士尼因YouTube TV合同到期的争端;探讨Pixel 10令人印象深刻的销售数字。 欢迎来到《Pixelated》第77 […]

发布时间:2025年11月8日
索尼斯看好AI音乐智能竞赛,布局未来交互中心

索尼斯看好AI音乐智能竞赛,布局未来交互中心

快速阅读: Sonos CEO在财报会议中表示,随着AI普及,未来与AI的自然对话将像使用智能手机一样常见,Sonos将凭借其在智能家庭硬件的优势成为这一变革的核心。 他也注意到人工智能的快速普及。“展望未来,”他在公司第四季度财报电话会议 […]

发布时间:2025年11月8日
“‘大空头’投资者押注AI泡沫破裂,如何保护你的投资?”

“‘大空头’投资者押注AI泡沫破裂,如何保护你的投资?”

快速阅读: 本周科技股下跌,市值缩水超1万亿美元,引发对AI股市泡沫破裂的担忧。著名投资者迈克尔·伯里押注10亿美元做空英伟达和帕兰提尔,认为AI行业股价已达到不可持续的高度。 本周,科技股再次波动,全球最大的一些公司股价下滑,凸显出这些公 […]

发布时间:2025年11月8日