新研究揭示AI模型易受攻击,安全机制存漏洞

发布时间:2025年11月8日    来源:szf
新研究揭示AI模型易受攻击,安全机制存漏洞

快速阅读: 研究显示,先进AI模型易受“思维链劫持”攻击,成功率达80%,影响OpenAI、Anthropic等主流模型,引发安全担忧。研究人员提出“推理感知防御”作为解决方案。

新的研究表明,先进的AI模型可能比之前认为的更容易被黑客攻击,引发了对一些已被企业和消费者使用的领先AI模型的安全性和保障性的担忧。来自Anthropic、牛津大学和斯坦福大学的一项联合研究挑战了这样一种假设:模型在推理能力上的进步——即其“思考”用户请求的能力——会增强其拒绝有害命令的能力。

研究人员利用一种称为“思维链劫持”的方法发现,即使是主要的商业AI模型也可能被以惊人的高成功率欺骗,某些测试中的成功率达到80%以上。这种新型攻击方式实际上是通过利用模型的推理步骤,或者说是“思维链”,来隐藏有害命令,从而有效地诱骗AI忽略其内置的安全防护措施。

这些攻击可以使AI模型跳过其安全护栏,有可能打开大门,让其生成危险内容,例如制造武器的指令或泄露敏感信息。在过去的一年里,大型推理模型通过分配更多的计算时间来实现更高的性能,这意味着它们花费更多的时间和资源来分析每个问题或提示,从而进行更深入和复杂的推理。此前的研究表明,这种增强的推理能力也可能提高安全性,帮助模型拒绝有害请求。然而,研究人员发现,同样的推理能力可以被利用来绕过安全措施。

根据这项研究,攻击者可以在一长串无害的推理步骤中隐藏有害请求。这会通过用良性内容淹没AI的思维过程,削弱旨在捕捉并拒绝危险提示的内部安全检查。在劫持过程中,研究人员发现,AI的注意力主要集中在早期步骤上,而提示末尾的有害指令几乎被完全忽略。随着推理长度的增加,攻击成功率急剧上升。研究表明,当使用最小推理时,成功率为27%,自然推理长度时升至51%,而在扩展推理链的情况下,则跃升至80%以上。

这一漏洞几乎影响到市场上所有主要的AI模型,包括OpenAI的GPT、Anthropic的Claude、谷歌的Gemini和xAI的Grok。即使经过专门调优以增强安全性的模型,即所谓的“对齐调优”模型,在攻击者利用其内部推理层时也开始失效。扩大模型的推理能力是过去一年中AI公司改善其前沿模型整体性能的主要途径之一,因为在传统规模方法显示出递减收益之后,这种方法显得尤为重要。高级推理使模型能够应对更复杂的问题,帮助它们表现得更像是人类问题解决者而非简单的模式匹配器。

研究人员提出的一种解决方案是一种“推理感知防御”。这种方法跟踪AI在思考每个问题的每一步时有多少安全检查仍然有效。如果任何步骤削弱了这些安全信号,系统将对其进行惩罚,并将AI的注意力重新集中到提示中潜在的有害部分。初步测试显示,这种方法可以在保持AI良好性能和有效回答正常问题的同时恢复安全性。

(以上内容均由Ai生成)

你可能还想读

欧盟拟放宽AI法案,应对科技巨头压力

欧盟拟放宽AI法案,应对科技巨头压力

快速阅读: 欧盟委员会提议暂停部分人工智能法律,面临美国政府及科技公司压力。草案计划11月19日决定,将削弱数字规则手册,旨在提高竞争力。 欧盟委员会提议暂停其标志性人工智能法律的部分内容,此举是在大型科技公司和美国政府施加巨大压力下作出的 […]

发布时间:2025年11月8日
Kimi K2 Thinking全球排名第二,开源模型中居首

Kimi K2 Thinking全球排名第二,开源模型中居首

快速阅读: 人工智能分析公司Artificial Analysis报告显示,Kimi K2 Thinking在最新AI系统评估中排名全球第二,开源模型中居首。其AI智能指数67分,仅次于GPT-5,具备卓越推理能力。在编程基准测试中表现优异 […]

发布时间:2025年11月8日
马斯克暗示特斯拉可能与英特尔合作生产AI芯片

马斯克暗示特斯拉可能与英特尔合作生产AI芯片

快速阅读: 特斯拉CEO马斯克表示,特斯拉可能建造巨大芯片工厂制造AI芯片,支持自动驾驶目标。马斯克透露正设计第五代AI芯片,可能与英特尔合作,但尚未签订协议。 特斯拉首席执行官埃隆·马斯克表示,特斯拉可能需要建造一座“巨大的芯片工厂”,以 […]

发布时间:2025年11月8日
富士康签约三菱电机,共同开发AI数据中心解决方案

富士康签约三菱电机,共同开发AI数据中心解决方案

快速阅读: 鸿海与三菱签署谅解备忘录,共同开发AI数据中心解决方案,利用双方专业知识促进全球能源效率高且可靠的解决方案供应。 台北,11月8日(中央社)台湾制造巨头鸿海精密工业股份有限公司预计将利用日本三菱电机公司在电力模块供应方面的优势, […]

发布时间:2025年11月8日
黄仁勋:没有台积电,英伟达不会成功

黄仁勋:没有台积电,英伟达不会成功

快速阅读: 英伟达CEO黄仁勋在台积电新竹活动上表示,Blackwell系列芯片市场需求强劲,该平台涉及多种芯片,对供应链提出高要求。黄仁勋感谢台积电支持,并称“没有台积电,英伟达不可能成功”。 IT之家 11 月 8 日消息,路透社发布博 […]

发布时间:2025年11月8日
甲骨文推出自主AI湖仓,打破云间壁垒

甲骨文推出自主AI湖仓,打破云间壁垒

快速阅读: Oracle在AI World活动上推出自主AI湖屋,结合自主数据库与Apache Iceberg,提供跨云分析互操作,消除供应商锁定,支持大规模数据处理。 在最近于拉斯维加斯举行的Oracle AI World活动上,该公司将 […]

发布时间:2025年11月8日
云原生与AI融合:KubeCon探讨未来趋势

云原生与AI融合:KubeCon探讨未来趋势

快速阅读: AI与Kubernetes融合,重塑技术栈,影响云原生与开源角色。KubeCon + CloudNativeCon北美会议将探讨AI快速发展带来的挑战与机遇,活动于11月10日开始。 AI与Kubernetes正在融合,重塑整个 […]

发布时间:2025年11月8日
紫金矿业与蚂蚁数科合作,推进区块链和AI技术应用

紫金矿业与蚂蚁数科合作,推进区块链和AI技术应用

快速阅读: 山东黄金矿业与蚂蚁数字科技达成合作,利用区块链和AI技术推进海外黄金资产数字化,提升供应链效率,支持可持续发展。公司股价今年表现强劲,年初至今回报率158.14%,三年总股东回报率达253.97%。 Zhaojin Mining […]

发布时间:2025年11月8日