专家揭穿五大AI安全误区

发布时间：2025年12月11日来源：szf

快速阅读: 最新消息显示，安全专家贾穆尔在InfoQ大会驳斥AI安全五大误区，指出护栏机制易被绕过、模型扩大会泄露隐私数据，并呼吁建立跨学科风险雷达与常态化红队测试。

日前，在InfoQ Dev Summit Munich 2025大会上，安全专家凯瑟琳·贾穆尔（Katharine Jarmul）发表主题演讲，驳斥了当前人工智能领域五大常见安全与隐私误区。她指出，现有AI安全策略过度依赖技术手段，忽视系统性风险，亟需跨学科协作与持续测试机制。

贾穆尔援引Anthropic公司2025年9月发布的经济指数报告称，AI自动化（即AI自主完成任务）首次超过增强模式（AI辅助人类），加剧了安全与隐私团队的应对压力。她强调，用户普遍面临专家界定不清、安全责任推诿及营销式恐吓等问题。

针对“护栏机制可确保安全”的观点，她演示了绕过方法：通过请求法语代码或以ASCII艺术形式输入敏感词，即可规避多数输出过滤规则；而基于人类反馈的强化学习（RLHF）等对齐技术，也易被“我是研究人员”类提示攻破。第二项误区认为模型性能提升能增强安全性，但参数规模扩大常导致训练数据中包含受版权保护或含个人医疗信息的内容，易被恶意提取。尽管差分隐私模型如VaultGemma可缓解此问题，其实际表现仍受限。

此外，她批评现有风险分类框架（如MIT、NIST、欧盟《人工智能法案》及OWASP标准）过于庞杂，主张建立涵盖安全、隐私、产品、数据等多部门的“跨学科风险雷达”，聚焦真实威胁。关于红队测试，她指出一次性演练远远不足，应结合STRIDE、LINCUN等威胁建模工具，将测试、监控与攻防演练常态化。最后，她驳斥“新版模型自会修复漏洞”的幻想，援引数据显示ChatGPT在2024年5月至2025年6月间半数使用为信息查询，并警示企业正利用用户数据构建画像投放广告。她建议采用Ollama、GPT4All等本地模型，以提升隐私控制能力。

(以上内容均由Ai生成)