OpenAI警告AI武器化风险高

发布时间：2025年12月13日来源：szf

快速阅读: 据OpenAI消息，该公司正强化AI模型网络安全防护，防范其被滥用于攻击，已将GPT-5.1在夺旗赛成功率提升至76%，并推进《准备度框架》及“可信访问计划”，严控高风险功能部署。

近日，人工智能企业OpenAI发布多项举措，旨在防范其AI模型被滥用于网络攻击。该公司指出，随着AI技术快速发展，其在网络安全领域的“双刃剑”效应日益凸显：一方面可提升防御能力，另一方面也可能被恶意利用，带来较高风险。

当前，AI模型已能自动化执行暴力破解、生成恶意软件及高仿真钓鱼内容，并优化攻击链条。部分不法分子甚至通过间接提示注入等方式，诱导AI聊天机器人或浏览器摘要功能将用户导向恶意网站。安全研究人员还发现，某些AI助手可能无意中创建后门，简化网络犯罪操作流程。

与此同时，AI也为防御方提供新工具。例如，可协助识别威胁、训练专业人员，并承担告警分类等重复性任务，从而释放人力投入更高价值工作。OpenAI表示，其AI系统在网络攻防能力方面进步显著。在传统用于测试网络安全能力的“夺旗赛”（CTF）挑战中，GPT-5模型今年8月的成功率为27%，至11月GPT-5.1-Codex-Max版本已提升至76%。

为应对潜在风险，OpenAI持续推进其《准备度框架》（Preparedness Framework）。该框架于2025年4月更新，聚焦三类可能造成“严重危害”的风险：生物与化学能力、网络安全能力，以及AI自我改进能力。其中，网络安全能力目前受到重点关注。该框架设定了可衡量的风险阈值，并明确在部署高能力模型前，须建立充分的安全保障措施。

OpenAI强调，不会在未有效降低严重危害风险的情况下部署相关模型，并将持续完善内部验证机制，确保防护措施充分有效。

该公司正加大对模型安全防护的投入，以提升其在网络安全防御中的实用性。目前已启动专项威胁情报与内部风险防控计划，强化模型对恶意请求的识别与拒止能力。尽管攻击者可能伪装成防御人员诱导模型生成有害内容，OpenAI仍致力于确保其技术为资源有限的防御方提供显著优势。当系统检测到潜在风险行为时，将采取阻断输出、转至安全性更高或能力受限的模型，或启动人工审核等措施。

此外，OpenAI正与红队服务商合作，通过模拟攻击测试现有安全机制，以期在网络犯罪分子发现漏洞前完成修复。公司还计划推出“可信访问计划”，向部分用户和合作伙伴开放具备增强能力的测试模型，用于网络安全防御场景，但相关权限将受到严格管控。OpenAI表示，仍在探索哪些功能可广泛开放，哪些需分级限制，该计划有望成为构建韧性生态体系的重要基础。

目前，该公司已将其安全研究代理工具Aardvark转入私有测试阶段。该工具可自动扫描代码库中的漏洞并提供修复建议，据称已发现多个开源软件中的新型CVE漏洞。同时，公司将在近期成立“前沿风险理事会”，初期聚焦人工智能在网络安全领域的风险与应对策略，后续将逐步扩展至其《准备度框架》所涵盖的其他风险类别。

业内专家提醒，人工智能作为新兴工具，其应用需审慎评估风险与收益。研究机构Gartner近期建议企业避免或禁用AI浏览器，以防提示注入攻击和数据泄露等安全威胁。

(以上内容均由Ai生成)