OpenAI警告武器化AI风险高并推防护计划

发布时间：2025年12月15日来源：szf

快速阅读: 据OpenAI消息，该公司正强化AI模型安全防护以应对网络攻击风险，已更新《准备度框架》并将网络安全列为重点，推出Aardvark漏洞扫描工具并计划成立前沿风险理事会，旨在提升防御能力、阻断恶意请求并限制高危功能开放。

近日，人工智能企业OpenAI发布多项举措，旨在防范其AI模型被滥用于网络攻击。该公司指出，随着AI技术快速发展，其在网络安全领域的潜在风险已达到“高”级别，亟需采取行动协助防御方应对挑战。

当前，AI模型如ChatGPT在提升效率的同时，也可能被恶意利用，例如用于自动化暴力破解、生成恶意软件或高仿真钓鱼内容，并优化攻击链路。近期已有不法分子通过间接提示注入等方式，利用AI聊天机器人和浏览器摘要功能传播诈骗信息。研究人员发现，部分AI功能甚至会引导用户访问恶意网站，个别AI助手还可能无意中创建后门，简化网络犯罪流程。

与此同时，AI亦可赋能防御体系。安全人员可借助其识别威胁、辅助训练专业人才，并承担告警分类等重复性任务，从而释放人力资源用于更高价值工作。

OpenAI表示，AI系统的网络攻防能力正快速演进。以“夺旗赛”（CTF）为测试基准，其GPT-5模型在2025年8月的成功率为27%，至同年11月的GPT-5.1-Codex-Max版本已升至76%。该公司预计，若此趋势持续，未来模型将具备开发针对高防护系统零日远程漏洞利用的能力，或显著协助复杂、隐蔽的企业级入侵行动。

为系统评估与管控风险，OpenAI于2025年4月更新《准备度框架》，聚焦三大高危领域：生化能力、网络安全能力及AI自我改进能力，其中网络安全被列为重点方向。该框架设定了可量化的风险阈值，并明确在部署高能力模型前，须建立充分的安全保障措施，以最大限度降低造成严重危害的可能性。

OpenAI近日表示，正加大对模型安全防护的投入，旨在提升其在网络安全防御中的实用性。该公司已启动专项威胁情报与内部风险防控计划，并对模型进行强化训练，以识别并拒绝恶意请求。尽管攻击者可能伪装成防御人员诱导模型生成有害内容，OpenAI仍致力于确保其技术为资源有限的防御方提供显著优势。当系统检测到潜在风险行为时，将采取阻断输出、转至安全性更高或能力受限的模型，或启动人工审核等措施。

此外，OpenAI正与红队（Red Team）服务商合作，通过模拟攻击测试现有安全机制，以期在网络犯罪分子发现漏洞前先行修复。公司还计划推出“可信访问计划”，向部分用户或合作伙伴开放具备增强能力的测试模型，用于网络安全防御用途，但该计划将实施严格管控。OpenAI表示，仍在探索哪些功能可广泛开放，哪些需分级限制，相关决策将影响该计划的未来设计，并希望其成为构建韧性生态体系的基础。

目前，OpenAI已将其安全研究代理工具Aardvark转入私有测试阶段。该工具可扫描代码库中的漏洞并提供修复建议，据称已在开源软件中发现多个新型CVE漏洞。同时，公司将在近期成立“前沿风险理事会”（Frontier Risk Council），初期聚焦人工智能在网络安全领域的风险与应对建议，后续将逐步扩展至其《准备度框架》所涵盖的其他风险类别。

业内提醒，人工智能作为新兴工具，需审慎部署。研究机构Gartner近期建议企业避免或禁用AI浏览器，以防提示注入攻击和数据泄露。各方应以评估传统新技术的方式，全面权衡AI应用的潜在收益与安全风险。

(以上内容均由Ai生成)