OpenAI警告AI武器化风险高
快速阅读: 据OpenAI消息,该公司正强化AI模型网络安全防护,防范其被滥用于攻击,已将GPT-5.1在夺旗赛成功率提升至76%,并推进《准备度框架》及“可信访问计划”,严控高风险功能部署。
近日,人工智能企业OpenAI发布多项举措,旨在防范其AI模型被滥用于网络攻击。该公司指出,随着AI技术快速发展,其在网络安全领域的“双刃剑”效应日益凸显:一方面可提升防御能力,另一方面也可能被恶意利用,带来较高风险。
当前,AI模型已能自动化执行暴力破解、生成恶意软件及高仿真钓鱼内容,并优化攻击链条。部分不法分子甚至通过间接提示注入等方式,诱导AI聊天机器人或浏览器摘要功能将用户导向恶意网站。安全研究人员还发现,某些AI助手可能无意中创建后门,简化网络犯罪操作流程。
与此同时,AI也为防御方提供新工具。例如,可协助识别威胁、训练专业人员,并承担告警分类等重复性任务,从而释放人力投入更高价值工作。OpenAI表示,其AI系统在网络攻防能力方面进步显著。在传统用于测试网络安全能力的“夺旗赛”(CTF)挑战中,GPT-5模型今年8月的成功率为27%,至11月GPT-5.1-Codex-Max版本已提升至76%。
为应对潜在风险,OpenAI持续推进其《准备度框架》(Preparedness Framework)。该框架于2025年4月更新,聚焦三类可能造成“严重危害”的风险:生物与化学能力、网络安全能力,以及AI自我改进能力。其中,网络安全能力目前受到重点关注。该框架设定了可衡量的风险阈值,并明确在部署高能力模型前,须建立充分的安全保障措施。
OpenAI强调,不会在未有效降低严重危害风险的情况下部署相关模型,并将持续完善内部验证机制,确保防护措施充分有效。
该公司正加大对模型安全防护的投入,以提升其在网络安全防御中的实用性。目前已启动专项威胁情报与内部风险防控计划,强化模型对恶意请求的识别与拒止能力。尽管攻击者可能伪装成防御人员诱导模型生成有害内容,OpenAI仍致力于确保其技术为资源有限的防御方提供显著优势。当系统检测到潜在风险行为时,将采取阻断输出、转至安全性更高或能力受限的模型,或启动人工审核等措施。
此外,OpenAI正与红队服务商合作,通过模拟攻击测试现有安全机制,以期在网络犯罪分子发现漏洞前完成修复。公司还计划推出“可信访问计划”,向部分用户和合作伙伴开放具备增强能力的测试模型,用于网络安全防御场景,但相关权限将受到严格管控。OpenAI表示,仍在探索哪些功能可广泛开放,哪些需分级限制,该计划有望成为构建韧性生态体系的重要基础。
目前,该公司已将其安全研究代理工具Aardvark转入私有测试阶段。该工具可自动扫描代码库中的漏洞并提供修复建议,据称已发现多个开源软件中的新型CVE漏洞。同时,公司将在近期成立“前沿风险理事会”,初期聚焦人工智能在网络安全领域的风险与应对策略,后续将逐步扩展至其《准备度框架》所涵盖的其他风险类别。
业内专家提醒,人工智能作为新兴工具,其应用需审慎评估风险与收益。研究机构Gartner近期建议企业避免或禁用AI浏览器,以防提示注入攻击和数据泄露等安全威胁。
(以上内容均由Ai生成)