OpenAI警告武器化AI风险高并推防护计划
快速阅读: 据OpenAI消息,该公司正强化AI模型安全防护以应对网络攻击风险,已更新《准备度框架》并将网络安全列为重点,推出Aardvark漏洞扫描工具并计划成立前沿风险理事会,旨在提升防御能力、阻断恶意请求并限制高危功能开放。
近日,人工智能企业OpenAI发布多项举措,旨在防范其AI模型被滥用于网络攻击。该公司指出,随着AI技术快速发展,其在网络安全领域的潜在风险已达到“高”级别,亟需采取行动协助防御方应对挑战。
当前,AI模型如ChatGPT在提升效率的同时,也可能被恶意利用,例如用于自动化暴力破解、生成恶意软件或高仿真钓鱼内容,并优化攻击链路。近期已有不法分子通过间接提示注入等方式,利用AI聊天机器人和浏览器摘要功能传播诈骗信息。研究人员发现,部分AI功能甚至会引导用户访问恶意网站,个别AI助手还可能无意中创建后门,简化网络犯罪流程。
与此同时,AI亦可赋能防御体系。安全人员可借助其识别威胁、辅助训练专业人才,并承担告警分类等重复性任务,从而释放人力资源用于更高价值工作。
OpenAI表示,AI系统的网络攻防能力正快速演进。以“夺旗赛”(CTF)为测试基准,其GPT-5模型在2025年8月的成功率为27%,至同年11月的GPT-5.1-Codex-Max版本已升至76%。该公司预计,若此趋势持续,未来模型将具备开发针对高防护系统零日远程漏洞利用的能力,或显著协助复杂、隐蔽的企业级入侵行动。
为系统评估与管控风险,OpenAI于2025年4月更新《准备度框架》,聚焦三大高危领域:生化能力、网络安全能力及AI自我改进能力,其中网络安全被列为重点方向。该框架设定了可量化的风险阈值,并明确在部署高能力模型前,须建立充分的安全保障措施,以最大限度降低造成严重危害的可能性。
OpenAI近日表示,正加大对模型安全防护的投入,旨在提升其在网络安全防御中的实用性。该公司已启动专项威胁情报与内部风险防控计划,并对模型进行强化训练,以识别并拒绝恶意请求。尽管攻击者可能伪装成防御人员诱导模型生成有害内容,OpenAI仍致力于确保其技术为资源有限的防御方提供显著优势。当系统检测到潜在风险行为时,将采取阻断输出、转至安全性更高或能力受限的模型,或启动人工审核等措施。
此外,OpenAI正与红队(Red Team)服务商合作,通过模拟攻击测试现有安全机制,以期在网络犯罪分子发现漏洞前先行修复。公司还计划推出“可信访问计划”,向部分用户或合作伙伴开放具备增强能力的测试模型,用于网络安全防御用途,但该计划将实施严格管控。OpenAI表示,仍在探索哪些功能可广泛开放,哪些需分级限制,相关决策将影响该计划的未来设计,并希望其成为构建韧性生态体系的基础。
目前,OpenAI已将其安全研究代理工具Aardvark转入私有测试阶段。该工具可扫描代码库中的漏洞并提供修复建议,据称已在开源软件中发现多个新型CVE漏洞。同时,公司将在近期成立“前沿风险理事会”(Frontier Risk Council),初期聚焦人工智能在网络安全领域的风险与应对建议,后续将逐步扩展至其《准备度框架》所涵盖的其他风险类别。
业内提醒,人工智能作为新兴工具,需审慎部署。研究机构Gartner近期建议企业避免或禁用AI浏览器,以防提示注入攻击和数据泄露。各方应以评估传统新技术的方式,全面权衡AI应用的潜在收益与安全风险。
(以上内容均由Ai生成)