OpenAI 推出实时更新开源AI安全模型
快速阅读: OpenAI发布gpt-oss-safeguard,支持实时策略解读,无需重新训练即可适应更新,降低维护成本,增强透明度,促进AI安全标准化。
OpenAI 今日宣布推出全新的开源安全模型套件 gpt-oss-safeguard,旨在为 AI 系统提供更加灵活、透明和可审计的安全分类能力。该模型有 120 位和 20 位两个版本,以 Apache 2.0 许可证开放,允许开发者自由使用、修改和集成。
与传统安全分类器不同,gpt-oss-safeguard 支持“实时策略解读”,即当安全或内容规则发生变化时,模型无需重新训练即可即时适应更新。这大大降低了安全系统的维护成本,使企业和机构能够更快地应对不断变化的合规与内容安全需求。
在透明度方面,OpenAI 表示 gpt-oss-safeguard 的架构允许开发者直接查看模型的决策过程,更直观地理解其判断逻辑,便于审计与优化。这一设计回应了外界对 AI 黑箱问题的长期担忧,也为构建可信的 AI 安全生态系统提供了新的技术范式。
值得一提的是,gpt-oss-safeguard 是建立在 OpenAI 自家的开源模型 gpt-oss 之上的,并作为 OpenAI 与 ROOST 平台(专注于 AI 安全、保障与治理基础设施的开源社区)合作的成果推出。OpenAI 称,该项目的目标是促进全球范围内更开放、负责任的 AI 安全标准化进程。
(以上内容均由Ai生成)