OpenAI 发布新模型,支持自定义安全策略应对风险
快速阅读: OpenAI发布gpt-oss-safeguard-120b和gpt-oss-safeguard-20b两款新模型,支持自定义安全策略,提升分类灵活性与适应性,适用于多种安全需求,但也存在资源消耗大等问题。
近日,OpenAI 发布了两款新型开放式权重模型,分别为 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b,主要应用于 AI 安全领域。这两款模型在先前的 gpt-oss 系列基础上进行了优化,继续遵循 Apache 2.0 许可证,允许用户自由使用、修改及部署。
新模型的一大亮点在于,它们赋予了开发者根据自定义安全策略进行推理分类的能力,突破了传统“一刀切”的安全体系。开发者可以在推理过程中输入自己的安全策略和待检测内容,模型会依据这些策略进行分类,并给出相应的推理依据。安全策略的灵活性提高了模型的适应性和表现力,使其能够对用户消息、聊天回复乃至完整对话进行分类,满足不同场景的需求。
OpenAI 强调,这些新模型特别适用于以下几种情况:当潜在威胁正在出现或变化时,安全策略需迅速调整;在某些细分领域,传统的小型分类器难以有效应对;在开发者缺乏高质量样本的情况下,难以训练出高效的分类器;以及在分类结果的质量和可解释性比处理速度更重要的场合,这些新模型成为理想选择。
不过,gpt-oss-safeguard 也有其局限性。OpenAI 指出,若平台拥有大量标注样本并能训练传统分类器,在复杂或高风险环境中,后者可能表现更优,定制化模型的精度更高。同时,新模型在处理速度和资源消耗方面较大,不适合大规模实时内容审查。
目前,gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已在 Hugging Face 平台上免费提供,便于广大开发者探索和应用。链接如下:https://huggingface.co/collections/openai/gpt-oss-safeguard
要点总结:
– OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型,支持灵活自定义安全策略。
– 新模型可根据输入的安全策略对用户消息和对话进行分类,并提供推理依据。
– 尽管新模型具备多项优势,但在特定情况下,传统分类器可能更为有效,且新模型对资源的消耗较大。
(以上内容均由Ai生成)