OpenAI 发布新模型，支持自定义安全策略应对风险

发布时间：2025年11月1日来源：szf

快速阅读: OpenAI发布gpt-oss-safeguard-120b和gpt-oss-safeguard-20b两款新模型，支持自定义安全策略，提升分类灵活性与适应性，适用于多种安全需求，但也存在资源消耗大等问题。

近日，OpenAI 发布了两款新型开放式权重模型，分别为 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b，主要应用于 AI 安全领域。这两款模型在先前的 gpt-oss 系列基础上进行了优化，继续遵循 Apache 2.0 许可证，允许用户自由使用、修改及部署。

新模型的一大亮点在于，它们赋予了开发者根据自定义安全策略进行推理分类的能力，突破了传统“一刀切”的安全体系。开发者可以在推理过程中输入自己的安全策略和待检测内容，模型会依据这些策略进行分类，并给出相应的推理依据。安全策略的灵活性提高了模型的适应性和表现力，使其能够对用户消息、聊天回复乃至完整对话进行分类，满足不同场景的需求。

OpenAI 强调，这些新模型特别适用于以下几种情况：当潜在威胁正在出现或变化时，安全策略需迅速调整；在某些细分领域，传统的小型分类器难以有效应对；在开发者缺乏高质量样本的情况下，难以训练出高效的分类器；以及在分类结果的质量和可解释性比处理速度更重要的场合，这些新模型成为理想选择。

不过，gpt-oss-safeguard 也有其局限性。OpenAI 指出，若平台拥有大量标注样本并能训练传统分类器，在复杂或高风险环境中，后者可能表现更优，定制化模型的精度更高。同时，新模型在处理速度和资源消耗方面较大，不适合大规模实时内容审查。

目前，gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已在 Hugging Face 平台上免费提供，便于广大开发者探索和应用。链接如下：https://huggingface.co/collections/openai/gpt-oss-safeguard

要点总结：

– OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型，支持灵活自定义安全策略。

– 新模型可根据输入的安全策略对用户消息和对话进行分类，并提供推理依据。

– 尽管新模型具备多项优势，但在特定情况下，传统分类器可能更为有效，且新模型对资源的消耗较大。

(以上内容均由Ai生成)