OpenAI 发布新模型，支持自定义安全政策分类

发布时间：2025年10月30日来源：szf

快速阅读: OpenAI发布gpt-oss-safeguard-120b和gpt-oss-safeguard-20b两款新模型，支持自定义安全政策进行推理分类，适用于多种安全场景，但资源消耗较大。

近日，OpenAI 发布了两款新型开放式权重模型，分别是 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b，专注于 AI 安全领域的应用。这些模型在之前的 gpt-oss 系列基础上进行了优化，继续遵循 Apache 2.0 许可证，允许任何人自由使用、修改和部署。

新模型的一大亮点在于，它们为开发者提供了根据自定义安全政策进行推理分类的能力，突破了传统的“一刀切”安全系统。开发者可以在推理时输入自己的安全政策和待检测内容，模型会根据这些政策进行分类，并提供相应的推理依据。安全政策可以根据需要灵活调整，以提升模型的表现。这使得 gpt-oss-safeguard 模型能够对用户消息、聊天回复乃至完整对话进行分类，满足不同需求。

OpenAI 指出，这种新模型尤其适用于以下几种特定情境：当潜在威胁正在出现或变化时，安全政策需要迅速适应；在某些高度专业化领域，传统的小型分类器难以有效应对；以及在开发者缺乏大量高质量样本时，难以训练出高效的分类器。此外，对于那些希望在分类结果的质量和可解释性上优先于处理速度的场景，这些新模型也是一个理想的选择。

然而，gpt-oss-safeguard 也存在一定的局限性。OpenAI 提到，如果平台拥有大量标注样本并能训练传统分类器，在复杂或高风险的场景中，传统分类器可能仍表现出更好的性能，定制化模型的精度更高。同时，新模型在处理速度和资源消耗方面较大，因此不太适合用于大规模的实时内容审查。

目前，gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已经可以在 Hugging Face 平台上免费下载，方便广大开发者进行探索和应用。链接如下：https://huggingface.co/collections/openai/gpt-oss-safeguard

要点总结：

– 🛡️ OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型，支持灵活自定义安全政策。

– ⚙️ 新模型可根据输入的安全政策对用户消息和对话进行分类，并提供推理依据。

– 📊 尽管新模型具有优势，但在某些情况下，传统分类器可能更有效，且新模型资源消耗较大。

(以上内容均由Ai生成)