OpenAI 发布新模型,支持自定义安全政策分类

发布时间:2025年10月30日    来源:szf
OpenAI 发布新模型,支持自定义安全政策分类

快速阅读: OpenAI发布gpt-oss-safeguard-120b和gpt-oss-safeguard-20b两款新模型,支持自定义安全政策进行推理分类,适用于多种安全场景,但资源消耗较大。

近日,OpenAI 发布了两款新型开放式权重模型,分别是 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b,专注于 AI 安全领域的应用。这些模型在之前的 gpt-oss 系列基础上进行了优化,继续遵循 Apache 2.0 许可证,允许任何人自由使用、修改和部署。

新模型的一大亮点在于,它们为开发者提供了根据自定义安全政策进行推理分类的能力,突破了传统的“一刀切”安全系统。开发者可以在推理时输入自己的安全政策和待检测内容,模型会根据这些政策进行分类,并提供相应的推理依据。安全政策可以根据需要灵活调整,以提升模型的表现。这使得 gpt-oss-safeguard 模型能够对用户消息、聊天回复乃至完整对话进行分类,满足不同需求。

OpenAI 指出,这种新模型尤其适用于以下几种特定情境:当潜在威胁正在出现或变化时,安全政策需要迅速适应;在某些高度专业化领域,传统的小型分类器难以有效应对;以及在开发者缺乏大量高质量样本时,难以训练出高效的分类器。此外,对于那些希望在分类结果的质量和可解释性上优先于处理速度的场景,这些新模型也是一个理想的选择。

然而,gpt-oss-safeguard 也存在一定的局限性。OpenAI 提到,如果平台拥有大量标注样本并能训练传统分类器,在复杂或高风险的场景中,传统分类器可能仍表现出更好的性能,定制化模型的精度更高。同时,新模型在处理速度和资源消耗方面较大,因此不太适合用于大规模的实时内容审查。

目前,gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已经可以在 Hugging Face 平台上免费下载,方便广大开发者进行探索和应用。链接如下:https://huggingface.co/collections/openai/gpt-oss-safeguard

要点总结:

– 🛡️ OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型,支持灵活自定义安全政策。

– ⚙️ 新模型可根据输入的安全政策对用户消息和对话进行分类,并提供推理依据。

– 📊 尽管新模型具有优势,但在某些情况下,传统分类器可能更有效,且新模型资源消耗较大。

(以上内容均由Ai生成)

你可能还想读

Chai Discovery完成1.3亿美元B轮融资

Chai Discovery完成1.3亿美元B轮融资

快速阅读: 据Chai Discovery消息,该公司近日完成1.3亿美元B轮融资,估值达13亿美元,资金将用于推进其药物发现基础模型及“分子计算机辅助设计套件”开发。其最新Chai2人工智能模型在从头设计抗体方面取得突破,显著提升成功率并 […]

发布时间:2025年12月16日
迪士尼授权OpenAI一年独家使用IP

迪士尼授权OpenAI一年独家使用IP

快速阅读: 据CNBC报道,迪士尼CEO艾格透露,公司与OpenAI签署的三年合作协议中仅包含一年独家授权期,涵盖漫威、星球大战等200多个IP供Sora视频生成器使用。一年后,迪士尼可与其他AI企业合作,以评估成效并探索更广泛布局,同时强 […]

发布时间:2025年12月16日
知识共享组织谨慎支持AI付费爬取技术

知识共享组织谨慎支持AI付费爬取技术

快速阅读: 据知识共享组织消息,该机构谨慎支持“付费爬取”技术,认为其可为小型出版商提供AI时代的内容补偿机制,同时强调需防范权力集中风险,主张系统应具备开放性与互操作性,并将纳入RSL许可标准以推动公平数据生态。 近日,非营利组织知识共享 […]

发布时间:2025年12月16日
OpenAI聘谷歌前高管加速并购布局

OpenAI聘谷歌前高管加速并购布局

快速阅读: 据OpenAI消息,公司近日聘请前谷歌高管Albert Lee出任企业发展业务负责人,以加速战略投资与并购布局。Lee曾主导Google DeepMind及谷歌云相关事务,并参与320亿美元收购Wiz等重大交易,此举旨在强化Op […]

发布时间:2025年12月16日
国产三款开源AI模型并列榜首

国产三款开源AI模型并列榜首

快速阅读: 据了解,中国开源AI大模型表现突出,DeepSeek、Qwen和Kimi并列榜首,凸显国内技术快速崛起;与此同时,美国开源模型影响力减弱,Meta或考虑终止后续开源计划。 在近期发布的开源AI大模型评比中,中国技术力量表现亮眼。 […]

发布时间:2025年12月16日
亚马逊“问问这本书”功能上线Kindle iOS

亚马逊“问问这本书”功能上线Kindle iOS

快速阅读: 据出版商午餐报道,亚马逊“问问这本书”AI功能已在Kindle iOS应用上线,支持用户回顾已读内容细节并进行追问,覆盖数千本英文畅销书。该功能默认开启且作者无法关闭,引发版权与内容控制权争议,公司计划于2026年扩展至Kind […]

发布时间:2025年12月16日
LG电视被曝预装无法卸载的微软Copilot

LG电视被曝预装无法卸载的微软Copilot

快速阅读: 据Engadget报道,微软正将Copilot AI助手预装至部分2022及2023款LG智能电视,用户无法卸载,引发隐私与设备自主权担忧;该应用是否出现可能与用户权限及隐私设置相关。 微软正加速将Copilot人工智能助手整合 […]

发布时间:2025年12月16日
韦氏词典年度词汇嘲讽AI垃圾内容

韦氏词典年度词汇嘲讽AI垃圾内容

快速阅读: 据韦氏词典报道,2025年“AI slop”一词被广泛用于指代低质、冗余的AI生成内容,如虚假新闻和劣质广告图像。该词带有戏谑贬义,强调盲目量产而非提升质量,区别于AI在编程等领域的有效应用。 2025年12月16日,随着人工智 […]

发布时间:2025年12月16日