OpenAI 发布新模型,支持自定义安全策略应对风险

发布时间:2025年11月1日    来源:szf
OpenAI 发布新模型,支持自定义安全策略应对风险

快速阅读: OpenAI发布gpt-oss-safeguard-120b和gpt-oss-safeguard-20b两款新模型,支持自定义安全策略,提升分类灵活性与适应性,适用于多种安全需求,但也存在资源消耗大等问题。

近日,OpenAI 发布了两款新型开放式权重模型,分别为 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b,主要应用于 AI 安全领域。这两款模型在先前的 gpt-oss 系列基础上进行了优化,继续遵循 Apache 2.0 许可证,允许用户自由使用、修改及部署。

新模型的一大亮点在于,它们赋予了开发者根据自定义安全策略进行推理分类的能力,突破了传统“一刀切”的安全体系。开发者可以在推理过程中输入自己的安全策略和待检测内容,模型会依据这些策略进行分类,并给出相应的推理依据。安全策略的灵活性提高了模型的适应性和表现力,使其能够对用户消息、聊天回复乃至完整对话进行分类,满足不同场景的需求。

OpenAI 强调,这些新模型特别适用于以下几种情况:当潜在威胁正在出现或变化时,安全策略需迅速调整;在某些细分领域,传统的小型分类器难以有效应对;在开发者缺乏高质量样本的情况下,难以训练出高效的分类器;以及在分类结果的质量和可解释性比处理速度更重要的场合,这些新模型成为理想选择。

不过,gpt-oss-safeguard 也有其局限性。OpenAI 指出,若平台拥有大量标注样本并能训练传统分类器,在复杂或高风险环境中,后者可能表现更优,定制化模型的精度更高。同时,新模型在处理速度和资源消耗方面较大,不适合大规模实时内容审查。

目前,gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已在 Hugging Face 平台上免费提供,便于广大开发者探索和应用。链接如下:https://huggingface.co/collections/openai/gpt-oss-safeguard

要点总结:

– OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型,支持灵活自定义安全策略。

– 新模型可根据输入的安全策略对用户消息和对话进行分类,并提供推理依据。

– 尽管新模型具备多项优势,但在特定情况下,传统分类器可能更为有效,且新模型对资源的消耗较大。

(以上内容均由Ai生成)

你可能还想读

马克库班基金会AI训练营首站登陆福特韦恩市

马克库班基金会AI训练营首站登陆福特韦恩市

快速阅读: 印第安纳州韦恩堡举办马克·库班基金会AI训练营首场活动,该项目旨在向高中生介绍AI技术与伦理,计划11月前三个周六进行,每次5小时免费教学。 印第安纳州韦恩堡(WPTA)——周六,韦恩堡举办了马克·库班基金会AI训练营的首场活动 […]

发布时间:2025年11月2日
OpenAI CEO预计2027年收入达1000亿美元

OpenAI CEO预计2027年收入达1000亿美元

快速阅读: OpenAI CEO Sam Altman在《Bg2 Pod》中表示,公司收入远超130亿美元,正与多家科技巨头合作,计划大幅增长收入,目标2027年收入达1000亿美元,同时承认面临亏损和风险。 OpenAI首席执行官Sam […]

发布时间:2025年11月2日
习近平倡建全球AI治理机构,挑战美国地位

习近平倡建全球AI治理机构,挑战美国地位

快速阅读: 中国国家主席习近平在APEC峰会上提出建立全球人工智能治理机构,强调AI应惠及各国人民,推动国际社会合作。此举彰显中国在贸易和技术领域的领导地位。2026年APEC峰会将在中国深圳举行。 中国国家主席习近平在亚太经济合作组织(A […]

发布时间:2025年11月2日
英伟达显卡FG和MFG技术真能提升游戏体验吗?

英伟达显卡FG和MFG技术真能提升游戏体验吗?

快速阅读: 帧生成技术虽提升视觉流畅性,但在竞技游戏中因“假”帧导致输入延迟,影响玩家响应速度。此技术对单人游戏体验有益,但对竞技游戏性能指标存在误导。英伟达Reflex技术可部分缓解延迟问题。 为什么更高的FPS并非全部故事 虽然帧生成和 […]

发布时间:2025年11月2日
特斯拉推出FSD体验活动,乘客可与Grok AI互动

特斯拉推出FSD体验活动,乘客可与Grok AI互动

快速阅读: 特斯拉举办活动,参与者可体验最新监督版全自动驾驶功能、舒适设置及车内娱乐系统,同时与Grok人工智能互动,享受问答和故事讲述服务。 根据特斯拉官方骑行网站,本次活动将让参与者坐在驾驶座上,而特斯拉顾问则作为副驾陪同。特斯拉顾问将 […]

发布时间:2025年11月2日
AI生成《老友记》短剧令人不安

AI生成《老友记》短剧令人不安

快速阅读: 一段AI生成的《老友记》视频网上疯传,角色变形、动作异常,尽管声音逼真但台词僵硬,引发广泛质疑,突显AI视频生成技术缺陷。 本周,一段关于经典情景喜剧《老友记》的AI生成视频在网上疯传,其诡异程度令人难以观看。尽管场景看起来基本 […]

发布时间:2025年11月2日
汤森路透加速AI战略,打造开放式AI平台与智能助手

汤森路透加速AI战略,打造开放式AI平台与智能助手

快速阅读: 路透社拥有26,000名员工,通过构建“开放竞技场”平台推广AI技术,已收购8家公司加强AI基础,推出法律深度研究助理等产品,积极应对文化转型挑战,看好AI长期潜力。 路透社去年6月报道,拥有明显人工智能战略的组织比没有此类战略 […]

发布时间:2025年11月2日
帕兰蒂尔AI平台助力业务增长,股价预期超越2026年目标

帕兰蒂尔AI平台助力业务增长,股价预期超越2026年目标

快速阅读: 帕兰提尔AIP平台帮助企业轻松集成大型语言模型,降低学习难度,拓展应用机会;同时,帕兰提尔扩大政府合作,获100亿美元美军合同。 帕兰提尔的人工智能平台(AIP)显著增强了其成果,该平台允许企业在软件中添加大型语言模型,并通过自 […]

发布时间:2025年11月2日