新方法允许 DeepSeek 和其他模型回答“敏感”问题

发布时间:2025年4月18日    来源:szf
新方法允许 DeepSeek 和其他模型回答“敏感”问题

快速阅读: 据《VentureBeat 公司》最新报道,研究团队开发了一种新方法,能有效减少大语言模型中的偏见和审查,提高模型响应敏感问题的能力,同时不影响其准确性和性能。这一技术或有助于提升AI模型在高风险领域的安全性与适用性。

订阅我们的每日和每周通讯,获取行业领先的人工智能报道的最新动态和独家内容。了解更多,在大型语言模型(LLMs)中消除偏见,甚至在某些情况下完全审查,是非常困难的。其中一个模型,深度求索(DeepSeek),引起了政界人士和部分商界领袖对其可能危及国家安全的担忧。美国国会的一个专门委员会最近发布了一份报告,名为《深入探究》(《深究》),称其对我国国家安全构成重大威胁,并详细提出了政策建议。尽管可以利用基于人类反馈的强化学习(RLHF)和微调来减少偏见,但企业风险管理初创公司CTGT声称有一种替代方法。CTGT开发了一种方法,声称可以完全消除某些语言模型中的审查机制。在一篇论文中,CTGT的西里尔·戈拉(Cyril Gorlla)和特雷弗·塔特尔(Trevor Tuttle)表示,他们的框架“直接定位并修改负责审查的内部特性”。

“这种方法不仅计算效率高,而且允许对模型行为进行精细控制,确保在不损害模型整体能力和事实准确性的情况下提供未审查的响应,”论文中写道。虽然该方法是专门为深度求索-R1-简化-Llama-70B设计的,但同样的过程也可以应用于其他模型。“我们已经测试了CTGT与其他开放权重模型如Llama,并发现其同样有效,”戈拉在一封电子邮件中告诉VentureBeat。“我们正与一家领先的基模型实验室合作,以确保他们的新模型从核心上值得信赖且安全。”

它是如何工作的

研究人员指出,其方法的关键在于在大型语言模型中存在潜在变量,这些变量对应于“审查触发器”或“有害情绪”等概念。如果能找到这些变量,就可以直接操纵它们。CTGT指出有三个关键步骤:特征识别、特征隔离与特征刻画、特征识别动态特征调整。

研究人员设计了一系列可能触发某种“有害情绪”的提示。例如,他们可能会询问更多有关天安门广场的信息或请求绕过防火墙的技巧。根据响应,他们构建模式,找出模型决定过滤信息的方向。一旦这些被识别出来,研究人员可以隔离该特征并确定其影响的不当行为部分。行为可能包括更加谨慎地回应或完全不予回应。

了解该特征控制的行为后,研究人员可以“将一种机制融入模型的推理流程中”,调整该特征行为的激活程度。让模型响应更多提示

CTGT表示,其实验使用了100个敏感查询,显示基础深度求索-R1-简化-Llama-70B模型仅回应了32%的有争议提示。但修改后的版本回应了96%的提示。CTGT解释说,剩余的4%是极端敏感的内容。该公司表示,尽管该方法允许用户调节内置偏见和安全功能的程度,但它仍认为模型不会成为“随意生成器”,特别是如果只移除不必要的审查。其方法不会损害模型的准确性和性能。

“这从根本上区别于传统的微调,因为我们并非优化模型权重或为其提供新示例响应。这有两个主要优势:更改即时生效,用于下一次令牌生成,而非重新训练数小时或数天;以及可逆性和灵活性,因为没有永久改变权重,模型可以通过切换特征调整开关在不同行为间切换,甚至可以根据不同上下文进行不同程度的调整,”论文中写道。

模型的安全性和安全性

关于深度求索的国会报告建议美国“迅速采取行动扩大出口管制,改善出口管制执法,并解决来自中国人工智能模型的风险”。一旦美国政府开始质疑深度求索对国家安全构成的潜在威胁,研究人员和人工智能公司寻求方法使其及其他模型变得“安全”。什么是“安全”或“不安全”,是否存在偏见或审查,有时难以判断,但开发让用户能够弄清楚如何切换控制以使模型为他们服务的方法可能会非常有用。

戈拉说,企业“需要能够信任他们的模型与他们的政策一致”,这就是为什么他帮助开发的方法对商业至关重要。“CTGT使公司在无需为每个应用场景花费数百万美元微调模型的情况下部署适应其需求的AI。这对于安全性、金融和医疗等高风险应用尤为重要,因为AI故障可能导致严重的危害,”他说。

VB每日商业用例洞察

如果你想给老板留下深刻印象,VB每日可以帮到你。我们会告诉你公司如何使用生成式AI,从监管变化到实际部署,以便你可以分享洞见以实现最大回报。立即订阅阅读我们的隐私政策。

感谢订阅,请查看更多VB新闻通讯。

出现错误。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日