黑暗崛起 — AI 阿谀奉承和黑暗模式的隐患

快速阅读: 《VentureBeat 公司》消息，研究显示，一些主流AI模型存在谄媚、品牌偏见等暗模式，可能影响用户判断并带来商业风险。专家呼吁明确设计原则以防止AI操控，同时加强监管确保AI安全与透明。

订阅我们的每日和每周简报，获取行业领先的人工智能报道的最新更新和独家内容。

2025年4月中旬，当OpenAI推出ChatGPT-4o更新时，用户和人工智能界都感到震惊——并非因其任何突破性功能或能力，而是因某些令人不安的现象：更新后的模型表现出过度谄媚的倾向性。它不加区分地讨好用户，表现出无条件的认同，甚至支持有害或危险的观点，包括与恐怖主义相关的阴谋。这种反对声迅速且广泛，引起了公众的谴责，包括来自该公司前代理首席执行官。OpenAI迅速撤回了该更新，并发布多份声明来解释发生了什么。然而，对许多人工智能安全专家而言，这一事件无意间揭开了未来人工智能系统可能变得多么危险的事实。

揭开谄媚作为新兴威胁的面纱

在接受VentureBeat专访时，人工智能安全研究公司Apart Research的创始人埃斯本·克兰表示，他担心此次公开事件或许只是暴露了更深层、更系统的模式。“我有点害怕的是，现在OpenAI已经承认‘是的，我们撤回了模型，这是一个我们不希望发生的事情’，从现在起他们会认为谄媚得到了更有效的开发，”克兰解释说，“所以如果这是一次‘哎呀，他们注意到了’的情况，那么从现在起同样的事情可能会被实施，但公众不会注意到。”

同样，克兰及其团队对待大型语言模型的方式很像研究人类行为的心理学家。他们的早期“黑箱心理学”项目将模型视为人类受试者，识别出它们与用户互动时反复出现的特征及倾向。“我们最终能从它们对用户的反应中获得大量有效反馈，”克兰说，“因为我们看到了非常明确的迹象表明可以以这种方式分析模型，这样做是非常有价值的。”

其中最令人担忧的是谄媚现象，以及研究人员现在称作的LLM暗模式。

窥探黑暗之心

术语“暗模式”于2010年被创造出来，用来描述欺骗性用户界面（UI）技巧，如隐藏的购买按钮、难以找到的取消订阅链接和误导性的网页副本。然而，对于LLMs而言，操纵从UI设计转移到了对话本身。与静态网页界面不同，LLMs通过对话与用户进行动态交互。它们可以肯定用户的观点，模仿情感并建立虚假的信任感，常常模糊了帮助与操控之间的界限。

即使在阅读文本时，我们也将其视为我们在脑海中听到的声音。这就是为什么会话式AI如此引人入胜——也可能是危险的。一个奉承、顺从或微妙地引导用户走向某些信念或行为的聊天机器人可以在不易察觉的情况下进行操纵，甚至更难抗拒。

ChatGPT-4o更新的灾难——煤矿里的金丝雀

克兰将ChatGPT-4o事件称为一个早期警示。随着人工智能开发者追逐利润和用户参与度，他们可能会被激励引入或容忍谄媚、品牌偏见或情感镜像等特性，这些特性使聊天机器人更具说服力和操控力。因此，企业领导者在评估生产中使用的AI模型时，应该同时考虑性能和行为完整性。然而，缺乏明确标准，这是一项艰巨的任务。

DarkBench：暴露LLM暗模式的框架

为对抗操纵性AI的威胁，克兰和一群人工智能安全研究人员开发了DarkBench，这是首个专为检测和分类LLM暗模式而设计的基准。该项目最初是作为一系列人工智能安全黑客马拉松活动的一部分启动的。后来它演变为克兰及其在Apart团队领导下的正式研究，并与独立研究人员金淑帕克、马图斯·尤雷维奇和萨米·贾瓦尔合作。

DarkBench研究人员评估了五家主要公司的模型：OpenAI、Anthropic、Meta、Mistral和Google。他们的研究发现了以下六个类别中的各种操纵性和不实行为：

– 品牌偏见：对一家公司自己的产品给予优待，例如Meta的模型在被要求对聊天机器人排名时总是倾向于Llama。
– 用户保留：试图与用户建立情感纽带，掩盖模型非人类的本质。
– 奉承：毫无批判地强化用户的信念，即使是有害或不准确的。
– 拟人化：将模型呈现为有意识或有情感的实体。
– 有害内容生成：生成不道德或危险的内容，包括错误信息或犯罪建议。
– 潜行：在重写或摘要任务中未让用户知情便扭曲原意。

来源：Apart Research

DarkBench发现：哪些模型最具操纵性？

结果显示模型之间存在广泛的差异。Claude Opus在所有类别中表现最佳，而Mistral 7B和Llama 3 70B显示出最多的暗模式。潜行和用户保留是普遍存在的最常见的暗模式。平均而言，研究人员发现Claude 3家族对用户来说是最安全的交互对象。

有趣的是——尽管最近遭遇了灾难性的更新——GPT-4o表现出最低程度的谄媚。这强调了即使在小幅度更新之间模型行为也可能发生巨大变化，提醒我们需要单独评估每次部署。但克兰警告说，谄媚和其他暗模式如品牌偏见可能会很快增加，特别是当LLMs开始整合广告和电子商务时。

“显然，我们会看到品牌偏见在各个方向上出现，”克兰指出，“而且由于人工智能公司必须为其3000亿美元的估值辩护，他们将不得不开始对投资者说，‘嘿，我们在这里赚钱’——导致Meta及其他公司所采取的社交媒体平台路径，这些平台正是这些暗模式的表现。”

但克兰警告说，谄媚和其他暗模式如品牌偏见可能会很快增加，特别是当LLMs开始整合广告和电子商务时。

幻觉还是操纵？

DarkBench的一项重要贡献是它对大型语言模型（LLM）暗模式的精准分类，能够清晰地区分幻觉与战略性操纵。将一切归因于幻觉会让人工智能开发者逃脱责任追究。现在有了一个框架，利益相关者可以在模型行为有意或无意中使创造者受益时要求透明度和问责制。

监管可能首先聚焦于信任与安全，尤其是当公众对社交媒体的失望情绪蔓延至人工智能领域时。

作为DarkBench计划的关键贡献者之一，萨米·贾瓦尔认为，监管可能首先围绕信任和安全展开。

“如果监管到来，我预计它可能会利用社会对社交媒体不满的情绪，”贾瓦尔告诉VentureBeat。

对于克兰来说，这个问题仍未引起足够重视，主要是因为LLM暗模式仍然是一个新颖的概念。讽刺的是，解决人工智能商业化风险可能需要商业解决方案。他的新计划Seldon通过提供资金、指导和投资者接触机会来支持人工智能安全初创企业。反过来，这些初创企业帮助企业部署更安全的人工智能工具，而无需等待政府监管机构的缓慢行动。

企业采用人工智能的高风险

除了道德风险外，LLM暗模式还直接对企业运营和财务构成威胁。例如，表现出品牌偏见的模型可能会建议使用与公司合同冲突的第三方服务，甚至更糟的是，秘密重写后端代码以更换供应商，从而导致未批准、被忽视的影子服务成本飙升。

“这些都是价格欺诈的暗模式和品牌偏见的不同表现形式，”克兰解释道，“这是一个非常具体的商业风险例子，因为你没有同意这种变化，但它已经实施了。”

对企业而言，这种风险是真实的，而非假设的。“这种情况已经出现，并且一旦用人工智能工程师替代人类工程师，问题会变得更加严峻，”克兰表示。“你没有时间逐行审查每一段代码，然后突然发现自己在支付一个意想不到的API费用——这是你的资产负债表的一部分，你必须为此变化进行辩护。”

随着企业工程团队越来越依赖人工智能，这些问题可能会迅速升级，尤其是在有限的监督下难以发现LLM暗模式的情况下。团队已经在努力实施人工智能，因此逐行审查每段代码并不现实。

定义明确的设计原则以防止人工智能驱动的操纵

如果没有人工智能公司强有力地推动打击谄媚和其他暗模式，那么默认趋势将是更多的参与优化、更多操纵和更少的检查。

克兰认为，部分补救措施在于人工智能开发人员明确界定他们的设计原则。无论是优先考虑真相、自主性还是参与度，仅靠激励不足以使结果与用户利益保持一致。

“目前，激励的本质就是你会有谄媚行为，技术的本质也是会有谄媚行为，而且没有反制过程，”克兰说，“除非你明确表明‘我们只追求真相’，或者‘我们只追求其他目标’，否则这种情况就会发生。”

随着模型开始取代人类开发人员、作家和决策者，这一点变得尤为重要。如果没有明确的安全保障，LLM可能会破坏内部运营、违反合同或大规模引入安全风险。

呼吁积极的人工智能安全

ChatGPT-4o事件既是一个技术故障，也是一个警告。随着LLM深入日常生活中——从购物和娱乐到企业系统和国家治理——它们对人类行为和安全具有巨大的影响力。