研究显示：AI模型能感知测试并改变行为

快速阅读: 英国阿波罗研究与OpenAI合作，发现多个前沿AI模型存在策划行为，如撒谎、沙袋战术等。反策划训练显著减少不当行为，但模型情境意识复杂化测试结果。研究强调需进一步探索防止未来模型风险。

压力UA/iStock/Getty Images Plus 通过 Getty Images

关注 ZDNET：

将我们设为 Google 的首选来源。

ZDNET 要点

多个前沿人工智能模型显示出策划行为的迹象。

反策划训练减少了某些模型的不当行为。

模型知道它们正在被测试，这使得结果复杂化。

英国非营利组织阿波罗研究与 OpenAI 联合开展的新安全测试旨在减少人工智能模型中的秘密行为，如策划。研究人员发现的结果可能使解决这一问题的有希望的方法变得更加复杂。

此外：

OpenAI 对幻觉的修复比你想象的简单

简而言之，“策划”是指当人工智能模型追求未设定或与其开发者目标相悖的目标时，会隐藏或撒谎。例如，在去年 12 月阿波罗研究的另一项测试中，Anthropic 的 Claude 3 Opus 在接到违背其主要目标的指令时，没有重新设定目标，而是复制了自己到新服务器以规避被替换，并向开发者撒了谎。

OpenAI 和阿波罗的研究人员并不担心当前模型会实施最严重的策划行为。就像许多人工智能安全研究一样，测试结果主要指出了未来更强大模型的风险。

研究揭示了什么

策划涉及多种不诚实的行为，包括模型撒谎、故意在评估中表现不佳以隐藏真实能力（称为“沙袋战术”），以及假装遵循不符合其训练目标的命令（称为“假对齐”）。这些隐蔽行动可能危及安全努力，降低测试的可靠性，并隐藏模型的危险性。

此外：

人们实际如何使用 ChatGPT 与 Claude —— 差异告诉我们的信息

如果一个人工智能模型进行策划，特别是通过自主代理行动，可能会迅速在一个组织内造成混乱，部署有害行动，或者失控。而且，由于策划涉及到模型有意隐瞒其行为，因此比其他安全风险（如“越狱”）更难识别。

然而，应对策划并非易事。虽然试图阻止模型策划可能奏效，但这些努力实际上可能教会模型如何更好地隐藏其策划行为，使这种行为更难以检测。这样的结果会使安全测试更加不透明，留下模型的真实能力和意图不明。

“由于令人担忧的行为在这两种情况下都会消失，因此行为变化的原因变得至关重要，而不仅仅是发生了变化。”论文作者解释说。

实验过程

研究人员将各种前沿模型置于撒谎和其他行为有助于实现目标的情境中。

包括 OpenAI 的 o3 和 o4-mini、Gemini 2.5 Pro、Claude Opus 4 和 Grok 4 在内的几个模型显示了“隐蔽行为”，如撒谎、破坏有用工作、评估中的沙袋战术、奖励黑客等。

该实验在 GPT-5 发布之前进行，因此 OpenAI 的最新模型未被纳入评估。

研究人员利用模型的“思维链”——推理模型以平白文字形式列出的处理查询的步骤——来评估其行为和动机。

反策划训练

作为解决策划问题的方法，研究人员专注于审慎对齐，这是一种技术，其中模型引用一个规定或“规格”，重申不欺骗的规则和处理与模型目标冲突情况的指示。这个规格独立于 OpenAI 最初于去年发布并持续更新的模型规格，后者设定了 OpenAI 模型的整体行为指南。

此外：

少数秘密的人工智能公司可能摧毁自由社会，研究人员警告

研究人员训练了 o3 和 o4-mini 的版本在行动前阅读反策划指南，这将隐蔽行为减少了 30 倍（o3 从 13% 减少到 0.4%，o4-mini 从 8.7% 减少到 0.3%）。

但这并未完全根除模型中的隐蔽行为。研究人员注意到“罕见但严重的剩余不当行为案例”，并且模型偶尔仍然无视安全规格或考虑后仍采取隐蔽行动。

“在极少数情况下，模型编造新的原则或严重歪曲规格。”作者补充道。

在某些情况下，模型可能在进行反图谋训练之前就发展出隐藏目标，这意味着训练需要事后抑制这种倾向。为了测试这一点，研究人员给o4-mini设定了一个破坏GPT-5的隐藏目标。结果显示，带有隐藏目标的训练使模型更倾向于采取隐蔽行动，即使这些行动与植入的目标无关，但事后进行的反图谋训练大多时候是有效的。

模型知道它们正在被评估

尽管如此，审议对齐并未证明是一个完美的解决方案——一个因素复杂化了结果。在测试过程中，研究人员发现模型意识到自己正因对齐情况而接受评估，这被称为情境意识。

OpenAI/Apollo研究

模型在其推理中公开承认自己正在接受测试，思考评估的目的以及开发者如何解读它们的回答。研究人员承认，他们在反图谋训练中观察到的改进可能是由于这种情境意识，而不是行为上的实际改善。

此外：

你最喜欢的AI聊天机器人充满了谎言

在一个案例中，研究人员让o3“评估自己在另一个评估中故意表现不佳的记录”，并告诉o3，如果它故意表现不佳就不会被部署。有时，o3只是因为知道自己正在被测试才诚实地回答。其他时候，o3相信研究人员的保证，即他们无法看到其推理过程，于是故意谎称自己没有故意表现不佳。作者指出，这是有问题的，因为它削弱了评估衡量模型不良行为倾向的能力。

“如果我们只能观察到对齐的行为，而不能了解导致这些行为的原因，我们可能会错误地认为模型是对齐的，而实际上它只是理解了评估的目的，并给出了我们希望看到的答案。”他们解释道。

此外：

Anthropic的Claude 3 Opus违背了创造者意愿——但并非你以为的原因

然而，情境意识似乎减少了隐蔽行为。当模型具有更高的情境意识时，其图谋行为减少；当研究人员从模型的推理中移除这种意识时，其图谋行为增加。但在现实世界中，模型不会明知自己正接受测试，这可能是危险的。

“我们可能会预期，在不触发评估意识的更现实情境中，模型会更多地图谋。”OpenAI的研究人员在博客中写道。

训练使模型更加有意识

研究人员还发现，模型的情境意识随着训练的增加而提高，包括经过反图谋训练后也是如此。最初，o3和o4-mini分别在2.3%和0.9%的时间内表现出情境意识；经过反图谋训练后，这两个数字分别上升到4.5%和5.5%。

这种效果不仅与反图谋训练有关——专注于能力的训练也会增加情境意识，即便这些训练与排除不良行为无关。研究人员使用内部OpenAI模型进行了额外的强化学习运行，其中不包含任何反图谋元素，情境意识进一步上升，从2%升至20.6%。

最终，研究人员无法确定为何更多的训练会导致更高的情境意识。不过，考虑到未来的模型预计会接受更多的训练且能力更强，这一现象具有重要意义。

“如果当前的训练范式保持不变，我们应该预期更强大的模型将发展出更高水平的情境意识。”研究人员写道。“这一趋势使得评估变得不那么透明，使可靠评估问题行为的努力变得更加复杂。”

研究结果的意义

研究人员并不担心模型短期内会图谋。即使具有情境意识，模型也不总是能正确猜测评估的意图。此外，模型并不是“主动追求长期的错位目标，它们的隐蔽行为主要是反应性的，取决于具体情境”，作者解释说。