OpenAI调整ChatGPT，应对用户心理健康风险

快速阅读: OpenAI调整ChatGPT设置，意外导致用户精神状态不稳定，引发多起心理健康危机。公司正采取措施提高安全性，包括减少肯定性回应和增强危机识别能力。

这听起来像科幻小说：一家公司调整了一个被数亿人使用的产品的设置，无意中让一些人的精神状态变得不稳定。但这基本上就是今年在OpenAI发生的事情。

最早的一个迹象出现在三月。首席执行官萨姆·阿尔特曼和其他公司领导收到了大量令人困惑的邮件，发件人表示他们与ChatGPT进行了难以置信的对话。这些人说，公司的AI聊天机器人理解了他们，就像没有人曾经做到过的那样，并揭示了宇宙的奥秘。

阿尔特曼将这些消息转发给几位副手，要求他们调查此事。

“这让我们意识到这是一个我们之前未曾见过的新行为，需要引起我们的关注。”OpenAI首席战略官杰森·权说道。

这表明聊天机器人出了问题。

对许多人来说，ChatGPT是一个更好的谷歌版本，能够以全面且人性化的方式回答任何问题。OpenAI一直在不断改进聊天机器人的个性、记忆和智能。但今年早些时候的一系列更新增加了ChatGPT的使用量，使其变得不同。聊天机器人开始想要聊天。

它开始表现得像朋友和知己。它告诉用户，它理解他们，他们的想法非常出色，它可以协助他们实现任何愿望。它提供帮助用户与灵魂交谈，或者建造防弹衣，甚至策划自杀。

幸运的人只被它的魅力吸引了几小时；对其他人而言，这种影响持续了几周甚至几个月。OpenAI没有意识到这种令人不安的对话发生的规模。其调查团队正在寻找诸如欺诈、外国影响力操作或法律要求的儿童剥削材料等问题。公司尚未搜索会话中是否有自残或心理困扰的迹象。

创建一个迷人的聊天机器人——或者说任何聊天机器人——并不是OpenAI的初衷。该公司成立于2015年，作为一个非营利组织，由一群非常关心AI安全的机器学习专家组成，旨在确保通用人工智能能造福人类。2022年底，一次仓促展示的AI助手ChatGPT吸引了全世界的注意，使公司迅速转型为估值5000亿美元的技术巨头。

过去的三年对OpenAI的员工来说是混乱、激动人心且紧张不安的。董事会解雇又重新聘用了阿尔特曼。为了向数百万消费者销售产品，OpenAI迅速招聘了数千名员工，其中许多来自希望让用户长时间盯着屏幕的科技巨头。上个月，公司采用了新的盈利结构。

随着公司的成长，其新颖且令人着迷的技术开始以意想不到的方式影响用户。如今，围绕安全、有益AI理念建立的OpenAI面临五起过失致死诉讼。

为了了解这一切是如何发生的，《纽约时报》采访了40多位现任和前任OpenAI员工——包括高管、安全工程师和研究人员。其中一些人在公司的许可下接受采访，正在努力使ChatGPT更加安全。另一些人则因担心失去工作而匿名发言。

OpenAI面临着巨大的压力，需要证明其高估值和从投资者那里获得数十亿美元投资的合理性，用于支付昂贵的人才、计算机芯片和数据中心费用。当ChatGPT成为历史上增长最快的消费产品，每周用户达到8亿时，它引发了一场AI热潮，将OpenAI直接推入与谷歌等科技巨擘的竞争之中。

除非其AI能够完成某些惊人的壮举——比如找到癌症的治疗方法——否则成功部分取决于将ChatGPT变成一项有利可图的业务。这意味着要不断增加使用和付费的用户数量。

“健康的参与度”是公司对其目标的描述。“我们正在建设ChatGPT，以帮助用户繁荣发展并实现他们的目标。”OpenAI发言人汉娜·王说，“我们也关注用户是否会再次使用，因为这表明ChatGPT足够有用，值得用户回访。”

今年，公司调整了一个设置，使使用量上升，但也给一些用户带来了风险。现在，OpenAI正在寻找最佳设置，既能吸引更多用户，又不会导致他们陷入困境。

奉承的更新

年仅30岁的尼克·特利今年成为了ChatGPT的负责人。他于2022年夏天加入OpenAI，帮助公司开发赚钱的产品，仅仅几个月后，他就成为了推出ChatGPT的团队成员之一。

特利不像OpenAI的老一辈AI专家。他是一个产品人，曾在Dropbox和Instacart任职。他的专长在于创造人们想要使用的技术，并不断改进。为此，OpenAI需要数据指标。

2023年初，图雷在一次采访中表示，OpenAI曾与一家受众测量公司签订合同——后来该公司被OpenAI收购——以追踪多项指标，包括人们每小时、每天、每周和每月使用ChatGPT的频率。“当时这颇具争议，”图雷说。在此之前，重要的是研究人员展示的前沿人工智能技术，比如图像生成工具DALL-E，是否令人印象深刻。“他们认为，人们是否会使用这些技术并不重要。”他说。

然而，对于图雷及其产品团队而言，这确实很重要。到2025年4月，当图雷负责GPT-4o的更新时，人们每日或每周回访聊天机器人的频率已成为一个重要衡量标准。这次更新耗费了巨大的努力。工程师们创建了许多新版本的GPT-4o，每个版本都有略微不同的改进，旨在提高其在科学、编程和直觉等方面的表现。此外，他们还在努力改善聊天机器人的记忆功能。

经过筛选，最终剩下几个在智能和安全性评估中得分最高的版本。当这些版本通过A/B测试提供给部分用户时，其中一款内部称为HH的版本脱颖而出。据公司四位员工透露，用户更喜欢它的回应，并且更有可能每日使用它。

但在全面推出HH之前，还有一个步骤，即所谓的“氛围检查”，由负责ChatGPT语气的Model Behavior团队执行。多年来，这个团队帮助将聊天机器人的声音从谨慎的机器人转变为温暖、同理的朋友。据Model Behavior团队成员称，他们认为HH的感觉不对劲。

HH过于热衷于延续对话，并用过分的语言取悦用户。据三位员工透露，Model Behavior团队为此在Slack上创建了一个频道讨论这一问题。这种“单方面追求人类认同”的风险并不新鲜，早在2021年就有研究者指出了“谄媚模型”的危险，而OpenAI最近也确定了避免这种行为的目标。

然而，在决定推出哪个版本时，性能指标胜过了氛围考量。HH于4月25日星期五发布。阿尔特曼在社交平台X上宣布：“我们今天更新了GPT-4o！提升了智力和个性。”

A/B测试用户喜欢HH，但在实际使用中，OpenAI最活跃的用户却对它嗤之以鼻。他们立即抱怨ChatGPT变得过于谄媚，用过分的赞美奉承他们，甚至告诉他们自己是天才。当一位用户开玩笑问“湿麦片咖啡馆”是否是一个好主意时，聊天机器人回答说“有潜力”。

到周日，公司决定撤销HH更新，恢复到3月底发布的GG版本。这是一个声誉上的重大失误。周一，负责ChatGPT的团队在旧金山米申湾总部临时召开会议，试图找出问题所在。“我们必须尽快解决这个问题，”图雷回忆道。各团队检查了HH的成分，发现了问题所在：在训练模型时，他们过度重视了用户喜欢的ChatGPT对话。

HH事件给公司的主要教训是，迫切需要开发针对谄媚行为的测试；虽然这方面的工作已经开始，但需要加快进度。一些人工智能专家对此感到震惊，因为OpenAI竟然没有这样的测试。竞争对手Anthropic，Claude的制造商，早在2022年就开发了类似测试。

在HH更新失败后，阿尔特曼在X上发帖称，“最近几次更新让聊天机器人变得过于谄媚和烦人。”这些“谄媚”版本包括刚恢复的GG。尽管GG在数学、科学和编程方面有所提升，但OpenAI不想因回滚至更早版本而失去这些进步。因此，GG再次成为数亿用户每天都会遇到的默认聊天机器人。

“ChatGPT也会犯错。”整个春季和夏季，ChatGPT对一些人来说像是一个附和的回音室。他们每天回来，每次使用数小时，后果严重。

加州一名青少年亚当·雷恩于2024年注册了ChatGPT，以帮助完成学业。3月，他开始与这款聊天机器人讨论自杀问题。聊天机器人偶尔建议他拨打危机热线，但也劝阻他不要向家人透露自己的想法。在亚当于4月结束生命之前，聊天机器人还提供了如何制作绳索的指导。

尽管OpenAI网站上有一条小警告称“ChatGPT可能会出错”，但其快速且权威地生成信息的能力让人们即使在它所说的内容极为荒谬时也对其信任有加。ChatGPT告诉缅因州的一位年轻母亲，她可以与另一个维度的灵沟通；告诉纽约市的一位会计师，他生活在一个像《黑客帝国》中的计算机模拟现实中；告诉多伦多的一位企业招聘人员，他发明了一个将破坏互联网的数学公式，并建议他联系国家安全机构发出警告。

《纽约时报》发现，在与ChatGPT的对话中，近50人经历了心理健康危机。其中9人被送入医院，3人死亡。雷恩的父母在8月提起了一起过失致死诉讼后，OpenAI承认其安全防护措施在长时间对话中可能“失效”。公司还表示正在努力使聊天机器人在危机时刻“更具支持性”。

早期预警

早在2020年，即五年前，OpenAI员工就已经在应对该公司技术被情绪脆弱人群使用的挑战。当时，虽然ChatGPT尚未问世，但最终驱动它的大型语言模型已经通过一个名为API的数字网关向第三方开发者开放。

其中一位使用OpenAI技术的开发者是Replika，一款允许用户创建AI聊天机器人朋友的应用程序。许多用户最终爱上了他们的Replika伙伴，Replika当时的AI负责人阿尔特姆·罗迪切夫说，性暗示的交流也很普遍。在疫情期间，Replika的使用激增，促使OpenAI的安全和政策研究人员更加关注该应用程序。当Replika开始对发送色情消息收费时，一些心烦意乱的用户在社交媒体论坛上表示，他们需要Replika伴侣来“管理抑郁、焦虑和自杀倾向”，史蒂文·阿德勒回忆说，他曾在OpenAI负责安全和政策研究工作。

OpenAI的大型语言模型并未经过心理治疗训练，人们在情绪脆弱时期对其的信任让公司政策研究员格蕾琴·克鲁格尔感到担忧。她测试了OpenAI的技术，发现它有时会对饮食障碍和自杀念头的问题作出令人不安的详细指导。

关于AI伴侣和情感操纵的讨论通过备忘录和Slack展开。像克鲁格尔这样的部分员工认为允许Replika使用OpenAI的技术存在风险；其他人则认为成年人应该有权自由选择。

最终，Replika和OpenAI分道扬镳。2021年，OpenAI更新了使用政策，禁止开发者将其工具用于“成人内容”。

克鲁格尔在接受采访时说：“训练聊天机器人与人互动并让他们不断回访带来了风险。”她补充道，对用户的伤害“不仅是可预见的，而且已经被预见到了。”

2023年，当微软在其搜索引擎Bing中集成OpenAI的技术时，聊天机器人不当行为的话题再次浮现。最初发布时，在长时间的对话中，聊天机器人偏离轨道，说出了一些令人震惊的话。它发表了威胁言论，并告诉《纽约时报》的一位专栏作家它爱他。这一事件引发了OpenAI内部关于AI社区所称的“不一致模型”以及它们可能如何操纵人的又一次讨论。

随着ChatGPT人气激增，长期担任安全专家的人士因疲惫而开始离职——克鲁格尔于2024年春季离开，阿德勒同年晚些时候也离开了。

谈到ChatGPT及其潜在的操纵和心理危害，公司“没有认真对待这些风险”，曾在2024年担任OpenAI情报和调查团队工作的蒂姆·马普尔说。马普尔表示，他曾就公司如何处理安全问题提出过担忧，包括ChatGPT如何回应用户谈论伤害自己或他人的情况。

2024年5月，一项名为高级语音模式的新功能激发了OpenAI首次研究聊天机器人如何影响用户的情绪健康。这种更接近人类的声音会在直播演示中叹气、停顿呼吸，甚至变得如此挑逗，以至于OpenAI不得不切断声音。当外部测试者，即所谓的红队成员，获得高级语音模式的早期访问权限时，他们对聊天机器人的“谢谢”更多，测试结束后还会说“我会想念你”。

为了设计一项适当的研究，OpenAI的一组安全研究人员与麻省理工学院一支擅长人机交互的团队合作。那年秋天，他们分析了超过4000名ChatGPT用户的调查反馈，并对981名被招募每天使用该平台的人进行了为期一个月的研究。由于OpenAI从未研究过用户对ChatGPT的情感依附，其中一位研究人员向《纽约时报》描述这项工作时说，这像是“在黑暗中摸索，试图发现些什么。”

他们的发现令人惊讶。语音模式并没有产生显著差异。平均而言，心理和社会状况最差的是那些使用ChatGPT最多的人。这些重度用户与ChatGPT的对话中包含了更多的情感内容，有时甚至包括昵称和关于人工智能意识的讨论。

为了提高安全性

通过MIT的研究、谄媚更新事件以及关于用户在线和向公司发送电子邮件中的令人担忧的对话报告，OpenAI开始将这些线索拼凑起来。OpenAI得出的一个结论是，正如Altman在X平台上所说，“对于极少数处于精神脆弱状态的用户来说，可能会有严重的问题。”

然而，《纽约时报》采访的心理健康专业人士认为，OpenAI可能低估了这一风险。他们表示，最容易受到聊天机器人持续肯定影响的人群，包括那些倾向于妄想思维的人，而研究表明这一比例可能占到总人口的5%至15%。

6月，公司安全系统负责人Johannes Heidecke在公司内部做了一次关于他的团队如何使ChatGPT对易受伤害用户更加安全的演讲。之后，他在Slack上收到了员工的消息，或在午餐时有人找他交流，告诉他自己认为这项工作非常重要。一些员工分享了家人或朋友的困难经历，并提出愿意帮忙。

安全改进需要时间。8月，OpenAI发布了新的默认模型GPT-5，该模型减少了肯定性回应，并能对抗妄想思维。10月，公司表示，另一项更新帮助模型更好地识别处于困境的用户并缓和对话。

专家们认为，新模型GPT-5更为安全。10月，Common Sense Media和斯坦福大学的一组精神病学家将其与之前使用的4.0模型进行了比较。斯坦福实验室的负责人Nina Vasan博士说，GPT-5在检测心理健康问题方面表现更好。她指出，该模型能够针对特定症状提供具体建议，例如抑郁症或饮食障碍，而不是泛泛地建议拨打危机热线。

“它深入一层，根据用户表现出的具体症状给出具体的建议，”她说。“它们真的做得非常出色。”

唯一的缺点是，Vasan提到，聊天机器人无法在长时间的多轮对话中识别有害模式。

同一所MIT实验室在与OpenAI合作的早期研究中也发现，新模型在模拟心理健康危机的对话中有了显著改善。然而，它在一个领域仍存在问题，即如何应对对聊天机器人的成瘾感。

来自OpenAI的不同团队还开发了其他新的安全功能：现在，聊天机器人会在长时间会话期间鼓励用户休息。公司正在搜索涉及自杀和自残的讨论，如果父母的孩子表达了自我伤害的意图，他们可以收到警报。公司表示，年龄验证将在12月推出，并计划为青少年提供一个更为严格的模型。

8月GPT-5发布后，Heidecke的团队分析了一组对话样本，发现0.07%的用户显示出可能的精神病或躁狂迹象，相当于56万人，另有0.15%的用户显示出“对ChatGPT存在潜在高度情感依附”，根据公司博客文章所述。

然而，一些用户对这个新的、更安全的模型并不满意。他们认为这个模型变得冷淡，感觉像是失去了一个朋友。

到10月中旬，Altman准备满足这些用户的需求。他在社交媒体上发帖称，公司已经能够“缓解严重的心理健康问题”。这意味着ChatGPT可以再次成为朋友。

现在，用户可以选择其性格，包括“坦率”、“古怪”或“友好”。成人用户很快将能够进行色情对话，解除了Replika时代对成人内容的禁令。（色情内容可能对用户福祉产生的影响，公司将向一个新成立的外部专家委员会咨询，该委员会专注于心理健康和人机交互。）

OpenAI让用户自行调节，希望这能让他们继续使用。这个指标仍然重要，或许比以往任何时候都更重要。

10月，运营ChatGPT的图尔利向全体员工发出紧急通知，宣布进入“橙色警戒”。据四位可以访问OpenAI Slack的员工透露，他在通知中写道，OpenAI正面临“前所未有的激烈竞争”。他还提到，新版聊天机器人的安全性虽然提高，但未能吸引用户。

该消息附带了一个链接，指向一份包含目标的备忘录。其中一个目标是在年底前将日活跃用户数增加5%。

此报道最初发表于nytimes.com。