AI 越来越强大,但它的幻觉却越来越严重
快速阅读: 《印度快运》消息,AI助手常输出错误信息,“幻觉”现象普遍。最新系统错误率升高,影响法律、医疗等领域。科技公司正努力改进,但难题仍未解决。
在愤怒地发帖至网络留言板时,客户们开始抱怨。一些人取消了他们的Cursor账户。当他们意识到事情的真相后,有些人的情绪更加激动:这个AI机器人错误地宣布了一项并不存在的政策调整。广告继续:“我们并没有这样的政策。你当然可以在多台设备上使用Cursor,”公司首席执行官兼联合创始人迈克尔·特鲁尔在Reddit上写道。“遗憾的是,这是来自一线AI客服机器人的错误回复。”
在ChatGPT问世两年多后,科技公司、办公室职员以及普通消费者正越来越多地利用AI机器人来完成各类任务。然而,这些系统是否能够始终输出准确的信息仍存在疑问。最新且最强大的技术——包括OpenAI、谷歌以及中国初创企业深寻(DeepSeek)在内的所谓推理系统,反而产生了更多的错误,而非减少。
尽管它们的数学能力显著提升,但对事实的掌握却变得不稳定。目前尚未明确原因所在。如今的AI机器人建立在复杂的数学系统之上,通过分析海量数字数据来学习技能。它们既无法,也不应该去判断什么是对的,什么是错的。有时,它们仅仅是凭空捏造,这种现象被部分AI研究人员称为“幻觉”。在一项测试中,较新的AI系统的幻觉率高达79%。
广告继续。这些系统依靠数学概率来推测最佳答案,而非依赖于由人类工程师设定的一系列严格规则。因此,它们会犯一定数量的错误。“即便我们尽了全力,它们仍然会产生幻觉,”Vector公司(Vectara)的首席执行官阿姆尔·阿瓦达拉赫说道,该公司为企业打造AI工具,他同时也是前谷歌高管。“这种情况永远不会彻底消失。”
两年多以来,这种现象引起了人们对这些系统可靠性的担忧。虽然它们在某些场景下确实有用,例如撰写学期论文、总结办公文件和生成计算机代码,但它们的错误可能带来麻烦。与谷歌和必应等搜索引擎相关的AI机器人有时会产生令人啼笑皆非的错误搜索结果。如果你询问西海岸最好的马拉松比赛在哪里,它们可能会推荐费城的比赛。如果它们告诉你伊利诺伊州的家庭数量,它们可能会引用一个不包含该信息的来源。对于许多人来说,这些幻觉或许不算大问题,但对于任何利用这项技术处理法律文件、医疗信息或敏感业务数据的人来说,这就是一个严重的问题。“你花费大量时间试图分辨哪些回答是事实,哪些不是,”Okahu公司的联合创始人兼首席执行官普拉蒂克·维尔马说,该公司帮助企业应对幻觉问题。“如果不妥善处理这些错误,实际上就否定了AI系统的价值,它们本应为你自动完成任务。”
Cursor和特鲁尔未回应评论请求。两年多以来,像OpenAI和谷歌这样的公司一直在稳步改进其AI系统,并降低这些错误的发生频率。但随着新型推理系统的投入使用,幻觉率有所上升。按照公司的测试结果,最新的OpenAI系统相比之前版本具有更高的幻觉率。该公司发现,其最强大的系统o3在运行PersonQA基准测试时,即回答关于公众人物的问题时,有33%的概率出现幻觉。这比OpenAI之前名为o1的推理系统高出两倍以上。新的o4-mini幻觉率达到48%。在另一项称为SimpleQA的测试中,该系统提出更一般性的问题,o3和o4-mini的幻觉率分别为51%和79%,而之前的系统o1有44%的概率出现幻觉。
广告继续。该公司发现,其最强大的系统o3在运行PersonQA基准测试时,即回答关于公众人物的问题时,有33%的概率出现幻觉。这比OpenAI之前名为o1的推理系统高出两倍以上。新的o4-mini幻觉率达到48%。在一篇详细说明这些测试的论文中,OpenAI表示需要进一步研究才能明白这些结果背后的原因。由于AI系统从比人类所能理解的更多数据中学习,技术人员难以确定它们为何以这种方式表现。“幻觉并不必然在推理模型中更为普遍,尽管我们正在积极努力减少我们在o3和o4-mini中看到的较高幻觉率,”公司发言人加布里埃尔·雷拉说。“我们将继续研究所有模型中的幻觉现象,以提高准确性和可靠性。”
华盛顿大学教授汉纳赫·哈吉什里齐是艾伦人工智能研究所的研究员,她参与了一个团队最近开发出一种追溯系统行为回到其训练数据的方法。但由于系统从如此多的数据中学习——并且可以生成几乎任何内容——这个新工具并不能解释所有情况。“我们仍然不清楚这些模型具体是如何运作的,”她说。
独立公司和研究人员的测试表明,谷歌和深寻等公司的推理模型的幻觉率同样在升高。自2023年末起,阿瓦达拉赫的公司Vector一直在追踪聊天机器人偏离真相的频率。该公司让这些系统完成一个简单且容易验证的任务:总结特定新闻文章。即使这样,聊天机器人依然经常胡编乱造。Vector的原始研究表明,在这种情况下,聊天机器人大约有3%的时间编造信息,有时甚至高达27%。在过去的这一年半中,像OpenAI和谷歌这样的公司将这些数值降到1%或2%左右。其他公司,如旧金山初创公司Anthropic,维持在4%左右。但在这种测试中,随着推理系统投入使用,幻觉率有所攀升。深寻的推理系统R1有14.3%的概率出现幻觉。OpenAI的o3上升到6.8%。(《纽约时报》起诉了OpenAI及其合作伙伴微软,指控他们在涉及AI系统相关内容的版权侵权问题上存在问题。OpenAI和微软否认了这些指控。)
多年来,像OpenAI这样的公司依赖一个简单的概念:他们向AI系统输入越多的互联网数据,这些系统的表现就会越好。但他们已经用完了几乎所有的英语文本,这意味着他们需要一种新的方式来改进他们的聊天机器人。因此,这些公司更加依赖科学家称之为“强化学习”的技术。在这个过程中,系统可以通过试错来学习行为。它在某些领域,如数学和计算机编程方面表现良好。但在其他领域则不尽如人意。“这些系统训练的方式在于它们会开始专注于某一任务——并开始忘记其他任务,”爱丁堡大学研究员劳拉·佩雷斯-贝尔特拉奇尼说,她与其他团队密切研究幻觉问题。另一个问题是,推理模型被设计成在得出答案前花费时间“思考”复杂问题。在尝试逐步解决某个问题的过程中,它们在每一步都有可能出现幻觉。随着它们思考的时间增加,错误可能会累积。最新的机器人向用户展示每个步骤,这意味着用户也可能看到每个错误。研究人员还发现,在许多情况下,机器人显示的步骤与其最终提供的答案无关。“系统声称它在思考的内容并不一定是它真正想的,”爱丁堡大学AI研究员阿里奥·普拉迪塔·格玛说,他是Anthropic的研究员。
这篇文章最初刊登于《纽约时报》。
(以上内容均由Ai生成)