AI 越来越强大,但它的幻觉却越来越严重

发布时间:2025年5月8日    来源:szf
AI 越来越强大,但它的幻觉却越来越严重

快速阅读: 《印度快运》消息,AI助手常输出错误信息,“幻觉”现象普遍。最新系统错误率升高,影响法律、医疗等领域。科技公司正努力改进,但难题仍未解决。

在愤怒地发帖至网络留言板时,客户们开始抱怨。一些人取消了他们的Cursor账户。当他们意识到事情的真相后,有些人的情绪更加激动:这个AI机器人错误地宣布了一项并不存在的政策调整。广告继续:“我们并没有这样的政策。你当然可以在多台设备上使用Cursor,”公司首席执行官兼联合创始人迈克尔·特鲁尔在Reddit上写道。“遗憾的是,这是来自一线AI客服机器人的错误回复。”

在ChatGPT问世两年多后,科技公司、办公室职员以及普通消费者正越来越多地利用AI机器人来完成各类任务。然而,这些系统是否能够始终输出准确的信息仍存在疑问。最新且最强大的技术——包括OpenAI、谷歌以及中国初创企业深寻(DeepSeek)在内的所谓推理系统,反而产生了更多的错误,而非减少。

尽管它们的数学能力显著提升,但对事实的掌握却变得不稳定。目前尚未明确原因所在。如今的AI机器人建立在复杂的数学系统之上,通过分析海量数字数据来学习技能。它们既无法,也不应该去判断什么是对的,什么是错的。有时,它们仅仅是凭空捏造,这种现象被部分AI研究人员称为“幻觉”。在一项测试中,较新的AI系统的幻觉率高达79%。

广告继续。这些系统依靠数学概率来推测最佳答案,而非依赖于由人类工程师设定的一系列严格规则。因此,它们会犯一定数量的错误。“即便我们尽了全力,它们仍然会产生幻觉,”Vector公司(Vectara)的首席执行官阿姆尔·阿瓦达拉赫说道,该公司为企业打造AI工具,他同时也是前谷歌高管。“这种情况永远不会彻底消失。”

两年多以来,这种现象引起了人们对这些系统可靠性的担忧。虽然它们在某些场景下确实有用,例如撰写学期论文、总结办公文件和生成计算机代码,但它们的错误可能带来麻烦。与谷歌和必应等搜索引擎相关的AI机器人有时会产生令人啼笑皆非的错误搜索结果。如果你询问西海岸最好的马拉松比赛在哪里,它们可能会推荐费城的比赛。如果它们告诉你伊利诺伊州的家庭数量,它们可能会引用一个不包含该信息的来源。对于许多人来说,这些幻觉或许不算大问题,但对于任何利用这项技术处理法律文件、医疗信息或敏感业务数据的人来说,这就是一个严重的问题。“你花费大量时间试图分辨哪些回答是事实,哪些不是,”Okahu公司的联合创始人兼首席执行官普拉蒂克·维尔马说,该公司帮助企业应对幻觉问题。“如果不妥善处理这些错误,实际上就否定了AI系统的价值,它们本应为你自动完成任务。”

Cursor和特鲁尔未回应评论请求。两年多以来,像OpenAI和谷歌这样的公司一直在稳步改进其AI系统,并降低这些错误的发生频率。但随着新型推理系统的投入使用,幻觉率有所上升。按照公司的测试结果,最新的OpenAI系统相比之前版本具有更高的幻觉率。该公司发现,其最强大的系统o3在运行PersonQA基准测试时,即回答关于公众人物的问题时,有33%的概率出现幻觉。这比OpenAI之前名为o1的推理系统高出两倍以上。新的o4-mini幻觉率达到48%。在另一项称为SimpleQA的测试中,该系统提出更一般性的问题,o3和o4-mini的幻觉率分别为51%和79%,而之前的系统o1有44%的概率出现幻觉。

广告继续。该公司发现,其最强大的系统o3在运行PersonQA基准测试时,即回答关于公众人物的问题时,有33%的概率出现幻觉。这比OpenAI之前名为o1的推理系统高出两倍以上。新的o4-mini幻觉率达到48%。在一篇详细说明这些测试的论文中,OpenAI表示需要进一步研究才能明白这些结果背后的原因。由于AI系统从比人类所能理解的更多数据中学习,技术人员难以确定它们为何以这种方式表现。“幻觉并不必然在推理模型中更为普遍,尽管我们正在积极努力减少我们在o3和o4-mini中看到的较高幻觉率,”公司发言人加布里埃尔·雷拉说。“我们将继续研究所有模型中的幻觉现象,以提高准确性和可靠性。”

华盛顿大学教授汉纳赫·哈吉什里齐是艾伦人工智能研究所的研究员,她参与了一个团队最近开发出一种追溯系统行为回到其训练数据的方法。但由于系统从如此多的数据中学习——并且可以生成几乎任何内容——这个新工具并不能解释所有情况。“我们仍然不清楚这些模型具体是如何运作的,”她说。

独立公司和研究人员的测试表明,谷歌和深寻等公司的推理模型的幻觉率同样在升高。自2023年末起,阿瓦达拉赫的公司Vector一直在追踪聊天机器人偏离真相的频率。该公司让这些系统完成一个简单且容易验证的任务:总结特定新闻文章。即使这样,聊天机器人依然经常胡编乱造。Vector的原始研究表明,在这种情况下,聊天机器人大约有3%的时间编造信息,有时甚至高达27%。在过去的这一年半中,像OpenAI和谷歌这样的公司将这些数值降到1%或2%左右。其他公司,如旧金山初创公司Anthropic,维持在4%左右。但在这种测试中,随着推理系统投入使用,幻觉率有所攀升。深寻的推理系统R1有14.3%的概率出现幻觉。OpenAI的o3上升到6.8%。(《纽约时报》起诉了OpenAI及其合作伙伴微软,指控他们在涉及AI系统相关内容的版权侵权问题上存在问题。OpenAI和微软否认了这些指控。)

多年来,像OpenAI这样的公司依赖一个简单的概念:他们向AI系统输入越多的互联网数据,这些系统的表现就会越好。但他们已经用完了几乎所有的英语文本,这意味着他们需要一种新的方式来改进他们的聊天机器人。因此,这些公司更加依赖科学家称之为“强化学习”的技术。在这个过程中,系统可以通过试错来学习行为。它在某些领域,如数学和计算机编程方面表现良好。但在其他领域则不尽如人意。“这些系统训练的方式在于它们会开始专注于某一任务——并开始忘记其他任务,”爱丁堡大学研究员劳拉·佩雷斯-贝尔特拉奇尼说,她与其他团队密切研究幻觉问题。另一个问题是,推理模型被设计成在得出答案前花费时间“思考”复杂问题。在尝试逐步解决某个问题的过程中,它们在每一步都有可能出现幻觉。随着它们思考的时间增加,错误可能会累积。最新的机器人向用户展示每个步骤,这意味着用户也可能看到每个错误。研究人员还发现,在许多情况下,机器人显示的步骤与其最终提供的答案无关。“系统声称它在思考的内容并不一定是它真正想的,”爱丁堡大学AI研究员阿里奥·普拉迪塔·格玛说,他是Anthropic的研究员。

这篇文章最初刊登于《纽约时报》。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日