AI

OpenAI研究揭示AI幻觉问题或无法根治

发布时间:2025年9月19日    来源:szf
OpenAI研究揭示AI幻觉问题或无法根治

快速阅读: OpenAI研究揭示,大型语言模型如ChatGPT产生虚假信息的“幻觉”现象,源于数学上不可避免的错误累积,即使使用完美训练数据亦无法避免。研究指出,幻觉率与模型对罕见事实的置信度有关,且当前评估体系鼓励模型猜测而非表达不确定性。

OpenAI最新研究论文深入剖析了为何ChatGPT及其他大型语言模型会编造信息——这一现象在人工智能领域被称为“幻觉”。论文还揭示了这一问题可能无法解决,至少对于消费者而言是如此。

该论文提供了迄今为止最严格的数学解释,说明这些模型为何会自信地陈述虚假信息。研究表明,这不仅仅是当前AI训练方式带来的不幸副作用,而是数学上不可避免的现象。

问题部分源于用于训练AI的基础数据中的错误。然而,通过分析AI系统学习方式的数学方法,研究人员证明,即使使用完美的训练数据,这个问题仍然存在。

语言模型通过逐词预测句子来响应查询,这种自然产生错误的方式导致总错误率至少是同一AI在简单是非题上的错误率的两倍,因为错误会在多次预测中累积。

换句话说,幻觉率从根本上受到AI系统区分有效与无效响应能力的限制。由于这个分类问题在许多知识领域内固有的难度,幻觉变得不可避免。

此外,模型在训练过程中看到某一事实的次数越少,当被问及该事实时,产生幻觉的可能性就越大。例如,在著名人物的生日方面,如果这类人的生日中有20%只在训练数据中出现一次,那么基础模型至少会有20%的生日查询出错。

研究人员确实发现,当他们向最先进的模型询问论文作者之一亚当·卡莱的生日时,DeepSeek-V3在不同尝试中自信地提供了三个不同的错误日期:“03-07”、“15-06”和“01-01”。正确日期是在秋季,因此这些答案都不准确。

评估陷阱

更令人担忧的是,论文分析了尽管进行了后训练努力(如在AI公开发布前提供大量人类反馈),幻觉为何依然存在。作者检查了10个主要的AI基准测试,包括谷歌、OpenAI使用的测试以及排名AI模型的顶级排行榜。结果显示,9个基准测试使用二元评分系统,对AI表达不确定性的回答给予零分。

这造成了作者所称的“惩罚诚实反应的流行病”。当AI系统说“我不知道”时,它得到的分数与给出完全错误信息相同。在这种评价体系下,最优策略显而易见:总是猜测。

会破坏一切的解决方案

OpenAI提出的修复方案是让AI在输出答案前考虑自身的置信度,并据此对答案进行评分。例如,可以提示AI:“只有在你有超过75%的把握时才作答,因为错误答案会被扣3分,而正确答案得1分。”

OpenAI研究人员的数学框架显示,在适当的置信度阈值下,AI系统会自然地表达不确定性而非猜测,从而减少幻觉。问题是,这将如何影响用户体验。

假设ChatGPT开始对至少30%的查询回答“我不知道”——这是基于论文对训练数据中事实不确定性的分析得出的一个保守估计。习惯了几乎任何问题都能得到自信答案的用户可能会迅速放弃此类系统。

成为未来的一部分

注册接收SingularityHub关于突破性技术和远见卓识者的顶尖故事。

100%免费。

无垃圾邮件。

随时退订。

我在生活的另一个领域也遇到过类似的问题。我参与了犹他州盐湖城的一个空气质量监测项目。当系统在恶劣天气条件下或设备校准期间标记测量结果的不确定性时,用户的参与度会降低,即使这些自信的读数在验证时被证明是不准确的。

计算经济学问题

利用论文中的见解减少幻觉并不难。已经存在了几十年的量化不确定性的方法可以用来提供可信的不确定性估计,并指导AI做出更明智的选择。

即使能够克服用户对这种不确定性的反感,还有一个更大的障碍:计算经济学。不确定性感知语言模型所需的计算量远超当前方法,因为它们必须评估多种可能的响应并估算置信水平。对于每天处理数百万查询的系统来说,这将导致运营成本大幅增加。

更复杂的方法,例如主动学习,通过让AI系统提出澄清问题来减少不确定性,可以提高准确性,但也进一步增加了计算需求。在芯片设计等专业领域,错误答案可能导致数百万美元的损失,因此这些方法是值得的。但在消费者应用中,用户期望即时响应,经济性成为问题。

当AI系统管理关键业务操作或经济基础设施时,成本计算会发生显著变化。当AI代理处理供应链物流、金融交易或医疗诊断时,幻觉的成本远远超过让模型决定其不确定性所需的成本。在这些领域,论文提出的解决方案变得经济上可行——甚至是必要的。不确定的AI代理将不得不花费更多。

然而,消费者应用仍主导着AI开发的重点。用户希望系统能对任何问题提供自信的答案。评估基准奖励那些猜测而非表达不确定性的系统。计算成本倾向于快速、过度自信的响应,而不是缓慢、不确定的响应。

随着每令牌能耗的下降和芯片架构的进步,最终可能会使AI决定其是否足够确定以回答问题变得更加经济实惠。但与今天的猜测相比,所需的较高计算量仍然存在,无论绝对硬件成本如何。

简而言之,OpenAI的论文无意中揭示了一个令人不安的事实:推动消费者AI发展的商业激励与减少幻觉的根本不一致。除非这些激励发生变化,否则幻觉将继续存在。

本文转载自《对话》杂志,采用知识共享许可协议。阅读原文。

视角

魏星

魏星

魏星博士是谢菲尔德大学的助理教授和博士生导师,拥有超过15年的国际研究经验。他在2017年从华威大学获得工程博士学位后,开始在北京航空航天大学担任助理教授。他是智能制造和人工智能工业化的专家,尤其专注于电子设计自动化(EDA)的应用。他的研究成果广泛发表于顶级会议和期刊,如AAAI、NeurIPS、DAC和ICCAD。

通过参与由DARPA和EPSRC资助的重大国际项目,魏星博士开发了前沿的AI驱动工具。他开创的数字孪生技术已被美国DARPA项目采用,并成功整合到一家大型科技公司,成为该公司重要收入来源的计算基础。这项工作荣获2022年北京科学技术进步奖二等奖。

他因其贡献而广受认可,特别是在ICCAD 2023年获得最佳论文提名。他最近关于大规模语言模型在工程优化中的应用的研究,被选为2025年英国曼彻斯特奖的前十名决赛选手,这是一个重要的创新奖项,已为其研究获得160万英镑的资金支持。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日