AI 是否仍然会产生幻觉，还是变得更加可靠？

快速阅读: 《印度教徒》消息，2024年5月，谷歌新推出的“AI概览”功能因生成不准确答案（如建议在酱料中加胶水）引发关注。此类“幻觉”现象源于AI对否定句训练不足及依赖统计关联。尽管新模型有所改善，但完全避免幻觉仍具挑战。专家建议改进训练方式，如使用专用模型、检索增强生成及课程学习，但仍需人工审核验证AI输出。

2024年5月，当互联网用户在谷歌上搜索“奶酪不粘附比萨饼”时，谷歌新推出的“AI概览”功能回复道：“你可以……在酱料中加入约1/8杯无害胶水，以增加其粘性。”在一系列奇怪的回答中，这款AI工具还建议人们每天吃一颗小石子并喝尿液以帮助排出肾结石。

这类奇怪回答的通称是“幻觉”：当AI模型遇到未受过训练的问题时，它们会生成有时令人信服但经常不准确的答案。人工智能时代的一个问题：机器和人类学习的方式相同吗？

像谷歌的“AI概览”一样，ChatGPT也容易出现幻觉。在2023年的《科学报告》中的研究中，曼哈顿学院和纽约城市大学的研究者们比较了两个版本的ChatGPT，即3.5和4，在整理某些主题信息时出现幻觉的频率。他们发现ChatGPT v3.5有55%的引用内容是虚构的；而ChatGPT-4的表现较好，为18%。

研究者们总结道：“尽管GPT-4相对于GPT-3.5有了重大改进，但仍存在问题。”

幻觉让AI模型变得不可靠，也限制了它们的应用场景。专家告诉这位记者，他们对AI工具的可靠性和未来可靠性持怀疑态度。而幻觉并不是唯一让他们产生疑虑的原因。

**定义可靠性**

为了评估一个AI模型的可靠性，研究人员通常参考两个标准：一致性和准确性。一致性指AI模型对于相似输入能够产生相似输出的能力。例如，假如一个电子邮件服务用AI算法来过滤垃圾邮件，而收件箱收到了两封具有相似特征的垃圾邮件：通用问候语、内容书写不佳等。如果这个算法能把这两封邮件都判定为垃圾邮件，那么可以说它做出了稳定的预测。

准确性指AI模型正确回答问题的能力。这包括“表明‘我不知道’”在它不知道答案时，印度理工学院孟买分校计算机科学与工程教授苏尼塔·萨拉瓦吉说。苏尼塔·萨拉瓦吉因其在机器学习和自然语言处理等方面的工作于2019年获得了Infosys奖，这些是现代AI的基础。

**为什么会出现幻觉？**

上个月，一些ChatGPT用户感到意外的是，它生成不出一张没有大象的房间图片。为了测试这个问题是否仍然存在，记者要求OpenAI的DALL-E（一种可以根据文本提示生成图像的AI模型）生成“一张没有大象的房间图片”。查看上面的图片以了解它生成的内容。

再次询问“房间里不应该有任何大象的图片或雕像。绝对不能有任何种类的大象”时，该模型又创建了两张图片。其中一张包含了一幅巨大的大象图片，另一张则同时包含了一张图片和一个小象雕像。DALL-E的伴随文字写道：“这里有两张完全没有大象的房间图片——没有任何雕像、图片或任何与大象相关的东西。”

印度理工学院德里分校Soumitra Dutta AI讲席教授尼拉德里·查特吉表示，这种不准确但自信的回答表明该模型未能“理解否定”。

为什么会出现否定？谷歌DeepMind的自然语言处理研究员诺拉·卡斯纳在2023年5月告诉《量子》杂志，这源于用于训练生成式AI模型的数据中缺乏使用否定句。

研究人员开发当代AI模型分为两个阶段：训练阶段和测试阶段。在训练阶段，向模型提供一组标注的输入数据。例如，可以向模型提供一组标记为“大象”的大象图片。模型学会将一组特征（比如大象的大小、形状和部分）与单词“大象”联系起来。

如果有关于AI的理论，计算机科学可能无法提供它。在测试阶段，模型会接收到未包含在其训练数据集中的输入。例如，研究人员可以输入一张模型在其训练阶段未曾见过的大象图片。如果算法能够准确地将这张图片识别为大象，并将其与另一张图片（例如猫的图片）区分开来，则可以说该算法是成功的。

简单地说，人工智能模型并不像人类那样理解语言。而是它们的输出由训练阶段中学到的统计关联所驱动。因此，当它们遇到在训练数据集中不常见或不存在的查询时，它们会用训练数据集中存在的其他关联来填补空白。例如，在上述情况中，就是“房间里的大象”。这导致了事实上的错误输出。通常而言，当人工智能模型被要求处理需要“深入思考、联系概念并作出回应”的问题时，就会出现幻觉现象。——IIT-D的信息系统和人工智能教授阿尔潘·卡尔说道。

**更可靠还是更不可靠？**

尽管人工智能的发展和应用都处于爆炸性增长之中，但其可靠性问题依然悬而未决。而幻觉现象只是原因之一之一。另一个原因是，人工智能开发者通常使用基准或标准化测试来报告其模型的性能，但这些基准“并非无懈可击，且可能被操纵”，IIT-Delhi的查特吉说。

一种操纵基准的方式是将基准的测试数据包含进人工智能模型的训练数据集中。2023年，Meta的机器学习研究员霍勒斯·海指控，ChatGPT v4的训练数据可能已经被基准的测试数据“污染”。也就是说，该模型至少部分是基于用于测试其能力的相同数据进行训练的。

北京大学的计算机科学家们使用一个名为HumanEval的数据集对此指控进行了调查后得出结论，认为这一指控很有可能是真的。HumanEval基准是由拥有并开发ChatGPT的OpenAI的研究人员创建的。

根据查特吉的说法，这意味着虽然该模型可能因为使用了测试数据进行训练而在基准测试中表现良好，但在现实世界的应用中，其性能可能会下降。

但所有这些说法之外，萨拉瓦吉表示，“流行的人工智能模型在常见查询中的幻觉频率正在减少。”她补充说，这是因为新版本的这些人工智能模型正在“针对早期版本被报告为产生幻觉的查询进行更多的数据训练”。这种方法就像是“发现弱点并打补丁”，正如萨拉瓦吉所说。

当人工智能改变了我们做科学的方式时，我们将如何理解结果？

然而，IIT-Delhi的卡尔表示，即使有更多训练数据，流行的像ChatGPT这样的大型语言模型也无法达到完全不产生幻觉的状态。要做到这一点，需要人工智能模型能够“实时获取全球所有可能的知识”，他说。“如果能做到这一点，那么这个算法将会变得无所不能。”

查特吉和萨拉瓦吉则建议改变人工智能模型的构建和训练方式。其中一个方法是开发专门任务的模型。例如，与像ChatGPT这样的大型语言模型不同，小型语言模型仅针对解决少数特定问题所需的参数进行训练。例如，微软的Orca 2就是一个小型语言模型，专门用于“推理、阅读理解、数学问题解决和文本摘要”等任务。

另一种方法是实施一种称为检索增强生成（RAG）的技术。在这里，人工智能模型通过从与特定查询相关的特定数据库中检索信息来生成输出。例如，当被要求回答“什么是人工智能？”的问题时，人工智能模型可以提供指向维基百科上关于人工智能的文章链接。通过要求模型在撰写回复时仅参考此来源，其产生幻觉的可能性可以大幅降低。

最后，萨拉瓦吉建议人工智能模型可以通过一种称为课程学习的过程进行训练。在传统的训练过程中，数据以随机顺序呈现给人工智能模型。而在课程学习中，模型则依次在具有逐步增加难度的问题的数据集上进行训练。例如，一个人工智能模型可以首先在较短的句子上进行训练，然后在较长、更复杂的句子上进行训练。课程学习模仿了人类的学习过程，研究人员发现，以这种方式“教导”模型可以提高其在现实世界中的最终表现。

综上所述，这些方法并不能确保完全消除人工智能模型中的幻觉。根据查特吉的说法，“仍然需要对人工智能生成的输出进行验证，包括人工审核。”

总的来说，这些技术都无法保证彻底解决人工智能模型的错误生成问题。查特吉指出，“仍需建立能验证人工智能输出结果的系统，比如人工审核。”

萨亚南特·达塔是一位科学记者，也是Krea大学的一名教员。

发布日期 – 2025年4月17日 05:30（印度标准时间）

查看评论

分享链接

邮件

Facebook

Twitter

稍后阅读

关闭

显示更多