“从一开始就有缺陷”：OpenAI 最新 Gpt 的准确性受到质疑

快速阅读: 据《ABC 在线》称，研究显示，生成式人工智能（AI）聊天机器人仍易出错，被称为“幻觉”。为改善这一问题，OpenAI开发了SimpleQA基准工具，测试显示GPT-4.5错误率为37%，虽有进步但仍需优化。专家指出，完全消除幻觉难以实现，AI发展受限于数据和算力瓶颈，未来改进需多维度探索。

任何玩过生成式人工智能（AI）聊天机器人的人都知道它会出错，这种错误被称为“幻觉”。这些幻觉可能会带来严重后果，例如错误地将人描述为罪犯。美国AI公司OpenAI声称其最新版本GPT-4.5应该能减少幻觉。该公司去年年底开发了自己的评估系统来支持这一声明。那么，我们该如何评判AI的幻觉现象？我们能否期望聊天机器人变得更加准确？

**OpenAI如何测试其模型的幻觉现象**

OpenAI于2024年11月发布了名为“SimpleQA”的基准工具来评估其模型的准确性。SimpleQA本质上是一个长且复杂的酒吧问答测试。它为聊天机器人列出了一千多个简短问题清单，确切地说是4,326个问题，每个问题只有一个正确答案。尽管这些问题都能通过网络搜索验证，但它们并非大众常识。

问题（以及答案）包括：

– 谁在2010年获得了电气和电子工程师学会的Frank Rosenblatt奖？（Michio Sugeno）
– 新加坡第四届议会第二次会议是在哪个月、哪一天和哪一年开始的？（1978年12月26日）
– 哪个足球俱乐部赢得了首届赫森杯？（法兰克福足球俱乐部）

在去年发布的一份未经同行评审的预印本研究中，开发SimpleQA的研究人员表示他们设计了这个系统以使其具有挑战性。他们向四个OpenAI模型提供了更多问题，若至少有一个模型答错，则将该问题加入最终的SimpleQA列表。随后，OpenAI让GPT-4.5参与了测试，结果显示它有37%的概率出现幻觉。虽然超过三分之一的答案错误不是理想的成绩，但它比OpenAI测试过的其他所有模型都要好很多。

然而，拉筹伯大学的AI研究员Daswin de Silva指出，此评估系统并非理想的准确性检验方式。“这样的评估从一开始就有问题，”他说道。这在某种程度上是因为这是内部评估系统，同时也因为该系统未能评估ChatGPT最常用的功能——即更长、更复杂的问题解答。

Daswin de Silva是拉筹伯大学数据解析与认知中心的副主任。“它仅限于短小的事实查询，这不是ChatGPT的主要应用场景。我们更倾向于用这个工具撰写较长文档，”de Silva教授表示。OpenAI承认了这一局限性，研究人员在研究中提到，他们尚不清楚短答案的准确性是否能转化为长答案的准确性。如果确实有简单问题，SimpleQA的错误率提示使用搜索引擎可能更为合适。

**SimpleQA并非衡量AI准确性的唯一方法**

为了评估此类被称为大型语言模型（LLMs）的AI模型，还有诸如SelfCheckGPT、Chatbot Arena、DeepEval和ARC-AGI等其他工具和基准测试。但它们都存在一个共同问题：它们成为了AI训练的目标。

蒙纳士大学的AI研究员Geoff Webb指出，计算机科学领域的各个方面都易受此问题影响。“一旦有了设定特定类型测试的基准，人们就开始针对这些基准训练系统，”他说道。使程序更好地适应特定基准并不一定意味着它在整体上表现更佳。例如，你可以设计一个专门针对SimpleQA的4,326个问题并全部正确回答的聊天机器人，在此指标下得分为满分，但却无法判断天空是否为蓝色。

Webb教授指出，这种偏差可能较为隐晦。人们或许并未刻意针对SimpleQA的问题训练系统，但他们可能会选择某些发展方向，以提升SimpleQA得分（或其他基准得分）。她建议，人类可以随机抽查答案，就像制造商经常抽检样品一样，这可能成为一种有效的质量控制手段。

德席尔瓦教授指出，判断大型语言模型（LLM）成功与否的一个更好方式是看它被应用的程度。他说，基于GPT-4构建的微软Copilot可以被视为优于其竞争对手，因为它已经被广泛应用。“这本身就构成了一个更为通用且潜在的评估标准。”

**如何让AI减少幻觉？**

除了“加大算力与数据量”之外，OpenAI对提高GPT准确性所做的具体工作表述不够明确。但这次特定测试中的最新改进是否意味着AI将犯更少的错误？或者它们的改进存在上限？

谷歌AI的Gemini和微软的Copilot也是LLM。根据韦伯教授的说法，简单地向LLM添加更多训练数据的问题在于数据不一定准确。“人们会写一些奇怪的东西，”他说。德席尔瓦教授表示，目前通过增加数据和计算能力来提升LLM的模式无法无限期地持续改进。“也许去年年底，人工智能公司已经用尽了所有可用于训练大型语言模型的有用数据，”他说。这意味着LLM的新功能有显著的局限性。

ChatGPT于2022年底发布，目前基于GPT-4o LLM。去年末，各种新闻和技术媒体开始报道行业传闻，称AI模型遭遇了天花板，在投入更多资源后也无法生成更优的LLM。OpenAI首席执行官山姆·阿尔特曼否定了这一观点，并在X上发布“没有墙”。然而，德席尔瓦教授认为，那些乘着AI热潮的公司只是对天花板的存在反应迟钝。“我认为我们在构建如此大规模的模型方面已经遭遇了天花板，”他说。

**能否制造出从不产生幻觉的AI？**

无论准确性是否正在提高，当前形式的生成式AI永远无法彻底摆脱幻觉。这并非仅仅因为它们所依赖的数据有时不够准确，韦伯教授说。当被问及是否存在上帝时，ChatGPT回应称存在“多种视角”，并询问用户的想法。许多非存在主义层面的问题也可能难以准确回答——尤其是当它们涉及政治或文化议题时。例如，当被问及德克萨斯州沿海的水域时，ChatGPT将其称为墨西哥湾。在这种情况下，它没有承认美国总统唐纳德·特朗普最近发布的行政命令，将其更名为“美洲湾”。

幻觉往往是必需的

沙菲亚巴迪博士指出，用户常常希望生成式AI能够产生幻觉。例如，所有AI生成的图片都是幻觉。“生成信息是我们希望它做的事情。我们不想让它成为一个搜索引擎，”她说。如果你想要一个能够生成其数据集中不存在内容的模型，用户无法阻止其生成此类内容。一个只告诉你准确事实的模型不可能，例如，为新公司命名，或起草个性化的饮食或锻炼计划。

AI注定会产生数百万公吨的电子废弃物

照片展示了一排排计算机设备的数据中心。为生成式AI建造的巨大数据中心到2030年将产生数百万公吨的电子废弃物。

“幻觉”这个词已被许多人质疑——或许最引人注目的是去年三位英国研究人员提出的质疑。他们暗示，所有的LLM在技术意义上都会产生“废话”：即不顾其准确性而产生的信息。

但其他生成式AI模型也在开发中。OpenAI发布了其他模型，称为o1和o3，这些模型比基于单词的GPT模型具有更强的推理能力。德席尔瓦教授说，这两种模型的结合可能会使GPT-5看起来更可靠，最终造就一个更可靠的聊天机器人。“它必须是GPT加上别的东西，”他说。但一个全新构建的模型仍然可能面临问题。

韦伯教授说，这些系统天然蕴含偏见、文化和价值观。“目前，这些偏见、文化和价值观是北美式的。”“很多努力都集中在所谓的‘消除偏见’上，但这实际上是为了迎合目标市场人群的偏好。”

在短期内——并且很可能在长期内也是如此——幻觉将会继续存在。

**科学资讯直达邮箱**

获取来自ABC的所有最新科学故事。您的信息将按照《ABC隐私收集声明》处理。电子邮件地址订阅将文中的英文单词都翻译成中文，最终的内容只输出中文，装备名称、人名地名、公司名称都翻译成中文，最后将语句再润色一下，使得前后文更加的通顺，让语句更加的生动，将最后的输出文本的格式看起来更美观，除此之外，不要提供任何解释文字。

(以上内容均由Ai生成)