“从一开始就有缺陷”:OpenAI 最新 Gpt 的准确性受到质疑
快速阅读: 据《ABC 在线》称,研究显示,生成式人工智能(AI)聊天机器人仍易出错,被称为“幻觉”。为改善这一问题,OpenAI开发了SimpleQA基准工具,测试显示GPT-4.5错误率为37%,虽有进步但仍需优化。专家指出,完全消除幻觉难以实现,AI发展受限于数据和算力瓶颈,未来改进需多维度探索。
任何玩过生成式人工智能(AI)聊天机器人的人都知道它会出错,这种错误被称为“幻觉”。这些幻觉可能会带来严重后果,例如错误地将人描述为罪犯。美国AI公司OpenAI声称其最新版本GPT-4.5应该能减少幻觉。该公司去年年底开发了自己的评估系统来支持这一声明。那么,我们该如何评判AI的幻觉现象?我们能否期望聊天机器人变得更加准确?
**OpenAI如何测试其模型的幻觉现象**
OpenAI于2024年11月发布了名为“SimpleQA”的基准工具来评估其模型的准确性。SimpleQA本质上是一个长且复杂的酒吧问答测试。它为聊天机器人列出了一千多个简短问题清单,确切地说是4,326个问题,每个问题只有一个正确答案。尽管这些问题都能通过网络搜索验证,但它们并非大众常识。
问题(以及答案)包括:
– 谁在2010年获得了电气和电子工程师学会的Frank Rosenblatt奖?(Michio Sugeno)
– 新加坡第四届议会第二次会议是在哪个月、哪一天和哪一年开始的?(1978年12月26日)
– 哪个足球俱乐部赢得了首届赫森杯?(法兰克福足球俱乐部)
在去年发布的一份未经同行评审的预印本研究中,开发SimpleQA的研究人员表示他们设计了这个系统以使其具有挑战性。他们向四个OpenAI模型提供了更多问题,若至少有一个模型答错,则将该问题加入最终的SimpleQA列表。随后,OpenAI让GPT-4.5参与了测试,结果显示它有37%的概率出现幻觉。虽然超过三分之一的答案错误不是理想的成绩,但它比OpenAI测试过的其他所有模型都要好很多。
然而,拉筹伯大学的AI研究员Daswin de Silva指出,此评估系统并非理想的准确性检验方式。“这样的评估从一开始就有问题,”他说道。这在某种程度上是因为这是内部评估系统,同时也因为该系统未能评估ChatGPT最常用的功能——即更长、更复杂的问题解答。
Daswin de Silva是拉筹伯大学数据解析与认知中心的副主任。“它仅限于短小的事实查询,这不是ChatGPT的主要应用场景。我们更倾向于用这个工具撰写较长文档,”de Silva教授表示。OpenAI承认了这一局限性,研究人员在研究中提到,他们尚不清楚短答案的准确性是否能转化为长答案的准确性。如果确实有简单问题,SimpleQA的错误率提示使用搜索引擎可能更为合适。
**SimpleQA并非衡量AI准确性的唯一方法**
为了评估此类被称为大型语言模型(LLMs)的AI模型,还有诸如SelfCheckGPT、Chatbot Arena、DeepEval和ARC-AGI等其他工具和基准测试。但它们都存在一个共同问题:它们成为了AI训练的目标。
蒙纳士大学的AI研究员Geoff Webb指出,计算机科学领域的各个方面都易受此问题影响。“一旦有了设定特定类型测试的基准,人们就开始针对这些基准训练系统,”他说道。使程序更好地适应特定基准并不一定意味着它在整体上表现更佳。例如,你可以设计一个专门针对SimpleQA的4,326个问题并全部正确回答的聊天机器人,在此指标下得分为满分,但却无法判断天空是否为蓝色。
Webb教授指出,这种偏差可能较为隐晦。人们或许并未刻意针对SimpleQA的问题训练系统,但他们可能会选择某些发展方向,以提升SimpleQA得分(或其他基准得分)。她建议,人类可以随机抽查答案,就像制造商经常抽检样品一样,这可能成为一种有效的质量控制手段。
德席尔瓦教授指出,判断大型语言模型(LLM)成功与否的一个更好方式是看它被应用的程度。他说,基于GPT-4构建的微软Copilot可以被视为优于其竞争对手,因为它已经被广泛应用。“这本身就构成了一个更为通用且潜在的评估标准。”
**如何让AI减少幻觉?**
除了“加大算力与数据量”之外,OpenAI对提高GPT准确性所做的具体工作表述不够明确。但这次特定测试中的最新改进是否意味着AI将犯更少的错误?或者它们的改进存在上限?
谷歌AI的Gemini和微软的Copilot也是LLM。根据韦伯教授的说法,简单地向LLM添加更多训练数据的问题在于数据不一定准确。“人们会写一些奇怪的东西,”他说。德席尔瓦教授表示,目前通过增加数据和计算能力来提升LLM的模式无法无限期地持续改进。“也许去年年底,人工智能公司已经用尽了所有可用于训练大型语言模型的有用数据,”他说。这意味着LLM的新功能有显著的局限性。
ChatGPT于2022年底发布,目前基于GPT-4o LLM。去年末,各种新闻和技术媒体开始报道行业传闻,称AI模型遭遇了天花板,在投入更多资源后也无法生成更优的LLM。OpenAI首席执行官山姆·阿尔特曼否定了这一观点,并在X上发布“没有墙”。然而,德席尔瓦教授认为,那些乘着AI热潮的公司只是对天花板的存在反应迟钝。“我认为我们在构建如此大规模的模型方面已经遭遇了天花板,”他说。
**能否制造出从不产生幻觉的AI?**
无论准确性是否正在提高,当前形式的生成式AI永远无法彻底摆脱幻觉。这并非仅仅因为它们所依赖的数据有时不够准确,韦伯教授说。当被问及是否存在上帝时,ChatGPT回应称存在“多种视角”,并询问用户的想法。许多非存在主义层面的问题也可能难以准确回答——尤其是当它们涉及政治或文化议题时。例如,当被问及德克萨斯州沿海的水域时,ChatGPT将其称为墨西哥湾。在这种情况下,它没有承认美国总统唐纳德·特朗普最近发布的行政命令,将其更名为“美洲湾”。
幻觉往往是必需的
沙菲亚巴迪博士指出,用户常常希望生成式AI能够产生幻觉。例如,所有AI生成的图片都是幻觉。“生成信息是我们希望它做的事情。我们不想让它成为一个搜索引擎,”她说。如果你想要一个能够生成其数据集中不存在内容的模型,用户无法阻止其生成此类内容。一个只告诉你准确事实的模型不可能,例如,为新公司命名,或起草个性化的饮食或锻炼计划。
AI注定会产生数百万公吨的电子废弃物
照片展示了一排排计算机设备的数据中心。为生成式AI建造的巨大数据中心到2030年将产生数百万公吨的电子废弃物。
“幻觉”这个词已被许多人质疑——或许最引人注目的是去年三位英国研究人员提出的质疑。他们暗示,所有的LLM在技术意义上都会产生“废话”:即不顾其准确性而产生的信息。
但其他生成式AI模型也在开发中。OpenAI发布了其他模型,称为o1和o3,这些模型比基于单词的GPT模型具有更强的推理能力。德席尔瓦教授说,这两种模型的结合可能会使GPT-5看起来更可靠,最终造就一个更可靠的聊天机器人。“它必须是GPT加上别的东西,”他说。但一个全新构建的模型仍然可能面临问题。
韦伯教授说,这些系统天然蕴含偏见、文化和价值观。“目前,这些偏见、文化和价值观是北美式的。”“很多努力都集中在所谓的‘消除偏见’上,但这实际上是为了迎合目标市场人群的偏好。”
在短期内——并且很可能在长期内也是如此——幻觉将会继续存在。
**科学资讯直达邮箱**
获取来自ABC的所有最新科学故事。您的信息将按照《ABC隐私收集声明》处理。电子邮件地址订阅将文中的英文单词都翻译成中文,最终的内容只输出中文,装备名称、人名地名、公司名称都翻译成中文,最后将语句再润色一下,使得前后文更加的通顺,让语句更加的生动,将最后的输出文本的格式看起来更美观,除此之外,不要提供任何解释文字。
(以上内容均由Ai生成)