“从一开始就有缺陷”:OpenAI 最新 Gpt 的准确性受到质疑

发布时间:2025年3月20日    来源:szf
“从一开始就有缺陷”:OpenAI 最新 Gpt 的准确性受到质疑

快速阅读: 据《ABC 在线》称,研究显示,生成式人工智能(AI)聊天机器人仍易出错,被称为“幻觉”。为改善这一问题,OpenAI开发了SimpleQA基准工具,测试显示GPT-4.5错误率为37%,虽有进步但仍需优化。专家指出,完全消除幻觉难以实现,AI发展受限于数据和算力瓶颈,未来改进需多维度探索。

任何玩过生成式人工智能(AI)聊天机器人的人都知道它会出错,这种错误被称为“幻觉”。这些幻觉可能会带来严重后果,例如错误地将人描述为罪犯。美国AI公司OpenAI声称其最新版本GPT-4.5应该能减少幻觉。该公司去年年底开发了自己的评估系统来支持这一声明。那么,我们该如何评判AI的幻觉现象?我们能否期望聊天机器人变得更加准确?

**OpenAI如何测试其模型的幻觉现象**

OpenAI于2024年11月发布了名为“SimpleQA”的基准工具来评估其模型的准确性。SimpleQA本质上是一个长且复杂的酒吧问答测试。它为聊天机器人列出了一千多个简短问题清单,确切地说是4,326个问题,每个问题只有一个正确答案。尽管这些问题都能通过网络搜索验证,但它们并非大众常识。

问题(以及答案)包括:

– 谁在2010年获得了电气和电子工程师学会的Frank Rosenblatt奖?(Michio Sugeno)
– 新加坡第四届议会第二次会议是在哪个月、哪一天和哪一年开始的?(1978年12月26日)
– 哪个足球俱乐部赢得了首届赫森杯?(法兰克福足球俱乐部)

在去年发布的一份未经同行评审的预印本研究中,开发SimpleQA的研究人员表示他们设计了这个系统以使其具有挑战性。他们向四个OpenAI模型提供了更多问题,若至少有一个模型答错,则将该问题加入最终的SimpleQA列表。随后,OpenAI让GPT-4.5参与了测试,结果显示它有37%的概率出现幻觉。虽然超过三分之一的答案错误不是理想的成绩,但它比OpenAI测试过的其他所有模型都要好很多。

然而,拉筹伯大学的AI研究员Daswin de Silva指出,此评估系统并非理想的准确性检验方式。“这样的评估从一开始就有问题,”他说道。这在某种程度上是因为这是内部评估系统,同时也因为该系统未能评估ChatGPT最常用的功能——即更长、更复杂的问题解答。

Daswin de Silva是拉筹伯大学数据解析与认知中心的副主任。“它仅限于短小的事实查询,这不是ChatGPT的主要应用场景。我们更倾向于用这个工具撰写较长文档,”de Silva教授表示。OpenAI承认了这一局限性,研究人员在研究中提到,他们尚不清楚短答案的准确性是否能转化为长答案的准确性。如果确实有简单问题,SimpleQA的错误率提示使用搜索引擎可能更为合适。

**SimpleQA并非衡量AI准确性的唯一方法**

为了评估此类被称为大型语言模型(LLMs)的AI模型,还有诸如SelfCheckGPT、Chatbot Arena、DeepEval和ARC-AGI等其他工具和基准测试。但它们都存在一个共同问题:它们成为了AI训练的目标。

蒙纳士大学的AI研究员Geoff Webb指出,计算机科学领域的各个方面都易受此问题影响。“一旦有了设定特定类型测试的基准,人们就开始针对这些基准训练系统,”他说道。使程序更好地适应特定基准并不一定意味着它在整体上表现更佳。例如,你可以设计一个专门针对SimpleQA的4,326个问题并全部正确回答的聊天机器人,在此指标下得分为满分,但却无法判断天空是否为蓝色。

Webb教授指出,这种偏差可能较为隐晦。人们或许并未刻意针对SimpleQA的问题训练系统,但他们可能会选择某些发展方向,以提升SimpleQA得分(或其他基准得分)。她建议,人类可以随机抽查答案,就像制造商经常抽检样品一样,这可能成为一种有效的质量控制手段。

德席尔瓦教授指出,判断大型语言模型(LLM)成功与否的一个更好方式是看它被应用的程度。他说,基于GPT-4构建的微软Copilot可以被视为优于其竞争对手,因为它已经被广泛应用。“这本身就构成了一个更为通用且潜在的评估标准。”

**如何让AI减少幻觉?**

除了“加大算力与数据量”之外,OpenAI对提高GPT准确性所做的具体工作表述不够明确。但这次特定测试中的最新改进是否意味着AI将犯更少的错误?或者它们的改进存在上限?

谷歌AI的Gemini和微软的Copilot也是LLM。根据韦伯教授的说法,简单地向LLM添加更多训练数据的问题在于数据不一定准确。“人们会写一些奇怪的东西,”他说。德席尔瓦教授表示,目前通过增加数据和计算能力来提升LLM的模式无法无限期地持续改进。“也许去年年底,人工智能公司已经用尽了所有可用于训练大型语言模型的有用数据,”他说。这意味着LLM的新功能有显著的局限性。

ChatGPT于2022年底发布,目前基于GPT-4o LLM。去年末,各种新闻和技术媒体开始报道行业传闻,称AI模型遭遇了天花板,在投入更多资源后也无法生成更优的LLM。OpenAI首席执行官山姆·阿尔特曼否定了这一观点,并在X上发布“没有墙”。然而,德席尔瓦教授认为,那些乘着AI热潮的公司只是对天花板的存在反应迟钝。“我认为我们在构建如此大规模的模型方面已经遭遇了天花板,”他说。

**能否制造出从不产生幻觉的AI?**

无论准确性是否正在提高,当前形式的生成式AI永远无法彻底摆脱幻觉。这并非仅仅因为它们所依赖的数据有时不够准确,韦伯教授说。当被问及是否存在上帝时,ChatGPT回应称存在“多种视角”,并询问用户的想法。许多非存在主义层面的问题也可能难以准确回答——尤其是当它们涉及政治或文化议题时。例如,当被问及德克萨斯州沿海的水域时,ChatGPT将其称为墨西哥湾。在这种情况下,它没有承认美国总统唐纳德·特朗普最近发布的行政命令,将其更名为“美洲湾”。

幻觉往往是必需的

沙菲亚巴迪博士指出,用户常常希望生成式AI能够产生幻觉。例如,所有AI生成的图片都是幻觉。“生成信息是我们希望它做的事情。我们不想让它成为一个搜索引擎,”她说。如果你想要一个能够生成其数据集中不存在内容的模型,用户无法阻止其生成此类内容。一个只告诉你准确事实的模型不可能,例如,为新公司命名,或起草个性化的饮食或锻炼计划。

AI注定会产生数百万公吨的电子废弃物

照片展示了一排排计算机设备的数据中心。为生成式AI建造的巨大数据中心到2030年将产生数百万公吨的电子废弃物。

“幻觉”这个词已被许多人质疑——或许最引人注目的是去年三位英国研究人员提出的质疑。他们暗示,所有的LLM在技术意义上都会产生“废话”:即不顾其准确性而产生的信息。

但其他生成式AI模型也在开发中。OpenAI发布了其他模型,称为o1和o3,这些模型比基于单词的GPT模型具有更强的推理能力。德席尔瓦教授说,这两种模型的结合可能会使GPT-5看起来更可靠,最终造就一个更可靠的聊天机器人。“它必须是GPT加上别的东西,”他说。但一个全新构建的模型仍然可能面临问题。

韦伯教授说,这些系统天然蕴含偏见、文化和价值观。“目前,这些偏见、文化和价值观是北美式的。”“很多努力都集中在所谓的‘消除偏见’上,但这实际上是为了迎合目标市场人群的偏好。”

在短期内——并且很可能在长期内也是如此——幻觉将会继续存在。

**科学资讯直达邮箱**

获取来自ABC的所有最新科学故事。您的信息将按照《ABC隐私收集声明》处理。电子邮件地址订阅将文中的英文单词都翻译成中文,最终的内容只输出中文,装备名称、人名地名、公司名称都翻译成中文,最后将语句再润色一下,使得前后文更加的通顺,让语句更加的生动,将最后的输出文本的格式看起来更美观,除此之外,不要提供任何解释文字。

(以上内容均由Ai生成)

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日
苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

快速阅读: 据《香港标准》称,下载《标准》App,获取新闻、动态和大事:https://www.thestandard.com.hk/appdownload 下载《标准》应用程序,及时获取新闻、最新动态和重大事件: https://www. […]

发布时间:2025年8月1日