AI为何常编造不实信息?训练方式成关键

发布时间:2025年11月2日    来源:szf
AI为何常编造不实信息?训练方式成关键

快速阅读: 研究人员指出,AI模型如ChatGPT可能因训练方式产生“幻觉”,即编造不真实信息。模型通过概率计算生成答案,缺乏真实数据时易出错。OpenAI建议模型表达不确定性以减少幻觉,但实施难度大。

为什么人工智能会编造不真实的信息?

这归根结底于这些系统的训练方式,研究人员表示。

尽管ChatGPT是最知名且广泛使用的大型语言模型之一,但它仍可能提供含有错误的答案。

(图片:Matt Rourke,AP,NTB)

记者:拉斯·比尔纳斯塔德

发布时间:2025年11月2日 – 00:01

你可能亲身经历过这种情况。有时,大型AI模型给出的答案看似正确。

它表现得非常自信,但实际上可能是完全虚构的。

这是语言模型的一个基本问题,即使是最先进的模型也未能解决这一“幻觉”现象,这是OpenAI公司——最著名的语言模型ChatGPT背后的公司——几位研究人员撰写的文章中提到的。

文章发表在预印本档案Arxiv上,但尚未经过同行评审。

尽管如此,这篇文章已经引发了关于如何处理语言模型不确定性问题的讨论,奥斯陆大学信息学系教授埃里克·维尔达尔告诉《科学挪威》。

另一位研究者认为,OpenAI提出的解决方案可能会彻底破坏人们与这些AI模型的关系,这一点将在后文中详细讨论。

但首先,这些“幻觉”是如何产生的?当模型没有一个好的答案时,它们应该怎么做?

奥斯陆大学信息学系教授埃里克·维尔达尔

(图片:奥斯陆大学)

“事情可能会出错”

维尔达尔告诉《科学挪威》,幻觉是语言模型工作原理的一部分。

“这些模型是对词序列的概率分布,而不是关于世界的事实数据库,”他说。

换句话说,像ChatGPT这样的模型产生的句子是概率计算的结果。每个词的选择都是基于其前面词最可能出现的情况。

因此,有时事情可能会偏离轨道。

“特别是在训练数据中代表性不足的主题上,事情更容易出错,”维尔达尔说。

这时,模型可能会开始产生听起来合理但实际上并不真实的答案。例如,虚构的研究。

“它可以编造一些听起来可能的事情,甚至杜撰标题和参考文献,看起来很真实。也许它还会使用真实研究者的姓名作为作者,”他说。

文章的作者指出,在训练过程中,模型因猜测而得到奖励,而不是因为表达不确定性。

多项选择

当AI模型接受训练时,会使用不同类型的测试来评估其性能。这些测试也可以是多项选择形式,其中模型有明确的答案选项可供选择。

这可以与人类参加此类测试相比较,研究人员在文章中写道。猜测总比什么都不做要好,因为至少有机会答对。

“问题是,模型不会因为承认不知道某件事而获得奖励,所以它只会猜测,”维尔达尔说。

研究人员建议引入“我不知道”选项。

这样做可以让模型学会表达不确定性,而不是编造答案。维尔达尔认为,如果这种做法成为模型训练评估的一部分,可能会减少幻觉的发生。

然而,他补充说,这种方法可能不适用于较长的开放式任务,比如撰写论文或总结研究。

“当人们要求模型总结知识或撰写某个主题时,很难看到该提议如何起作用,”维尔达尔说。

仍然存在的问题

幻觉仍然是一个持续的挑战。

最近的一个例子来自挪威广播公司NRK,该公司让语言模型回答公共广播网站上的新闻相关问题。

45%的回答包含重大错误,包括编造的新闻文章和虚假链接,据NRK报道(链接为挪威语)。

即便如此,维尔达尔表示,过去一年情况有所改善。

“主要是因为语言模型越来越多地与互联网搜索和外部工具结合使用。这有助于将答案建立在真实信息的基础上,”他说。

但模型是否应该更好地传达不确定性?

“用户可能会放弃这样的系统”

OpenAI提出的一个解决方案是让语言模型在给出答案之前评估自己对该答案的信心程度,研究员韦兴在《对话》杂志中写道。

根据文章中的数据,他认为这种方法可能导致大型语言模型大约三分之一的时间以“我不知道”开始回应。

他认为:“习惯于几乎任何问题都能得到自信回答的用户可能会迅速放弃这样的系统。”

维尔达尔并不完全同意这一观点。

“当然,人们希望获得明确的答案,但如果答案是错误的,他们也不会接受。我宁愿模型承认它不知道,但也不应过于谨慎。”他说道。

维尔达尔指出,如果模型因为害怕出错而频繁回应‘我帮不了你’,那它也不会很有用。

(以上内容均由Ai生成)

你可能还想读

洛克希德马丁引入谷歌云AI能力至本地设施

洛克希德马丁引入谷歌云AI能力至本地设施

快速阅读: 洛克希德·马丁与谷歌合作,将双子星系统引入本地环境,提供安全可靠的AI解决方案,支持航空航天、太空探索和网络安全等行业,加速创新。 据公司表示,这将使洛克希德·马丁AI工厂团队能够利用谷歌AI工具,为包括航空航天、太空探索和网络 […]

发布时间:2025年11月2日
AI科学家在线会议暴露技术根本弱点

AI科学家在线会议暴露技术根本弱点

快速阅读: 上周Agents4Science 2025会议展示了AI在科研中的广泛应用与挑战,每篇论文首列大型语言模型为作者和审稿人,学者们分享了AI使用经验及技术局限。 随着人工智能(AI)在科学研究中的参与度不断增加,尤其是在中美之间的 […]

发布时间:2025年11月2日
莫迪将启动1万亿卢比基金,助力私营部门AI和深科技研发

莫迪将启动1万亿卢比基金,助力私营部门AI和深科技研发

快速阅读: 印度总理莫迪将在2025年11月3日的ESTIC大会上公布1万亿卢比的RDI计划,旨在促进私营部门主导的研发生态系统。该基金将通过低息贷款和股权投资支持前沿领域,预计吸引3000名专家参会。 印度总理莫迪将于2025年11月3日 […]

发布时间:2025年11月2日
微软CEO纳德拉:将以AI为先扩大招聘

微软CEO纳德拉:将以AI为先扩大招聘

快速阅读: 微软CEO纳德拉表示,尽管科技行业裁员,微软仍计划扩招,但新员工需具备AI能力。此前微软裁员近4%,以加大AI投资,计划2025年前投入800亿美元。 微软首席执行官萨提亚·纳德拉表示,在全球科技行业裁员浪潮数月后,公司仍计划扩 […]

发布时间:2025年11月2日
三星:明年的 HBM 内存产能已售罄,考虑扩建生产线

三星:明年的 HBM 内存产能已售罄,考虑扩建生产线

快速阅读: 三星考虑扩建HBM生产线,明年产能预订一空,正向英伟达供应HBM3E。因AI需求,半导体市场预计明年上半年强劲,但传统产品面临供应紧张。 IT之家 11 月 2 日消息,据 TheElec 报道,三星考虑扩建高带宽内存(HBM) […]

发布时间:2025年11月2日
国产GPU龙头燧原科技重启上市辅导,更换辅导机构

国产GPU龙头燧原科技重启上市辅导,更换辅导机构

快速阅读: 燧原科技启动科创板上市辅导,由中信证券接替中金公司,基于市场环境变化及战略需求。公司成立于2018年,专注AI云端算力产品,2024年完成第五期辅导。 11月1日,中国证监会官网显示,上海燧原科技股份有限公司(以下称燧原科技)已 […]

发布时间:2025年11月2日
韩国启动双轨AI战略,大力发展文本与物理模型

韩国启动双轨AI战略,大力发展文本与物理模型

快速阅读: 韩国推出“双轨”AI战略,获英伟达26万GPU支持,旨在开发文本和物理AI模型,提升全球竞争力,利用制造业优势构建独立AI生态系统。 韩国正式推出“双轨”人工智能(AI)战略,旨在通过开发基于文本的基础模型和物理AI模型来提升全 […]

发布时间:2025年11月2日
星展银行推出AI防骗工具,助力识别网购骗局

星展银行推出AI防骗工具,助力识别网购骗局

快速阅读: Starling Bank推出“欺诈智能”AI工具,帮助客户识别在线购物诈骗,利用谷歌Gemini模型分析图像和文本,提供即时风险评估,保护用户资金安全。 Starling Bank 在其应用程序中推出了一款由人工智能驱动的工具 […]

发布时间:2025年11月2日