AI

OpenAI揭示大模型幻觉问题根源及解决方案

发布时间:2025年9月6日    来源:szf
OpenAI揭示大模型幻觉问题根源及解决方案

快速阅读: 研究人员发现,大型语言模型产生幻觉的原因在于训练方法奖励猜测而非承认不确定性。OpenAI提出需重新设计评估指标,以减少模型在不确定时的猜测行为,提高准确性。

研究人员声称,他们已经解决了大型语言模型性能中的一个主要障碍——幻觉。幻觉是指大型语言模型生成了不准确的信息并将其作为事实呈现。这一问题困扰着最流行的大型语言模型,从OpenAI的GPT-5到Anthropic的Claude。

OpenAI在周四发布的一篇论文中指出,其基础发现是,大型语言模型之所以会产生幻觉,是因为它们的训练方法奖励猜测多于承认不确定性。换句话说,这些模型被鼓励“假装直到成功”。不过,有些模型表现得更好。上个月,OpenAI在其博客文章中提到,Claude模型更能意识到自己的不确定性,通常会避免做出不准确的陈述。然而,Claude的高拒绝率也有可能限制其实用性。

“幻觉持续存在的原因在于大多数评估的方式——语言模型被优化为优秀的考试者,不确定时猜测可以提高考试成绩。”研究人员在论文中写道。大型语言模型几乎总是处于“考试模式”,回答问题时仿佛生活中的每件事都是非黑即白的。然而,在许多方面,它们并不适合现实生活的复杂性,在现实中,不确定性比确定性更为常见,真正的准确性并非总是能够保证。

相关报道指出,“人类在实际生活中学会了表达不确定性的重要性,而语言模型主要是通过考试来评估,这些考试惩罚不确定性。”研究人员进一步解释道。

好消息是,解决方法涉及重新设计评估指标。“根本问题在于大量评估标准的不一致。”他们写道,“需要调整众多的主要评估标准,以停止在不确定时惩罚弃权。”

在关于该论文的博客文章中,OpenAI详细说明了这种调整将涉及的内容。“广泛使用的基于准确性的评估需要更新,以便其评分机制不再鼓励猜测。如果主要排行榜继续奖励幸运的猜测,模型将继续学习如何猜测。”OpenAI表示。

对于《商业内幕》的评论请求,OpenAI尚未立即回应。

(以上内容均由Ai生成)

你可能还想读

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

快速阅读: 韩国今年半导体出口预计超1650亿美元,前九月已达1197亿美元,同比增长17%,占总出口23%。增长因人工智能服务器需求和内存价格上涨,在全球经济放缓中展现韧性。 据韩国贸易、工业和资源部本周消息,今年韩国半导体出口预计将达到 […]

发布时间:2025年10月24日
纽约消防局启用AI摄像头,提前预警森林火灾

纽约消防局启用AI摄像头,提前预警森林火灾

快速阅读: 纽约市消防局推出太阳能驱动、AI支持的烟雾检测摄像头,可在火势蔓延前及时发现火灾,计划扩展至五个行政区,增强早期预警能力,保护高风险区域安全。 纽约市消防局(FDNY)的灌木火灾特遣队最近推出了最新的太阳能驱动、人工智能支持的烟 […]

发布时间:2025年10月24日
谷歌云TPU助力Anthropic扩大Claude训练规模

谷歌云TPU助力Anthropic扩大Claude训练规模

快速阅读: Anthropic与Google深化合作,扩大计算能力,支持Claude满足快速增长的客户需求,巩固行业领先位置。 Anthropic 和 Google 有着长期的合作关系,此次合作的进一步扩展将帮助我们继续扩大所需的计算能力, […]

发布时间:2025年10月24日
中兴呼吁重耦合计算与网络,推动AI可持续发展

中兴呼吁重耦合计算与网络,推动AI可持续发展

快速阅读: 中兴通讯CEO徐子阳呼吁电信与计算行业重新耦合,以适应AI需求增长,提出AI Core战略,展示多款支持AI的产品,强调可持续发展与成本控制,与泰国AIS合作提升网络效率。 近年来,电信和计算行业纷纷采取解耦策略,通过技术与产品 […]

发布时间:2025年10月24日
微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

快速阅读: 微软推出新AI角色Mico,作为Copilot虚拟助手的化身,旨在为AI聊天机器人增添个性,同时保持友好而不谄媚的形象,通过表情和动作响应用户情绪,目前仅限美国用户使用。 近三十年前令微软Office用户感到厌烦的动画纸夹Cli […]

发布时间:2025年10月24日
英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

快速阅读: 英特尔公布2025年第三季度财报,营收137亿美元,同比增长3%,毛利率达38.2%。各业务部门表现不一,CCG营收增长5%,DCAI和代工业务略有下降。期间获多笔重大投资,推进技术创新和市场扩展。 感谢IT之家网友HH_KK、 […]

发布时间:2025年10月24日
微软推出AI伴侣Mico,致敬经典Clippy大眼夹

微软推出AI伴侣Mico,致敬经典Clippy大眼夹

快速阅读: 微软推出AI聊天机器人Mico,具有表情丰富的头像,能倾听互动并根据用户操作变换颜色。首次在美国、加拿大和英国推出,支持“Learn Live”模式,旨在加深人际联系。 10 月 24 日消息,北京时间今天凌晨,微软推出了一款名 […]

发布时间:2025年10月24日
英特尔107制程产能紧张,AI PC出货预期不变

英特尔107制程产能紧张,AI PC出货预期不变

快速阅读: 英特尔在2025Q3财报电话会议中宣布,Intel 10/7制程节点供应紧张,尽管第三季度晶圆交付量超出预期,仍无法满足客户需求。英特尔计划利用现有库存并引导客户转向其他产品,预计2026年一季度供应更紧。同时,英特尔维持年底前 […]

发布时间:2025年10月24日