AI 幻觉越来越严重

发布时间:2025年5月7日    来源:szf
AI 幻觉越来越严重

快速阅读: 据《The Week (美国)》称,随着生成式AI普及,幻觉现象频发,最新模型的错误反而增多。OpenAI等公司正努力减少这一现象,但专家认为这可能是技术固有特性且不会消失。这对依赖AI处理关键信息的任务构成挑战。

随着生成式人工智能日益普及,这一工具有时会扭曲事实。这些谎言,或者在科技行业被称为幻觉的现象,在公司改进工具功能后曾有所改善。但近期的模型却背道而驰,幻觉现象变得更加频繁。新的推理模型正处于快速发展之中,自ChatGPT问世以来,尽管人工智能机器人已经深入集成到各种任务中,《纽约时报》称,“无法保证这些系统能够提供准确的信息”。当前的人工智能机器人“既不能也不能判断真假”。最近,随着技术的进步,幻觉问题似乎变得更严重了。由OpenAI、谷歌以及中国初创企业深寻开发的推理模型被认为是“最新且最强大的技术”,但它们“产生的错误反而更多,而非更少”。尽管这些模型的数学能力“显著提升”,但它们对事实的掌握却更加不稳定。原因尚不清楚。

推理模型是一种大型语言模型(LLM),旨在执行复杂任务。与“仅根据概率统计模型输出文本”的方式不同,推理模型“将问题或任务分解为类似人类思维过程的步骤”。PC Gamer指出,在其最新的OpenAI推理系统测试中,公司发现其o3系统在运行PersonQA基准测试时有33%的时间出现幻觉,该测试涉及回答公众人物相关的问题。这一幻觉率是OpenAI先前推理系统o1的两倍以上。最新工具o4-mini的幻觉率达到48%,甚至更高。

订阅《一周》,摆脱回声室。获取新闻背后的事实,加上多角度分析。订阅并节省注册《一周》免费通讯,从每日新闻简报到每周的好消息通讯,获取《一周》的最佳内容直接送至您的邮箱。

OpenAI反驳了推理模型幻觉率增加的说法,并表示需要更多的研究来理解这些发现。幻觉并非“推理模型固有的特性”。尽管如此,OpenAI发言人Gabrielle Raila告诉《纽约时报》,公司正“积极努力减少我们在o3和o4-mini中观察到的较高幻觉现象”。

太多“不希望出现的机器人幻觉”对于一些专家而言,幻觉似乎是技术本身的固有特性。尽管公司尽了最大的努力,人工智能“总会产生幻觉现象”,AI初创公司Vectara的首席执行官兼前谷歌高管Amr Awadallah对《纽约时报》说道。“这种情况不会消失。”

然而,《纽约时报》指出,幻觉对使用该技术处理法律文件、医疗信息或敏感商业数据的人来说是一个“严重问题”。Pratik Verma,Okahu公司的联合创始人兼首席执行官(一家帮助公司应对幻觉问题的企业)表示:“你需要花费大量时间来判断哪些回应是真实的,哪些不是。”忽视这些错误“消除人工智能系统的价值,它们本应自动完成任务。”

对于一些专家而言,幻觉似乎是技术本身的固有特性。尽管公司尽了最大的努力,人工智能“总会产生幻觉现象”,AI初创公司Vectara的首席执行官兼前谷歌高管Amr Awadallah对《纽约时报》说道。“这种情况不会消失。”

《未来主义》指出,公司正在“努力弄清为什么聊天机器人比以前产生更多错误”——这种挣扎“突显了一个令人费解的事实,即即使是人工智能的创造者也不完全理解这项技术的工作原理”。最近令人担忧的幻觉趋势“挑战了业界普遍持有的假设,即随着规模扩大,人工智能模型会变得更强大、更可靠”。

对于一些专家而言,幻觉似乎是技术本身的固有特性。尽管公司尽了最大的努力,人工智能“总会产生幻觉现象”,AI初创公司Vectara的首席执行官兼前谷歌高管Amr Awadallah对《纽约时报》说道。“这种情况不会消失。”

无论如何,如果人工智能模型要像其支持者目前设想的那样有用,就需要“大幅减少无用内容和虚假信息”,PC Gamer指出。现在“很难信任任何LLM的输出”,几乎所有的数据“都需要仔细核验”。这对部分任务来说尚可接受,但当目标是“节省时间和劳动力”时,对人工智能输出进行“严谨的校对与事实核查”确实违背了使用它们的目的。尚不清楚OpenAI和其他大型语言模型行业能否“控制住所有那些不希望出现的机器人幻觉”。

(以上内容均由Ai生成)

关键词: Ai幻觉越来越

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日