AI 幻觉越来越严重

发布时间:2025年5月7日    来源:szf
AI 幻觉越来越严重

快速阅读: 据《The Week (美国)》称,随着生成式AI普及,幻觉现象频发,最新模型的错误反而增多。OpenAI等公司正努力减少这一现象,但专家认为这可能是技术固有特性且不会消失。这对依赖AI处理关键信息的任务构成挑战。

随着生成式人工智能日益普及,这一工具有时会扭曲事实。这些谎言,或者在科技行业被称为幻觉的现象,在公司改进工具功能后曾有所改善。但近期的模型却背道而驰,幻觉现象变得更加频繁。新的推理模型正处于快速发展之中,自ChatGPT问世以来,尽管人工智能机器人已经深入集成到各种任务中,《纽约时报》称,“无法保证这些系统能够提供准确的信息”。当前的人工智能机器人“既不能也不能判断真假”。最近,随着技术的进步,幻觉问题似乎变得更严重了。由OpenAI、谷歌以及中国初创企业深寻开发的推理模型被认为是“最新且最强大的技术”,但它们“产生的错误反而更多,而非更少”。尽管这些模型的数学能力“显著提升”,但它们对事实的掌握却更加不稳定。原因尚不清楚。

推理模型是一种大型语言模型(LLM),旨在执行复杂任务。与“仅根据概率统计模型输出文本”的方式不同,推理模型“将问题或任务分解为类似人类思维过程的步骤”。PC Gamer指出,在其最新的OpenAI推理系统测试中,公司发现其o3系统在运行PersonQA基准测试时有33%的时间出现幻觉,该测试涉及回答公众人物相关的问题。这一幻觉率是OpenAI先前推理系统o1的两倍以上。最新工具o4-mini的幻觉率达到48%,甚至更高。

订阅《一周》,摆脱回声室。获取新闻背后的事实,加上多角度分析。订阅并节省注册《一周》免费通讯,从每日新闻简报到每周的好消息通讯,获取《一周》的最佳内容直接送至您的邮箱。

OpenAI反驳了推理模型幻觉率增加的说法,并表示需要更多的研究来理解这些发现。幻觉并非“推理模型固有的特性”。尽管如此,OpenAI发言人Gabrielle Raila告诉《纽约时报》,公司正“积极努力减少我们在o3和o4-mini中观察到的较高幻觉现象”。

太多“不希望出现的机器人幻觉”对于一些专家而言,幻觉似乎是技术本身的固有特性。尽管公司尽了最大的努力,人工智能“总会产生幻觉现象”,AI初创公司Vectara的首席执行官兼前谷歌高管Amr Awadallah对《纽约时报》说道。“这种情况不会消失。”

然而,《纽约时报》指出,幻觉对使用该技术处理法律文件、医疗信息或敏感商业数据的人来说是一个“严重问题”。Pratik Verma,Okahu公司的联合创始人兼首席执行官(一家帮助公司应对幻觉问题的企业)表示:“你需要花费大量时间来判断哪些回应是真实的,哪些不是。”忽视这些错误“消除人工智能系统的价值,它们本应自动完成任务。”

对于一些专家而言,幻觉似乎是技术本身的固有特性。尽管公司尽了最大的努力,人工智能“总会产生幻觉现象”,AI初创公司Vectara的首席执行官兼前谷歌高管Amr Awadallah对《纽约时报》说道。“这种情况不会消失。”

《未来主义》指出,公司正在“努力弄清为什么聊天机器人比以前产生更多错误”——这种挣扎“突显了一个令人费解的事实,即即使是人工智能的创造者也不完全理解这项技术的工作原理”。最近令人担忧的幻觉趋势“挑战了业界普遍持有的假设,即随着规模扩大,人工智能模型会变得更强大、更可靠”。

对于一些专家而言,幻觉似乎是技术本身的固有特性。尽管公司尽了最大的努力,人工智能“总会产生幻觉现象”,AI初创公司Vectara的首席执行官兼前谷歌高管Amr Awadallah对《纽约时报》说道。“这种情况不会消失。”

无论如何,如果人工智能模型要像其支持者目前设想的那样有用,就需要“大幅减少无用内容和虚假信息”,PC Gamer指出。现在“很难信任任何LLM的输出”,几乎所有的数据“都需要仔细核验”。这对部分任务来说尚可接受,但当目标是“节省时间和劳动力”时,对人工智能输出进行“严谨的校对与事实核查”确实违背了使用它们的目的。尚不清楚OpenAI和其他大型语言模型行业能否“控制住所有那些不希望出现的机器人幻觉”。

(以上内容均由Ai生成)

关键词: Ai幻觉越来越

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日