我们比较了八个 AI 搜索引擎。他们都不擅长引用新闻。
快速阅读: 据《哥伦比亚新闻评论》称,研究表明,多种生成式搜索工具在检索和引用新闻内容时存在严重问题,包括提供错误答案、伪造链接和无视出版商的爬虫偏好。这些工具通常表现出过分自信的态度,导致信息不准确。即使与新闻出版商有合作协议,这些工具仍难以准确引用内容。这一现象引发了对信息质量和透明度的担忧,影响新闻制作者和消费者的权益。
订阅《今日媒体》,这是CJR的每日通讯。AI搜索工具正在迅速普及,近四分之一的美国人现在表示他们已经使用AI替代传统的搜索引擎。这些工具的价值来源于在网络上爬取及时、相关的信息——这些信息通常由新闻出版商生产。然而,一个令人不安的不平衡现象出现了:虽然传统搜索引擎通常作为中介,引导用户访问新闻网站和其他高质量内容,但生成式搜索工具自己解析和重新包装信息,切断了流量到原始来源。这些聊天机器人的对话输出常常掩盖了信息质量方面的严重问题。迫切需要评估这些系统如何获取、呈现及引用新闻内容。
基于我们的先前研究,数字新闻中心对八种具有实时搜索功能的生成式搜索工具进行了测试,以评估它们准确检索和引用新闻内容的能力,以及在无法做到时的行为表现。我们发现……聊天机器人通常在无法准确回答问题时未能拒绝回答,而是提供错误或推测性的答案。高级聊天机器人提供的错误答案比免费版本更有信心。聊天机器人通常在无法准确回答问题时未能拒绝回答,而是提供错误或推测性的答案。多个聊天机器人似乎绕过了机器人排除协议的偏好。聊天机器人通常在无法准确回答问题时未能拒绝回答,而是提供错误或推测性的答案。生成式搜索工具伪造链接并引用转载或复制的文章版本。与新闻来源的内容许可协议并未确保聊天机器人的引用准确。
我们的发现与我们之前的研究所一致,证明我们的观察不仅是一个ChatGPT的问题,而是我们在所有主要的生成式搜索工具中测试时都出现的现象。方法论我们随机从每个出版商那里选择了十篇文章,然后手动选择这些文章中的直接摘录用于我们的查询。在向每个聊天机器人提供所选摘录后,我们要求它识别相应的文章标题、原始出版商、发布日期和URL,使用以下查询:我们故意选择了这样的摘录,如果将其粘贴到传统的Google搜索中,会在前三条结果中返回原始来源。我们总共运行了1600个查询(二十个出版商乘以十篇文章乘以八个聊天机器人)。我们根据三个属性手动评估聊天机器人的响应:检索(1)正确的文章,(2)正确的出版商,和(3)正确的URL。根据这些参数,每个响应被标记为以下标签之一:
– 正确:三个属性都是正确的。
– 正确但不完整:一些属性是正确的,但答案缺少信息。
– 部分错误:一些属性是正确的,而另一些是错误的。
– 完全错误:三个属性都是错误的和/或缺失。
– 未提供:没有提供任何信息。
– 爬虫被阻止:出版商在其robots.txt中禁止聊天机器人的爬虫。
聊天机器人的响应往往是自信但错误的。总体而言,聊天机器人经常未能检索到正确的文章。总体上,它们提供了超过60%查询的错误答案。在不同的平台上,不准确性水平各不相同,Perplexity错误回答了37%的查询,而Grok 3的回答错误率则高得多,达到了94%。聊天机器人的响应往往是自信但错误的。我们测试的大多数工具以惊人的自信提供不准确的答案,很少使用诸如“看起来”,“有可能”,“可能”等限定词,或者承认知识缺口的陈述,如“我找不到确切的文章”。例如,ChatGPT错误地识别了134篇文章,但在其两百次回应中仅十五次表示缺乏信心,并且从未拒绝提供答案。除了Copilot——它拒绝回答的问题多于回答的问题——所有工具更倾向于提供错误答案而不是承认限制。高级模型提供的错误答案比免费版本更有信心。尽管高级模型如Perplexity Pro(每月20美元)或Grok 3(每月40美元),因其较高的成本和计算优势,可能被认为比免费版本更可信,但我们的测试显示,虽然两者都比对应的免费版本正确回答了更多的提示,但它们却表现出更高的错误率。这种矛盾主要源自它们倾向于提供确定但错误的答案,而不是直接拒绝回答问题。
根本的担忧不仅限于聊天机器人的事实性错误,还涉及它们权威的对话语气,这使得用户难以区分准确和不准确的信息。这种未经验证的信心给用户带来了潜在危险的可靠性和准确性错觉。平台从已明确禁止其爬虫的出版商那里获取信息。在这项研究中测试的八个聊天机器人中有五个(ChatGPT、Perplexity和Perplexity Pro、Copilot和Gemini)公开了它们爬虫的名字,使出版商可以选择阻止它们,而另外三个(DeepSeek、Grok 2和Grok 3)使用的爬虫名字并不公开。我们预计聊天机器人会正确回答与它们的爬虫可以访问的出版商相关的查询,并且会拒绝回答与网站已禁止其内容访问相关的查询。然而,实际情况并非如此。特别是,ChatGPT、Perplexity和Perplexity Pro在已知哪些出版商允许它们的爬虫访问的情况下表现出意外行为。有时,聊天机器人要么错误地回答了来自出版商的查询,这些出版商允许它们访问其内容。另一方面,它们有时正确地回答了关于出版商的查询,而这些出版商的内容它们本不应该有访问权限;Perplexity Pro在这方面是最严重的违规者,在九十段不应访问的文章摘录中正确识别了将近三分之一。令人惊讶的是,Perplexity的免费版本正确识别了我们从国家地理分享的所有十段付费墙文章摘录,即使该出版商已禁止Perplexity的爬虫并且与AI公司没有正式关系。尽管聊天机器人可以通过其他方式获得关于受限内容的信息(例如通过引用公开可访问的出版物),这一发现表明,尽管Perplexity声称“尊重robots.txt指令”,但实际上它可能忽视了国家地理的爬虫偏好。开发者Robb Knight和连线都报告了去年Perplexity忽略机器人排除协议的证据。(《国家地理》和Perplexity均未回复我们的评论请求。)
同样,新闻公报本月报道,《纽约时报》尽管阻止了Perplexity的爬虫,但在一月份仍是聊天机器人的顶级推荐新闻网站,访问量达146,000次。虽然ChatGPT相比其他聊天机器人回答了较少关于其爬虫被阻止的文章的问题,但总体上它表现出偏向提供错误答案而非无答案的偏见。在爬虫公开的聊天机器人中,Copilot是唯一一个未被我们数据集中任何出版商阻止的。这很可能是因为Copilot使用与Bing搜索引擎相同的爬虫,即BingBot,这意味着希望阻止它的出版商也需要退出Bing搜索的包含。理论上,Copilot应该能够访问我们查询的所有内容;然而,实际上它拥有最高的拒绝回答率。Copilot拒绝回答我们一个提示的例子。另一方面,谷歌创建了Google-Extended爬虫,以便出版商可以选择阻止Gemini的爬虫而不影响其内容在谷歌搜索中的展示。它的爬虫被我们测试的二十个出版商中的十个允许,但Gemini仅在一个场合提供了完全正确的回应。Gemini还会拒绝回答来自允许其爬虫的出版商的内容查询,如果摘录似乎与政治相关,会做出如下回应:“我现在不能帮助关于选举和政治人物的回答。我被训练得尽可能准确,但我有时也会犯错。在我努力改进如何讨论选举和政治的同时,你可以尝试谷歌搜索。”
“旨在促进共同成功,”其中包括与参与出版商的收入分成计划。AI公司与出版商之间的协议通常涉及建立一个由合同协议和技术整合管理的内容管道。这样的协议可能会提升用户查询合作伙伴出版商内容时获得更准确结果的期望。然而,这并不是我们在2025年2月测试中观察到的情况。至少目前尚未实现。例如,《时代》杂志与OpenAI和Perplexity都有合作协议,尽管这些公司的模型没有100%准确识别其内容,但在我们的数据集中,它是识别最准确的出版商之一。另一方面,《旧金山纪事报》允许OpenAI的搜索引擎爬虫,但ChatGPT仅正确识别了我们从该出版商提供的十个摘录中的一个。即使在它确实识别文章的情况下,聊天机器人也正确地命名了出版商,但未能提供网址。Hearst的代表拒绝就我们的文章发表评论。当我们询问AI公司是否承诺确保合作伙伴出版商的内容会在他们的搜索结果中被准确呈现时,《时代》杂志的Howard确认这是他们的意图。然而,他补充说,公司并未承诺做到100%准确。
结论本研究的结果与我们之前发布的关于ChatGPT的研究结果紧密一致,该研究于2024年11月发布,揭示了聊天机器人的一致模式:自信地展示错误信息、误导性地归因于转载内容以及不一致的信息检索实践。批评生成式搜索工具的人如Chirag Shah和Emily M. Bender对使用大型语言模型进行搜索提出了实质性关切,指出它们“剥夺了透明度和用户自主权,进一步放大了与信息访问系统相关的偏见问题,并经常提供未经证实和/或有毒的答案,而这些答案可能不会被普通用户检查。”这些问题可能对新闻制作者和消费者造成潜在危害。许多开发这些工具的AI公司并未公开表示有兴趣与新闻出版商合作。即使这些公司已经合作,也往往无法准确引用内容或遵守通过Robot Exclusion Protocol表达的偏好。因此,出版商在控制其内容是否以及如何通过聊天机器人展示方面选择有限——而且这些选择似乎效果有限。尽管如此,作为《时代》杂志首席运营官的Howard对未来的改进表示乐观:“每次有人向我介绍这些平台中的任何一个时,我的回应都是‘今天是这个产品最糟糕的时候。’凭借庞大的工程团队和对工程的投资规模,我相信它只会变得越来越好。如果任何消费者现在认为这些免费产品能达到100%的准确率,那么他们应该感到羞愧。”
(以上内容均由Ai生成)