Google 的 AI 概述用自信的废话解释虚构的成语

快速阅读: 《CNET 公司》消息，生成式AI可能凭空创造不存在的短语定义，展示其“幻觉”特性。专家提醒用户对AI输出持怀疑态度，建议在提问时加入验证，如询问“这是真的习语吗？”以减少误信风险。

语言似乎无穷复杂，玩笑和习语有时只对一小群人有意义，而对我们其他人来说则显得毫无意义。多亏了生成式人工智能（生成式AI），即使那些看似无意义的表达本周也找到了意义，因为互联网上关于谷歌搜索的人工智能概述（AI概述）能够定义从未被提及过的短语的现象引发了热议。你可能从未听说过“爆红得像溪鳟鱼一样”这句话？当然，这是我刚刚编造出来的，但根据谷歌的AI概述结果，这是一种“口语化的说法”，表示某事突然爆炸或变得轰动。不过，这显然没有道理。这一趋势可能始于Threads社交平台，在那里，作者兼编剧梅根·威尔逊·安娜斯塔西奥斯分享了搜索“花生酱坡跟鞋”时的搜索结果。谷歌返回了一个结果，引用了一项（并非真实的）科学实验，其中使用花生酱来展示在高压下钻石的形成过程。这个现象后来蔓延至其他社交媒体平台，比如Bluesky，人们分享了谷歌对诸如“你不能两次舔一只獾”等短语的解释。

游戏规则是：搜索一个新颖、荒谬且看似有“意义”的短语。事情就这样继续发展下去。

这个梗不仅仅是为了带来欢笑，它展示了大型语言模型如何努力提供听起来正确的答案，而不是真正正确的答案。“它们的设计目的是生成流畅且听起来合理的回应，即使输入的内容完全荒谬，”孟菲斯大学福格尔曼商学院经济学助理教授李雅芳说，“它们并未经过训练去验证真实性，而是被训练用来完成句子。”

就像披萨上的胶水一样，这些虚构的短语含义让人回想起谷歌AI概述给出极其错误的基本问题答案的真实故事——比如建议在披萨上涂胶水以帮助奶酪粘住。这个趋势至少看起来更无害，因为它并不集中在可操作的建议上。我的意思是，我希望没有人尝试舔一只獾，更不用说两次。

然而，背后的问题是一样的——像谷歌的Gemini这样的人工智能概述背后的大型语言模型试图回答你的问题并提供可行的回答。即使它给你的内容毫无意义。

一位谷歌发言人表示，AI概述旨在显示由顶级网络结果支持的信息，并且它们的准确性与其他搜索功能相当。“当人们进行荒谬或‘错误前提’的搜索时，我们的系统会尝试根据有限的网络内容找到最相关的结果，”谷歌发言人说。“这是整体搜索的特点，有时，AI概述也会触发以提供有用的上下文。”

这个特定案例是一个“数据空白”，即对于搜索查询来说，没有太多相关信息可用。发言人表示，谷歌正在努力限制在信息不足的情况下AI概述出现在搜索中的情况，并防止它们提供误导性、讽刺性或无用的内容。谷歌利用这些查询信息更好地理解何时应该或不应该出现AI概述。

如果你询问一个虚假短语的意义，不一定总是能得到虚构的定义。在起草本节标题时，我搜索了“像披萨上的胶水一样”，并没有触发AI概述。这个问题似乎并非普遍存在于所有LLM中。我向ChatGPT询问了“你不能两次舔一只獾”的含义，它告诉我这个短语“不是一个标准的成语，但它确实听起来像是那种古怪、质朴的谚语，有人可能会用。”不过，它还是试图提供一个定义，大致意思是：“如果你做了一些鲁莽的事情或挑衅危险一次，你可能不会活下来再做一次。”

阅读更多：AI核心：根据我们的专家，27种让生成式AI为你工作的方法

从无到有的意义

这种现象是LLM倾向于胡乱编造的一个有趣例子——在AI界被称为“幻觉”。当生成式AI模型产生幻觉时，它会产生听起来可能合理或准确但实际上脱离现实的信息。“它们不是事实生成器，”李雅芳说，“它们只是基于训练预测接下来合乎逻辑的语言片段。”

近期一项调查显示，大多数AI研究人员怀疑AI的准确性和可信度问题短期内无法解决。

这些虚构的定义不仅显示出LLM的不准确性，还显示出其自信的不准确性。当你向一个人询问类似“你不能从赛博卡车上得到火鸡”的短语的含义时，你可能期望他们告诉你他们没听说过这个短语，而且它没有意义。LLM往往以同样自信的态度反应，就好像你在询问一个真正的成语的定义一样。

在这种情况下，谷歌表示这个短语的意思是特斯拉的赛博卡车“并不是设计或能够运送感恩节火鸡或其他类似物品”，并强调了其独特且未来感十足的设计，不适合携带笨重货物。

犀利反击。

这个幽默的趋势有一个令人不安的教训：不要轻信聊天机器人的一切。它可能会凭空捏造内容，而且不一定表明它不确定。

“这是一个绝佳的机会，教育者和研究者可以利用这些场景来教人们如何生成意义以及AI是如何工作的，为什么这很重要，”李雅芳说。“用户应始终保持质疑态度并核实声明。”

小心你所搜索的内容

既然你不能指望LLM替你保持质疑态度，你需要鼓励它对你所说的话持怀疑态度。“当用户输入提示语时，模型只是假设它是有效的，然后继续生成最可能准确的回答，”李雅芳说。

解决方案是在提示语中引入怀疑。不要询问不熟悉的短语或习语的意义。李雅芳建议你问“这是真的习语吗？”“这可能有助于模型识别短语而不是随意猜测，”她说。