AI 生成信息的危险

快速阅读: 据《黑客 Noon》最新报道，本文研究了人工智能如何通过降低获取信息成本，影响公共知识的分布。结果显示，过度依赖AI生成内容会导致边缘化和罕见观点的缺失，使公共知识偏离真相。研究发现，当AI生成内容的价格折扣越大，公共知识与真实分布的差距也越大。此外，AI截断程度和更新速度也会影响知识崩塌的程度。

作者：安德鲁·J·彼得森，普瓦捷大学 ([email protected])。

链接表摘要和引言

相关工作

媒体、过滤气泡和回音室

网络效应与信息级联

知识崩塌模型

已知的大型语言模型偏差

知识崩塌模型结果

讨论与参考文献

附录

比较尾部宽度定义

知识崩塌结果

我们主要关注的观点是，人工智能通过降低获取某些类型信息的成本，只能让我们变得更好。与关于模型崩溃的文献不同，我们考虑了战略人类在何种条件下可能会寻求维持知识分布完整性的输入数据。因此，我们首先考虑不同的折扣率。首先，我们展示了经过100轮后公共知识的核密度估计（图3）。作为基线，当不使用AI时没有折扣（折扣率为1），那么如预期的那样，公共知识收敛到真实分布。然而，随着AI降低了截断知识的成本，公共知识的分布向中心集中，尾部知识被低估。在这种情况下，过度依赖AI生成的内容会逐渐导致边缘化和罕见观点的缺失，这些观点维持着对世界的全面视角。固定特定参数，我们可以感受到依赖AI的影响大小。例如，在我们的默认模型中，经过九代之后，如果没有AI折扣，公众分布与真实分布之间的海林格距离仅为0.09。当AI生成的内容便宜20%（折扣率为0.8）时，该距离增加到0.22，而50%的折扣使距离增加到0.40。因此，虽然廉价的AI近似可能被认为只会增加公共知识，但在这种情况下，由于依赖AI，公共知识与真相的距离增加了2.3倍或3.2倍。

对于后续结果，我们绘制了100轮结束时公共知识与真实分布之间的海林格距离。首先，我们在图4中考察了更新相对样本值的重要性和折扣因子的关系。也就是说，我们将个体不更新前几轮创新价值的情况（学习率接近零，例如lr = 0.001）与快速更新的情况（此处lr = 0.1）进行比较。如上所述，AI生成内容越便宜（用颜色表示折扣率），公共知识就越倾向于向中心集中。同时，当个体更新相对从AI学习的价值较慢时（在图中更靠左的位置），公共知识也越倾向于向中心集中。我们也观察到了一种权衡，即更快地更新AI生成内容的相对价值可以补偿更大的价格差异。相反，如果折扣率不是太极端，即使缓慢更新相对价值也不会造成太大伤害。

在图5中，我们考虑了AI生成内容截断程度变化对知识崩塌的影响。直观地说，极端截断（σtr的小值）对应于AI仅总结最明显或常见的观点的情况。较少极端的截断对应于AI能够代表多种观点，并排除极罕见或深奥的观点的想法。自然，在后一种情况下（例如，如果AI将分布截断至平均值的两个标准差之外），影响最小。如果AI截断超出平均值0.25个标准差的知识，影响很大，但一旦折扣较小（特别是如果没有世代效应），这至少会有所缓解。

我们在图6中比较了错误世代累积的影响。如果没有世代变化，最坏的情况下也只是减少了截断限制外的公共知识尾部。在这种情况下，分布是稳定的，不会“崩塌”。

0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00

截断

0.2 0.3 0.4 0.5 0.6

海林格距离

折扣因子

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

图5：折扣率与截断限制

本文可在arxiv上获得，采用CC BY-NC-SA 4.0许可证。

[9] 即使没有折扣，偶尔会有来自截断分布的样本，但仅足以表明它们的价值低于全分布样本。

[10] 在平均值的0.75个标准差处截断，每10轮一代，学习率为0.05。

[11] 即使在这里也有来自截断分布的样本——仅足以表明它们的价值低于全分布样本。