当 AI 改写互联网时，我们失去了什么？

快速阅读: 据《黑客 Noon》称，本文研究了网络效应和信息级联效应对社交媒体和大型语言模型（LLMs）的影响。信息级联效应用以解释群体行为，而网络效应则探讨了信息在网络内的传播方式。作者还讨论了模型坍塌现象，即生成器可能生成有限范围内的图像，导致信息丢失。此外，文章指出，在合成数据上训练LLMs可能导致词汇、语义和句法多样性减少。

作者：安德鲁·J·彼得森，普瓦捷大学 ([email protected])。链接列表摘要和引言相关工作媒体、过滤气泡和回音室网络效应和信息级联效应模型坍塌已知的大型语言模型偏差知识崩溃模型结果讨论与参考文献附录比较尾部宽度定义知识崩溃网络效应和信息级联效应信息级联模型提供了一种解释某种群体行为（其中多样且自由的个体仍然做出相似决策）的方法。它们探讨了在何种条件下私人信息无法被公众有效聚合。这可能发生在个体在观察他人的行为但未观察到私人信号的情况下，从一个离散集合中依次做出决定时。这可以产生一种“群体外部性”（班纳吉，1992），在这种情况下，个体在其决策中忽略了其私人信号，因此公众也无法根据她的私人信息进行更新。在极端情况下，这意味着除了最初几个个体之外的所有私人信息都被完全忽略（比克昌达尼，赫希莱费尔和韦尔奇，1998；史密斯和索伦森，2000）。在该模型的一些变体中，个体必须支付以接收信号，这鼓励了想要免费利用他人所获信息的倾向，因此成本越高，越有可能形成级联效应。关于社交网络传播的信息的相关文献分析了信息级联效应的网络结构，作为一种传染形式。这里关注的不是私人信息，而是信息在网络内的流动方式。例如，独立级联模型考虑了个体如何基于接触具有该信念的邻居的概率而改变其信念（戈尔登贝格，利拜和穆勒，2001；格鲁赫等人，2004）。更广泛地说，此类模型确定了网络内扩散概率为连接节点函数的一部分，并可能结合每个节点的社会影响力、意识形态或其他偏好或主题（巴雷里，邦楚和曼科，2013）。或者，传染病模型允许个体处于三种状态之一——易感、感染（能够传播信息）和恢复（此时他们掌握了信息但认为不值得与他人分享）（例如，凯马克和麦肯德里克，1927；巴拉特，巴泰勒米和维斯皮尼亚尼，2008，第10章）。社会（甚至物理）接近性可以使个体共享类似的态度，例如当随机分配住房的个体最终对公寓楼有相似态度，而与其他邻近楼栋不同（费斯特格，施赫特和巴克，1950），如诺瓦克，萨姆雷伊和拉坦尼（1990）所建模。实证研究表明，弱联系可能比强联系更重要用于信息扩散（巴克西等人，2012），而塞恩托拉（2010）证明，在聚类网络中消息的强化使信息传播比在随机网络中更有效。更复杂的模型允许意见过程及其网络节点之间的边的演变（卡斯特兰诺，福图纳托和洛雷托，2009，第47-48页）。这些模型基于个体与其他人、文本、图像等互动的内容，提出了特定的意见形成动态。由此推及，我们可以将这些网络推广到大型语言模型（LLMs）作为关键节点的情况，或者作为决定个体如何导航知识图谱的方式。Web 2.0的核心思想是用户不仅限于作者或程序员，也参与构建知识（奥赖利，2005）。由此延伸，在人工智能时代，LLMs与用户、作者、程序员和技术交互，构建知识，理解信息流需要理解这些元素的涌现特性。模型坍塌模型坍塌的概念源于生成对抗网络（GANs）早期的现象“模式坍塌”。GANs基于生成器神经网络提出，例如一张图像，判别器试图预测给定图像是否由生成器创建或来自数据集中的真实图像。理想情况下，生成器试图在整个输入数据范围内生成图像，但实际上它们可能会陷入生成判别器难以区分的狭窄范围图像，这被称为模式坍塌（古德费洛，2016；阿拉拉等人，2017）。在使用变分自编码器建模语言数据时也发现了“后验坍塌”的情况（梅利斯，格约尔格和布卢松，2022）。舒马列夫等人（2023）引入了“模型坍塌”一词来描述当变分自编码器、高斯混合模型和LLMs在训练数据由较早版本模型生成的数据时发生的相关过程。将AI生成的内容纳入训练数据会导致信息丢失，他们将其分类为两种类型。首先，在“早期模型坍塌”中，由于统计误差（有限采样偏差）或功能逼近误差，分布的尾部丢失，导致回归平均值。其次，“晚期模型坍塌”可能发生在模型在不同于原始数据的分布上收敛且方差狭窄时。他们提供了证据表明LLMs和其他模型存在这种模型坍塌现象，参见例如图1。模型坍塌的概念源于生成对抗网络（GANs）早期的现象“模式坍塌”。GANs基于生成器神经网络提出，例如一张图像，判别器试图预测给定图像是否由生成器创建或来自数据集中的真实图像。理想情况下，生成器试图在整个输入数据范围内生成图像，但实际上它们可能会陷入生成判别器难以区分的狭窄范围图像，这被称为模式坍塌（古德费洛，2016；阿拉拉等人，2017）。在使用变分自编码器建模语言数据时也发现了“后验坍塌”的情况（梅利斯，格约尔格和布卢松，2022）。多马托博等人（2024）展示了在何种条件下注入真实的（非AI生成的）数据可以保留真实分布的表示，尽管波哈切克和法里德（2023）表明即使少量合成数据也可以毒害图像模型，一旦扭曲，这类模型即使在训练真实数据后也很难恢复。郭等人（2023）证明在合成数据上训练LLMs可能导致词汇、语义和句法多样性减少。本文可在arxiv上获得，采用CC BY-NC-SA 4.0许可协议。

(以上内容均由Ai生成)