当 AI 改写互联网时,我们失去了什么?

发布时间:2025年2月18日    来源:szf
当 AI 改写互联网时,我们失去了什么?

快速阅读: 据《黑客 Noon》称,本文研究了网络效应和信息级联效应对社交媒体和大型语言模型(LLMs)的影响。信息级联效应用以解释群体行为,而网络效应则探讨了信息在网络内的传播方式。作者还讨论了模型坍塌现象,即生成器可能生成有限范围内的图像,导致信息丢失。此外,文章指出,在合成数据上训练LLMs可能导致词汇、语义和句法多样性减少。

作者:安德鲁·J·彼得森,普瓦捷大学 ([email protected])。链接列表摘要和引言相关工作媒体、过滤气泡和回音室网络效应和信息级联效应模型坍塌已知的大型语言模型偏差知识崩溃模型结果讨论与参考文献附录比较尾部宽度定义知识崩溃网络效应和信息级联效应信息级联模型提供了一种解释某种群体行为(其中多样且自由的个体仍然做出相似决策)的方法。它们探讨了在何种条件下私人信息无法被公众有效聚合。这可能发生在个体在观察他人的行为但未观察到私人信号的情况下,从一个离散集合中依次做出决定时。这可以产生一种“群体外部性”(班纳吉,1992),在这种情况下,个体在其决策中忽略了其私人信号,因此公众也无法根据她的私人信息进行更新。在极端情况下,这意味着除了最初几个个体之外的所有私人信息都被完全忽略(比克昌达尼,赫希莱费尔和韦尔奇,1998;史密斯和索伦森,2000)。在该模型的一些变体中,个体必须支付以接收信号,这鼓励了想要免费利用他人所获信息的倾向,因此成本越高,越有可能形成级联效应。关于社交网络传播的信息的相关文献分析了信息级联效应的网络结构,作为一种传染形式。这里关注的不是私人信息,而是信息在网络内的流动方式。例如,独立级联模型考虑了个体如何基于接触具有该信念的邻居的概率而改变其信念(戈尔登贝格,利拜和穆勒,2001;格鲁赫等人,2004)。更广泛地说,此类模型确定了网络内扩散概率为连接节点函数的一部分,并可能结合每个节点的社会影响力、意识形态或其他偏好或主题(巴雷里,邦楚和曼科,2013)。或者,传染病模型允许个体处于三种状态之一——易感、感染(能够传播信息)和恢复(此时他们掌握了信息但认为不值得与他人分享)(例如,凯马克和麦肯德里克,1927;巴拉特,巴泰勒米和维斯皮尼亚尼,2008,第10章)。社会(甚至物理)接近性可以使个体共享类似的态度,例如当随机分配住房的个体最终对公寓楼有相似态度,而与其他邻近楼栋不同(费斯特格,施赫特和巴克,1950),如诺瓦克,萨姆雷伊和拉坦尼(1990)所建模。实证研究表明,弱联系可能比强联系更重要用于信息扩散(巴克西等人,2012),而塞恩托拉(2010)证明,在聚类网络中消息的强化使信息传播比在随机网络中更有效。更复杂的模型允许意见过程及其网络节点之间的边的演变(卡斯特兰诺,福图纳托和洛雷托,2009,第47-48页)。这些模型基于个体与其他人、文本、图像等互动的内容,提出了特定的意见形成动态。由此推及,我们可以将这些网络推广到大型语言模型(LLMs)作为关键节点的情况,或者作为决定个体如何导航知识图谱的方式。Web 2.0的核心思想是用户不仅限于作者或程序员,也参与构建知识(奥赖利,2005)。由此延伸,在人工智能时代,LLMs与用户、作者、程序员和技术交互,构建知识,理解信息流需要理解这些元素的涌现特性。模型坍塌模型坍塌的概念源于生成对抗网络(GANs)早期的现象“模式坍塌”。GANs基于生成器神经网络提出,例如一张图像,判别器试图预测给定图像是否由生成器创建或来自数据集中的真实图像。理想情况下,生成器试图在整个输入数据范围内生成图像,但实际上它们可能会陷入生成判别器难以区分的狭窄范围图像,这被称为模式坍塌(古德费洛,2016;阿拉拉等人,2017)。在使用变分自编码器建模语言数据时也发现了“后验坍塌”的情况(梅利斯,格约尔格和布卢松,2022)。舒马列夫等人(2023)引入了“模型坍塌”一词来描述当变分自编码器、高斯混合模型和LLMs在训练数据由较早版本模型生成的数据时发生的相关过程。将AI生成的内容纳入训练数据会导致信息丢失,他们将其分类为两种类型。首先,在“早期模型坍塌”中,由于统计误差(有限采样偏差)或功能逼近误差,分布的尾部丢失,导致回归平均值。其次,“晚期模型坍塌”可能发生在模型在不同于原始数据的分布上收敛且方差狭窄时。他们提供了证据表明LLMs和其他模型存在这种模型坍塌现象,参见例如图1。模型坍塌的概念源于生成对抗网络(GANs)早期的现象“模式坍塌”。GANs基于生成器神经网络提出,例如一张图像,判别器试图预测给定图像是否由生成器创建或来自数据集中的真实图像。理想情况下,生成器试图在整个输入数据范围内生成图像,但实际上它们可能会陷入生成判别器难以区分的狭窄范围图像,这被称为模式坍塌(古德费洛,2016;阿拉拉等人,2017)。在使用变分自编码器建模语言数据时也发现了“后验坍塌”的情况(梅利斯,格约尔格和布卢松,2022)。多马托博等人(2024)展示了在何种条件下注入真实的(非AI生成的)数据可以保留真实分布的表示,尽管波哈切克和法里德(2023)表明即使少量合成数据也可以毒害图像模型,一旦扭曲,这类模型即使在训练真实数据后也很难恢复。郭等人(2023)证明在合成数据上训练LLMs可能导致词汇、语义和句法多样性减少。本文可在arxiv上获得,采用CC BY-NC-SA 4.0许可协议。

(以上内容均由Ai生成)

关键词: Ai互联网改写

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日