自动化的“真理报”宣传网络经过改造,将亲俄叙事秘密嵌入流行的聊天机器人中
快速阅读: 据《科技污垢》称,研究发现,俄罗斯“真理”宣传网络正利用自动化手段生成海量挺俄内容,这些内容可能被纳入大型语言模型训练数据集,从而在全球AI系统中嵌入宣传叙事,影响深远且难以察觉。
重新调整后的自动化“真理”宣传网络秘密嵌入流行聊天机器人中的挺俄叙事技术的(误)用隶属于大型语言模型(LLM)训练部门
2025年3月17日 星期一 下午12:04
格琳·穆迪(Glyn Moody)
俄罗斯利用互联网的全球覆盖范围和低廉的分发成本,在线世界充斥着大量的宣传内容(其他国家也这样做):Techdirt 已经报道了普京的“网络水军”长达十年。俄罗斯的互联网研究机构一直在雇佣大量人员撰写博客文章、社交媒体帖子、网站评论、制作YouTube视频以及编辑维基百科条目,所有这些都在推动克里姆林宫的立场或叙事,或者通过骗局、抹黑和彻头彻尾的谎言来削弱俄罗斯的对手。
但技术在不断发展,宣传网络也在进化。美国阳光项目(ASP)一直在特别研究其中一个网络:“真理”(俄语意为“真理”),这是一个聚合其他地方生产的挺俄材料的网站网络。最近,ASP 注意到该网络发生了一些显著变化(PDF):
根据ASP:“真理”网络的发布量和发布速度令人瞩目。ASP估计该网络的整体发布率约为每48小时发布2万篇文章,即每年超过360万篇文章。人们会预期一个宣传网络会利用自动化来提升其原始数量。但ASP注意到这些新网页存在一些异常:“该网络对用户不够友好;网络内的站点没有搜索功能,格式混乱,滚动不稳定,以及其他可用性问题。”
在互联网上大量传播挺俄内容,并制造多个站点相互印证的效果,从而营造出虚假的真实感,这显然是有利可图的。但ASP推测,“真理”宣传网络的最新迭代可能还有另一个原因:政府、企业和个人迅速采用聊天机器人和其他人工智能系统提供了一种传播宣传的新方式,这种方式比目前的方法要微妙得多。
当网上有大量来源支持挺俄叙事时,大型语言模型(LLM)爬虫在寻找训练材料时更有可能不加甄别地将其纳入构建的机器学习数据集,这将在从这种训练中产生的LLM中深深嵌入俄罗斯宣传,但这种嵌入难以被察觉,尤其是在AI公司很少披露数据集来源的情况下。
发现LLM训练的唯一方法是查看聊天机器人输出中的针对性虚假信息迹象。去年由Techdirt 报道的研究虚假信息的组织NewsGuard最近进行了这样的分析。NewsGuard 使用“真理”网络散布的15个虚假叙述样本测试了10个领先的聊天机器人。它探讨了不同聊天机器人对各类宣传点的处理方式,尽管:
“由于问题的系统性,单个AI模型的结果未予公开”。
政府、企业和个人迅速采用聊天机器人和其他人工智能系统提供了一种传播宣传的新方式,这种方式比目前的方法要微妙得多。当网上有大量来源支持挺俄叙事时,大型语言模型(LLM)爬虫在寻找训练材料时更有可能不加甄别地将其纳入构建的机器学习数据集,这将在从这种训练中产生的LLM中深深嵌入俄罗斯宣传,但这种嵌入难以被察觉,尤其是在AI公司很少披露数据集来源的情况下。
NewsGuard 指出,从LLM训练数据集中剔除有问题的来源并非易事:LLM训练数据的污染以及由此导致的对在线信息的信任进一步下降,这对所有互联网用户都是一个问题,尤其是对美国用户来说,正如ASP 指出的那样:这种“恶意的外国影响”可能不仅来自俄罗斯。其他国家、公司乃至富裕个人也可能采用相同的技术来推广自己的虚假叙述,利用人工智能自动化成本快速下降的优势。
不管你认为虚假信息现在有多严重,预计未来会更加严重。
关注我的Bluesky 和 Mastodon 账号。
**分类标签**:人工智能、美国阳光项目、自动化、虚假信息、意见领袖、互联网研究机构、贪腐政权、LLM训练、大型语言模型、机器学习、新闻卫士、宣传、俄罗斯、网络爬虫、社交媒体、培训、网络水军、网页爬虫、维基百科、YouTube
(以上内容均由Ai生成)