周末的事情 – 生成式 AI 是数据洗钱。J’控诉
快速阅读: 据《Diginomica (数码化)》称,生成式AI面临版权争议,多家公司被指利用盗版数据训练模型,引发多起诉讼。艺术家和传统媒体指控AI公司侵犯版权,要求公平待遇。这不仅是版权问题,更是旧媒体与新媒体间关于信息未来控制权的斗争。
尽管人工智能的春天本应发展为夏季,但该领域现状却远不如人意。尽管有关通用人工智能(AGI)乃至超级智能(ASI)即将来临的各种大胆声明层出不穷,而且OpenAI的ChatGPT用户数已突破4亿,但质疑之声却越来越强烈。有人指责生成式人工智能不过是数据清洗,这一说法毫无漏洞,因为这仅仅是一个事实陈述,而非某种恐慌情绪的表达。稍后我会详细说明原因。因此,尽管某些行业CEO可能与美国总统携手推翻监管、多样性和安全的人工智能计划,但并非所有事情都对大型科技公司有利。今年年初,中国的DeepSeek横空出世,这使得形势变得更加复杂,也揭示了美国在基础设施投资上的荒唐程度。有人愿意为OpenAI的Stargate项目投入5000亿美元吗?但一些美国供应商的市值超过了地球上大多数国家的GDP,这让政治家们难以找到平衡点。然而,这场不断加剧的不安情绪的核心在于棘手的版权问题。
受到汤森路透上个月在美国法院胜诉的鼓舞,针对人工智能公司的诉讼数量持续增加,即使艺术家和传统媒体参与了#makeitfAIr运动。核心原则:尽管汤森路透的案件并未专门涉及生成式人工智能,但它确立了一个重要原则:已倒闭的第三方Ross Intelligence通过抓取汤森路透的Westlaw服务中的专有数据来训练人工智能模型,从而侵犯了版权。这一先例现在将被多次引用。在法国,国家出版联盟(SNE)、国家作者和作曲家联盟(SNAC)以及文学人士协会(SGDL)正在起诉Meta,指控其在未经授权的情况下使用专有作品进行Llama LLM家族的训练,涉嫌经济“寄生”。在美国,联邦法官上周批准了一项类似的诉讼,针对Facebook、Instagram和WhatsApp的所有者,但他警告原告不要使用过度夸张的言辞:他说,他们的案件将取决于自身的优点。
理查德·卡德雷、莎拉·西尔弗曼和塔-内希·科茨等作者指控这家社交媒体巨头不仅窃取了未经授权的作品,还删除了其中的版权声明,这是一种隐性认错。与此同时,纽约时报、纽约每日新闻和调查报道中心对OpenAI和微软提起的三起案件合并审理的联合诉讼自今年一月以来一直在进行。还有十几起其他诉讼也在进行中。目标包括:英伟达、Cohere、Stability AI(被Getty Images起诉)、Anthropic、谷歌和Perplexity,后者被道琼斯和纽约邮报指控窃取版权。很难忽略这场真正的战斗其实是旧媒体与新媒体之间的较量:一场争夺实时信息未来以及获取历史数据的斗争。但这还不是全部的故事。
一起名为约翰诉GitHub的案件指控,除OpenAI外,微软旗下的开发社区违反了《数字千年版权法》(DMCA),以开发Codex和Copilot产品。由于Anthropic首席执行官阿莫迪本月声称人工智能将在年底前完成100%的编码,这场鲜为人知的诉讼可能会对软件开发产生深远影响。毫无疑问,它还能完成100%的其他工作,但问题是它是如何被训练出来的,关键在于未知的人类代价。就此而言,上个月我参加了一场网络研讨会,在会上一位学者声称许多行业的公司已停止雇佣初级员工,而是用经验丰富的中层管理者填补职位空缺:人工智能已成为代际定时炸弹。
一年前我在采访OpenText首席执行官马克·巴伦纳查时就发现了早期迹象:他补充道:“那么,机器的任务是什么?”这个问题需要紧急的战略解答。毕竟,负债累累的千禧一代、Z世代和Alpha世代已经面临一个房价难以负担的世界,能源、食品和旅行价格高昂,就业保障不存在,现实世界的保障令人担忧,有342位技术亿万富翁(据福布斯),英国的食物银行确实比麦当劳门店还要多(参见我的2024年数字贫困报告[链接]),人类创造力正被万亿美元的公司掠夺并商品化。简单来说,经验丰富的专业人士现在是否在拉起职业发展的梯子,而把人工智能当作低成本的通用劳动力?谁培训了那些工人,用了什么数据?
在这种背景下,版权之争可能比评论员意识到的更为重要和广泛;这不仅仅是艺术家被自动化对手取代的问题——尽管这一点很重要。侵权行为:
那么,人工智能行业中的版权侵权究竟有多普遍?根据丹麦权利联盟——它为创作者争取线上公平待遇——这是如此普遍以至于被视为正常行为。该联盟采取了不同寻常的步骤,发布了一份聚焦于盗版资料的报告。正如它所解释的那样,依赖盗版资料允许人工智能公司以一种间接方式实施版权盗窃——似乎认为从有社会责任感的盗版者那里窃取等同于良好行为和合理使用。实际上,这正好相反:抓取已知的盗版资料削弱了供应商可能提出的任何主张,即此类内容是意外复制的。这份17页的文件列出了几家供应商——苹果、Anthropic、DeepSeek、Meta、微软、英伟达、OpenAI、Runway AI和音乐平台Suno——以及根据联盟的说法,它们已知抓取的盗版资料集。
报告中提及的未授权训练来源包括:
– 安娜档案(超过4000万本书籍和超过9800万篇研究论文)。
– Books3档案(近197,000本以纯文本格式的盗版书籍)。
– Common Crawl数据集(自2008年以来定期从网络上抓取的拍字节级数据)。
联盟指出这不是传统意义上的盗版来源,但它包括未经同意分享的受版权保护的内容,如新闻报道、书籍和歌词。
– LibGen(数百万本书籍和科学杂志文章,目前在多个地点镜像)。
– OpenSubtitles(多种语言的电影和电视剧字幕)。
巧妙地,允许人工智能公司从数千部电影和电视剧中抓取所有对话、情节和标注的动作点,而不必从制片厂获取。这就是为什么好莱坞对传统电影制作受到威胁感到愤怒——同时也被无需再次向创意人员支付费用的成本节约潜力所吸引。
– Suno数据集(数百万个音频文件)。
用供应商自己的话说,它包含‘基本上所有可在开放互联网上访问的合理质量音乐文件’。
这里的问题是,其中许多内容受版权保护,但已在公共平台上分享。这模糊了公共领域内容与受版权保护内容之间的界限。
– Watchseries数据集(电影和电视剧)。
– Z-lib(超过1300万本书籍和近8500万篇学术文章的影子图书馆)。
根据联盟的说法,人工智能公司还抓取了(其中包括)Pile数据集;学术平台ArXiv;Stack Exchange;Project Gutenberg;YouTube——内容是混合授权和未授权数据的公共领域内容;电影和电视流媒体巨头Netflix;以及讽刺的是,埃隆·马斯克的烦恼,维基百科。
报告补充道:真正令人愤怒的是,多年来一些资源一直被学生和经济弱势群体依赖,作为一种免费获取世界知识和专业技能的途径。但现在,包括一些世界上最富有和最有价值组织的人工智能公司正在抓取这些对他们来说几乎不花一分钱的数据,以便以巨额利润卖回给我们。见证OpenAI计划每月收取200美元用于深度研究,据报道,其策略是对基于这些数据训练的专用人工智能代理每月收费高达20,000美元。
现在,全球范围内不断增加的诉讼将确定此类行为是否违反法律,同时也违背了许多盗版和文件共享网站背后的社区精神。鉴于此,我清楚地认识到这种数据清洗是一种现实存在,在人工智能公司以最小的数据投入掌控世界所有内容和专业知识的明确战略背景下。目前唯一可能阻碍他们的可能是版权诉讼。但能否对供应商施加足够的法律压力,希望泡沫破裂?敬请关注。
(以上内容均由Ai生成)