法官称 Anthropic 用作者的作品培训 LLM 是“典型的变革性”，但对盗版没有放过

快速阅读: 据《IPWatchdog.com》最新报道，美国法院部分裁定AI训练属合理使用，但盗版内容不被认可。法官称Anthropic盗用书籍建立图书馆，需承担赔偿责任。

“就像任何希望成为作家的读者一样，Anthropic的大型语言模型（LLMs）在训练时并非为了超越并复制或取代这些作品——而是为了实现突破性转变，创造出不同的东西。” ——法官威廉·阿尔萨普周一，美国加利福尼亚州北区联邦法院就生成式人工智能相关的合理使用问题发布了一项部分裁定，部分将大型语言模型（LLMs）的训练过程类比为人类学习的过程。该案件是由一群作者起诉生成式人工智能工具Anthropic所引发的。

这起诉讼由记者和书籍作者安德里亚·巴茨、查尔斯·格雷伯和柯克·沃德·约翰逊于2024年8月代表原告方向Anthropic提起，指控涉及“数十万本受版权保护的书籍”的广泛版权侵权。该诉讼仅针对大型语言模型的输入内容，而非输出内容。Anthropic的核心产品是AI聊天机器人Claude，投诉中称该聊天机器人被输入了“原告作品的已知盗版版本”，以训练其生成类似人类的回应。

“Anthropic商业模式及其旗舰‘Claude’系列大型语言模型（或‘LLMs’）的一个核心要素就是大规模窃取受版权保护的作品，”投诉中指出。远未对原告的作品进行补偿，Anthropic“采取了多项措施来隐藏其侵犯版权行为的全部程度”，投诉中继续说道。根据投诉中引用的报告，Anthropic“从亚马逊和谷歌等科技巨头那里筹集了76亿美元”，截至2023年12月，该公司估值超过180亿美元。据诉讼称，该公司特别受到包括Slack、Zoominfo、Asama、Bridgewater、LexisNexis和Jane Street Capital在内的企业客户的青睐。

侵权指控主要源于Anthropic在2021年12月的一篇论文中承认，它创建了一个主要依赖于“Pile”的训练数据集，根据投诉，“Pile是一个用于大型语言模型训练的800GB以上的开源数据集”。Pile的架构师之一肖恩·普雷斯勒在Pile中创建了一个名为“Books3”的数据集，据原告称，“Books3是一个盗版书籍的宝库”。根据普雷斯勒的公开帖子，Books3包含了“所有Bibliotik”，而根据投诉中引用的来源，Bibliotik是一个“臭名昭著的盗版书籍集合”。

投诉还指出，Anthropic购买了数百万册纸质书籍，其中一些与它获得的数字盗版副本重叠，“撕掉书脊，扫描每一页，并存储为可搜索的数字化文件”，以创建一个“全球所有书籍的中央图书馆”，并“永久保留”，根据周一由威廉·阿尔萨普法官撰写的裁决书所述。

在分析中，阿尔萨普首先表示，关于用于训练特定LLMs的著作副本，“使用受版权保护的作品来训练LLMs生成新文本的目的和性质本质上是具有创造性的。”他解释道：

然而，关于用于构建中央图书馆的副本，虽然阿尔萨普认为Anthropic购买并随后在扫描过程中处置的纸质副本是“正当地购买的”，并且相对于从纸质到数字格式的变化而言是一种具有创造性的使用，但他也拒绝了Anthropic的论点，即盗版副本应同样被视为合理使用。

Anthropic表示，因为它打算最终将盗版副本用于中央图书馆来训练LLMs，因此这种使用应被视为具有创造性。但地区法院驳回了这一论点，认定在这种情况下实际使用并未具有创造性，并且“盗版才是其真正目的：为了建立一个可以付费购买的中央图书馆，正如Anthropic后来所做的那样，但没有支付费用。”

阿尔萨普还发现第二个合理使用因素——受版权保护作品的性质——对于所有相关副本来说都反对合理使用，因为Anthropic的作品明显具有表达性。但对于用于训练LLMs的作品，第三个因素则有利于合理使用，因为所使用的作品部分的数量和重要性对于创造性使用是必要的，根据阿尔萨普的说法。至于用于中央图书馆的购买作品，第三因素的分析相同，但对于用于中央图书馆的盗版副本，第三因素则反对合理使用，裁决书提到：

最后，关于使用对受版权保护作品市场价值的影响，即第四个合理使用因素，阿尔萨普认为只有盗版作品用于建立中央图书馆这一点才对合理使用不利。

总体而言，阿尔萨普裁定Anthropic的训练使用属于合理使用，以及从纸质到数字格式的转换也属于合理使用。但他拒绝了Anthropic关于盗版图书馆副本必须被视为训练副本的总结判决请求，并下令对盗版副本进行审判，以确定赔偿金额，包括可能的恶意赔偿。“Anthropic后来购买了之前从互联网上偷来的书籍并不会使其免于盗窃的责任，但它可能会影响法定赔偿的范围，”阿尔萨普指出。

在《市场真相》（Truth on the Market）对该案件的分析中，国际法律与经济中心（ICLE）创新政策主任克里斯蒂安·斯图尔特表示，这一裁决为人工智能公司提供了“清晰的路线图”，尤其是在输入方面，主要是“公司应通过合法渠道获取训练材料——购买、授权或许可访问”，但“输出责任将成为下一个前沿领域。”

图片来源：Deposit Photos
作者：phonlamai
图像ID：413313112

(以上内容均由Ai生成)