联邦法官裁定 AI 训练在人类版权案中属于合理使用
快速阅读: 《出版商周刊》消息,加州法官裁定,AI公司使用正版书籍训练模型属合理使用,但盗版书籍则违法。此案是首例对AI训练版权问题的实质性判决。
加利福尼亚州一名联邦法官就一起涉及人工智能训练的首批重大版权案件之一作出初步裁决,认定虽然使用合法获得的受版权保护的书籍来训练人工智能大型语言模型属于合理使用,但下载盗版书籍用于永久存储则违反了版权法。这项裁决是迄今为止对人工智能训练实践在版权法适用性方面作出的首个实质性司法决定,而这些训练实践已被科技行业广泛采用,却遭到出版业的强烈谴责。
美国加州北区法院的法官威廉·阿尔萨普周一在巴茨诉Anthropic一案中裁定,人工智能公司Anthropic将其Claude大语言模型(LLMs)基于作者作品进行训练“具有极强的创造性”,因此根据《版权法》第107条所规定的合理使用原则受到保护。然而,阿尔萨普还确定,该公司从Books3、Library Genesis和Pirate Library Mirror等网站下载盗版书籍以建立永久数字图书馆的做法并不受合理使用的保护。
此案由安德里亚·巴茨、查尔斯·格雷伯和柯克·沃德·约翰逊三位作者提起,他们指控Anthropic未经许可使用其受版权保护的作品来训练其人工智能系统。这家依靠其Claude人工智能服务每年收入超过十亿美元的公司,在2021年至2022年间下载了超过七百万本盗版书籍,以构建其训练数据集。
值得注意的是,该诉讼仅挑战了输入内容,即用于训练Claude的著作,并未指控输出内容,即由大语言模型生成的作品复制了原告的受版权保护作品。
冷漠与盗版
根据法院的调查结果,Anthropic故意选择“偷书”而不是寻求授权协议,以避免其联合创始人兼首席执行官达里奥·阿莫迪所称的“法律/实践/商业上的繁琐事务”。法院发现,该公司的联合创始人本·曼在2021年初从Books3下载了196,640本书,“他明知这些书是从未经授权的受版权保护书籍中汇编而成的——即盗版”。
据调查结果,这种盗版行为随后进一步升级。“2021年6月,曼通过这种方式从Library Genesis(或LibGen)下载了至少五百万本书,他明知这些书是盗版的。此外,2022年7月,Anthropic同样从海盗图书馆镜像(PiLiMi)下载了至少两百万本书,而Anthropic知道这些书是盗版的。”
根据裁决,总共“Anthropic由此盗版了超过七百万本书,其中包括每位作者至少两部涉案作品的副本。”
法院发现,随着Anthropic不断训练新的大语言模型,它逐渐认为使用书籍是实现世界级大语言模型最经济有效的方法。然而,由于法律原因,该公司“对使用盗版书籍训练不再那么热衷”,但仍保留了这些盗版书籍。
为寻求新的方法,2024年2月,Anthropic聘请了谷歌图书扫描项目前合作伙伴负责人汤姆·图维,他被“指派去获取‘世界上所有的书’,同时尽可能避免‘法律/实践/商业上的繁琐事务’。”据法官所述,图维在短暂地询问了从“主要出版商”处获得授权后,“让这些对话逐渐终止”,而不是达成授权协议,“正如另一家主要科技公司去年与一家主要出版商达成的协议一样”——这可能指的是哈珀-柯林斯(HarperCollins)和威利(Wiley)去年达成的交易。
随后,该公司花费数百万美元从分销商和零售商处购买实体书籍,这些书籍被“破坏性扫描”——即去除书脊并剪下页面后再进行数字化处理,原始书籍被丢弃。
至关重要的是,法院指出,“即使Anthropic决定不再使用某些副本进行大语言模型训练,或永远不会再次使用它们进行训练,它仍然将这些图书馆副本作为永久性的通用资源保留下来。Anthropic的所有复制行为均未经原告授权。”
法官表示,纸质到数字的转换属于合理使用,不是因为如Anthropic所声称的用于训练大语言模型,而是因为“仅仅将纸质书转换为数字文件以节省空间并提高可搜索性是具有创造性的。”因此,“数字副本应被视为如同购买的纸质书被放置在中央图书馆一样。”
此外,尽管法院认定使用盗版书籍存在问题,阿尔萨普裁定实际的训练过程在版权法下属于合理使用。他指出,Anthropic实施了过滤软件以防止用户访问原始材料的侵权副本,并将人工智能训练与人类学习进行了比较,指出人们经常阅读书籍、记忆段落,并在自己的写作中利用这些知识,而不会侵犯版权。
“每个人都会阅读文本,然后撰写新的文本,”他写道。“如果每次人们阅读一本书、从记忆中回忆它,或者以后以新的方式写新东西时都要为使用这本书支付费用,那是难以想象的。”
阿尔萨普指出,作者并未指控Claude将书籍吞入后吐出,如果用户要求的话。“作者只质疑这些大语言模型的输入,而非输出,”阿尔萨普写道。“他们指出完全训练好的大语言模型和Claude服务,只是为了说明训练本身如何使用他们的作品以及Claude服务如何被用来产生其他竞争性作品。”
因此,输出问题并未在此案中提出。
审判与错误
一直密切关注人工智能版权诉讼的作家协会(The Authors Guild)向《出版者周刊》(PW)发表了详尽回应,批评这一裁决对合理使用认定的同时,也欢迎法院对盗版问题的认可。
“虽然作家协会欣慰于法院认识到Anthropic大规模、刑事级别的、无正当理由的电子书盗版行为,”协会辩称,“但认为使用盗版或扫描书籍进行大语言模型训练属于合理使用”的裁决违背了既有的版权先例,并且“忽视了因大语言模型生成的内容与人类作者竞争而导致的作者损害和作品价值降低。”
协会补充道,“将人类学习和阅读类比是根本错误的。当人类从书籍中学习时,他们不会制作每本读过的书的数字副本并永久保存用于商业目的。这种复制的规模和系统性前所未有,威胁到依赖作品授权和销售维持生计的作者的生计。”
法院关于合理使用的裁决——包括Claude训练和“纸质到数字格式变更”——是在简易判决中作出的,这意味着案件中的一些问题仍需进入审判程序。具体而言,阿尔萨普下令“针对创建Anthropic核心图书馆所使用的盗版副本及其导致的损害(实际或法定赔偿,包括故意赔偿)进行审判”,并指出Anthropic后来购买的正版实体书并不能免除其早期盗版行为的责任——尽管这可能会影响法定赔偿的范围。
法官还拒绝就从Anthropic核心图书馆中制作的用于非人工智能训练用途的副本给予简易判决,指出该公司在这些问题上“规避了证据开示”,且记录“过于不充分,无法做出判断。”
阿尔萨普的裁决正值人工智能公司面临来自作者、出版商和其他内容创作者的大量类似版权诉讼之际。包括Meta、OpenAI在内的主要科技公司都被指控使用盗版内容来训练其人工智能系统。
而这一裁决部分支持、部分否定的立场反映了围绕人工智能训练实践的法律复杂性。虽然它为人工智能公司声称训练属于合理使用提供了某种支持,但也确立了通过盗版获取受版权保护材料不能因后续的创造性使用而被宽恕。
法律专家预计该裁决或将被上诉。而在其声明中,作家协会表示:“我们仍然相信上诉法院会推翻合理使用认定,并认识到这种为了商业利益而进行的系统性复制违反了保护作者数代人的基本版权原则。”
(以上内容均由Ai生成)