法官称 Anthropic 用作者的作品培训 LLM 是“典型的变革性”,但对盗版没有放过

发布时间:2025年6月25日    来源:szf
法官称 Anthropic 用作者的作品培训 LLM 是“典型的变革性”,但对盗版没有放过

快速阅读: 据《IPWatchdog.com》最新报道,美国法院部分裁定AI训练属合理使用,但盗版内容不被认可。法官称Anthropic盗用书籍建立图书馆,需承担赔偿责任。

“就像任何希望成为作家的读者一样,Anthropic的大型语言模型(LLMs)在训练时并非为了超越并复制或取代这些作品——而是为了实现突破性转变,创造出不同的东西。” ——法官威廉·阿尔萨普周一,美国加利福尼亚州北区联邦法院就生成式人工智能相关的合理使用问题发布了一项部分裁定,部分将大型语言模型(LLMs)的训练过程类比为人类学习的过程。该案件是由一群作者起诉生成式人工智能工具Anthropic所引发的。

这起诉讼由记者和书籍作者安德里亚·巴茨、查尔斯·格雷伯和柯克·沃德·约翰逊于2024年8月代表原告方向Anthropic提起,指控涉及“数十万本受版权保护的书籍”的广泛版权侵权。该诉讼仅针对大型语言模型的输入内容,而非输出内容。Anthropic的核心产品是AI聊天机器人Claude,投诉中称该聊天机器人被输入了“原告作品的已知盗版版本”,以训练其生成类似人类的回应。

“Anthropic商业模式及其旗舰‘Claude’系列大型语言模型(或‘LLMs’)的一个核心要素就是大规模窃取受版权保护的作品,”投诉中指出。远未对原告的作品进行补偿,Anthropic“采取了多项措施来隐藏其侵犯版权行为的全部程度”,投诉中继续说道。根据投诉中引用的报告,Anthropic“从亚马逊和谷歌等科技巨头那里筹集了76亿美元”,截至2023年12月,该公司估值超过180亿美元。据诉讼称,该公司特别受到包括Slack、Zoominfo、Asama、Bridgewater、LexisNexis和Jane Street Capital在内的企业客户的青睐。

侵权指控主要源于Anthropic在2021年12月的一篇论文中承认,它创建了一个主要依赖于“Pile”的训练数据集,根据投诉,“Pile是一个用于大型语言模型训练的800GB以上的开源数据集”。Pile的架构师之一肖恩·普雷斯勒在Pile中创建了一个名为“Books3”的数据集,据原告称,“Books3是一个盗版书籍的宝库”。根据普雷斯勒的公开帖子,Books3包含了“所有Bibliotik”,而根据投诉中引用的来源,Bibliotik是一个“臭名昭著的盗版书籍集合”。

投诉还指出,Anthropic购买了数百万册纸质书籍,其中一些与它获得的数字盗版副本重叠,“撕掉书脊,扫描每一页,并存储为可搜索的数字化文件”,以创建一个“全球所有书籍的中央图书馆”,并“永久保留”,根据周一由威廉·阿尔萨普法官撰写的裁决书所述。

在分析中,阿尔萨普首先表示,关于用于训练特定LLMs的著作副本,“使用受版权保护的作品来训练LLMs生成新文本的目的和性质本质上是具有创造性的。”他解释道:

然而,关于用于构建中央图书馆的副本,虽然阿尔萨普认为Anthropic购买并随后在扫描过程中处置的纸质副本是“正当地购买的”,并且相对于从纸质到数字格式的变化而言是一种具有创造性的使用,但他也拒绝了Anthropic的论点,即盗版副本应同样被视为合理使用。

Anthropic表示,因为它打算最终将盗版副本用于中央图书馆来训练LLMs,因此这种使用应被视为具有创造性。但地区法院驳回了这一论点,认定在这种情况下实际使用并未具有创造性,并且“盗版才是其真正目的:为了建立一个可以付费购买的中央图书馆,正如Anthropic后来所做的那样,但没有支付费用。”

阿尔萨普还发现第二个合理使用因素——受版权保护作品的性质——对于所有相关副本来说都反对合理使用,因为Anthropic的作品明显具有表达性。但对于用于训练LLMs的作品,第三个因素则有利于合理使用,因为所使用的作品部分的数量和重要性对于创造性使用是必要的,根据阿尔萨普的说法。至于用于中央图书馆的购买作品,第三因素的分析相同,但对于用于中央图书馆的盗版副本,第三因素则反对合理使用,裁决书提到:

然而,关于用于构建中央图书馆的副本,虽然阿尔萨普认为Anthropic购买并随后在扫描过程中处置的纸质副本是“正当地购买的”,并且相对于从纸质到数字格式的变化而言是一种具有创造性的使用,但他也拒绝了Anthropic的论点,即盗版副本应同样被视为合理使用。

Anthropic表示,因为它打算最终将盗版副本用于中央图书馆来训练LLMs,因此这种使用应被视为具有创造性。但地区法院驳回了这一论点,认定在这种情况下实际使用并未具有创造性,并且“盗版才是其真正目的:为了建立一个可以付费购买的中央图书馆,正如Anthropic后来所做的那样,但没有支付费用。”

最后,关于使用对受版权保护作品市场价值的影响,即第四个合理使用因素,阿尔萨普认为只有盗版作品用于建立中央图书馆这一点才对合理使用不利。

然而,关于用于构建中央图书馆的副本,虽然阿尔萨普认为Anthropic购买并随后在扫描过程中处置的纸质副本是“正当地购买的”,并且相对于从纸质到数字格式的变化而言是一种具有创造性的使用,但他也拒绝了Anthropic的论点,即盗版副本应同样被视为合理使用。

Anthropic表示,因为它打算最终将盗版副本用于中央图书馆来训练LLMs,因此这种使用应被视为具有创造性。但地区法院驳回了这一论点,认定在这种情况下实际使用并未具有创造性,并且“盗版才是其真正目的:为了建立一个可以付费购买的中央图书馆,正如Anthropic后来所做的那样,但没有支付费用。”

总体而言,阿尔萨普裁定Anthropic的训练使用属于合理使用,以及从纸质到数字格式的转换也属于合理使用。但他拒绝了Anthropic关于盗版图书馆副本必须被视为训练副本的总结判决请求,并下令对盗版副本进行审判,以确定赔偿金额,包括可能的恶意赔偿。“Anthropic后来购买了之前从互联网上偷来的书籍并不会使其免于盗窃的责任,但它可能会影响法定赔偿的范围,”阿尔萨普指出。

然而,关于用于构建中央图书馆的副本,虽然阿尔萨普认为Anthropic购买并随后在扫描过程中处置的纸质副本是“正当地购买的”,并且相对于从纸质到数字格式的变化而言是一种具有创造性的使用,但他也拒绝了Anthropic的论点,即盗版副本应同样被视为合理使用。

Anthropic表示,因为它打算最终将盗版副本用于中央图书馆来训练LLMs,因此这种使用应被视为具有创造性。但地区法院驳回了这一论点,认定在这种情况下实际使用并未具有创造性,并且“盗版才是其真正目的:为了建立一个可以付费购买的中央图书馆,正如Anthropic后来所做的那样,但没有支付费用。”

在《市场真相》(Truth on the Market)对该案件的分析中,国际法律与经济中心(ICLE)创新政策主任克里斯蒂安·斯图尔特表示,这一裁决为人工智能公司提供了“清晰的路线图”,尤其是在输入方面,主要是“公司应通过合法渠道获取训练材料——购买、授权或许可访问”,但“输出责任将成为下一个前沿领域。”

图片来源:Deposit Photos
作者:phonlamai
图像ID:413313112

(以上内容均由Ai生成)

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日
苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

快速阅读: 据《香港标准》称,下载《标准》App,获取新闻、动态和大事:https://www.thestandard.com.hk/appdownload 下载《标准》应用程序,及时获取新闻、最新动态和重大事件: https://www. […]

发布时间:2025年8月1日