在 AI 训练中使用受版权保护的作品不属于合理使用：Thomson Reuters Enterprise Centre GmbH 诉 Ross Intelligence Inc.

快速阅读: 据《JD Supra》称，在美国，特拉华州地区法院在汤森路透诉罗斯智能公司的案件中裁定，使用受版权保护的作品训练AI模型不属于公平使用例外。法院认定汤森路透的“头注”和关键词编号系统具备版权，罗斯因使用这些内容训练AI被判侵权。此案提醒企业在使用数据训练AI时需平衡第三方知识产权权利。

在美国特朗普政府推动全球人工智能（AI）领域主导地位之际，知识产权权利和公平使用的问题可能会更加频繁地诉诸法庭。美国特拉达州地区法院最近在汤森路透企业中心有限公司诉罗斯智能公司案中的裁决指出，使用受版权保护的作品来训练AI模型并不属于公平使用例外，提醒我们在使用数据训练AI时需平衡第三方知识产权的权利。

背景
汤森路透拥有西法学院（Westlaw），这是世界上最大的法律研究平台之一。用户支付费用以访问西法学院的内容，如案例法、法规、州和联邦法规以及法律期刊和专论。此类内容不受版权保护。然而，汤森路透对其编辑内容和注释拥有版权，例如“头注”，这些头注总结了法律要点和案件判决，以及其专有的“关键词编号系统”，这是一种用于组织西法学院内容的数字分类法。

罗斯是一家竞争对手，开发了一款基于AI的搜索引擎来搜索法律内容。罗斯最初试图获得西法学院内容的许可但被拒绝。随后，罗斯聘请了法律易用公司制作“批量备忘录”作为训练数据。编制“批量备忘录”的律师使用了西法学院的“头注”，但被明确指示不得直接复制西法学院的“头注”内容。罗斯使用了大约25,000个这样的“批量备忘录”来训练其AI。当汤森路透发现“批量备忘录”依赖于西法学院的“头注”，特别是当备忘录包含与西法学院“头注”相似的语言时，便起诉了罗斯。

侵权和公平使用裁决
2023年，法院驳回了双方的部分简易判决动议，但随后邀请双方重新提交简易判决简报。根据新的简报，法院批准了汤森路透关于直接侵权的简易判决动议，涉及2,243个“头注”，而将数千个其他“头注”、附加编辑内容和关键词编号系统的争议留待审判。法院驳回了罗斯提出的抗辩，包括其公平使用抗辩。

关于侵权，法院认定汤森路透拥有有效版权，因为“原创性”的标准极低，只需满足“一些最低限度的创造性”，这可以通过提炼司法意见成“头注”来实现。此外，法院认为关键词编号系统具有足够的原创性，可以受到版权保护。法院还发现，汤森路透已经证明了对西法学院“头注”的实际复制以及“头注”与作为训练数据使用的“批量备忘录”之间的实质性相似性。法院独立比较了2,830个“批量备忘录”问题与相应的“头注”和司法意见，并发现了2,243个“头注”的复制的强烈间接证据，特别指出“批量备忘录”语言与“头注”紧密一致，而不是与案件意见的语言一致。法院驳回了罗斯的无过错侵权、版权滥用、合并和场景必需等抗辩。

法院考虑了《美国法典》第17章第107条（1）-（4）节所列的四个因素来评估罗斯的公平使用抗辩，并最终驳回了该抗辩，认定因素1和4有利于汤森路透：

1. 使用的目的和性质：法院支持汤森路透。罗斯的使用是商业性的，且不具备转换性。罗斯将“头注”“作为AI数据创建了一个与西法学院竞争的法律研究工具”。罗斯的AI“不是生成式AI（自行编写新内容的AI）。相反，当用户输入法律问题时，罗斯会返回已经写好的相关司法意见。”尽管罗斯在将“头注”转化为描述法律词汇间关系的数值数据以供其AI使用的中间过程中进行了所谓的复制，但这并不改变结果。虽然法院曾发现，在复制计算机代码时，这种中间复制可能是公平使用，但在本案中这一公平使用允许不适用，因为“没有计算机代码的底层思想只能通过复制其表达来达到”。相反，罗斯“是为了更容易开发一个竞争的法律研究工具而使用了‘头注’”。

2. 版权作品的性质：法院支持罗斯，因为“头注”和关键词编号系统反映了有限的创造性。

3. 使用部分的数量和重要性：法院支持罗斯，因为“罗斯并未将西法学院的‘头注’提供给公众”。

4. 对市场/版权作品价值的影响：法院支持汤森路透，因为罗斯“意在通过开发替代产品与西法学院竞争，从而威胁到汤森路透的法律研究平台及其衍生数据市场的价值”。

主要启示
AI案例法仍处于起步阶段，多个案件正在不同司法管辖区的法院审理中。此外，上诉法院和美国最高法院很可能会就版权法在AI训练模型中的边界做出最终裁决。然而，这一下级法院的决定对使用数据训练AI模型的公司具有重要意义。

公平使用抗辩：关于使用计算机代码的公平使用抗辩的案例法相当成熟，但正如《汤森路透》案中的法院所指出的，用于训练AI的数据不是计算机代码，其用途也不同。因此，AI公司在依赖历史上的计算机代码公平使用案例时，应评估这些抗辩在用于训练其AI模型时的适用性，特别是在与计算机代码使用不同的范式中。

基础版权材料的创造性：法院认定“原创性”的标准极低。尽管第二项因素对罗斯有利，但即使是极小的原创性也足以支持汤森路透的主张。在内容的创造性较少争议的情况下，AI开发者可能会发现这一因素对他们不利。

训练数据的来源：在这里，罗斯试图通过聘请法律易用公司制作“批量备忘录”来避免包含西法学院“头注”和关键词编号系统的可版权部分，律师们明确被告知不得复制“头注”的语言。尽管如此，法院还是基于实际内容的检查发现了大量复制的证据。这里，基础的司法意见不受版权保护，尚不确定“头注”与“批量备忘录”语言之间需要多大差异才能避免侵权认定。

侵权责任：判决未涉及法律易用公司与罗斯之间侵权责任的分配。然而，数据供应商和AI开发者都应该审查他们的协议，以评估侵权责任的分配，AI开发者应对其训练数据集的发展行使多大程度的控制，以及数据供应商和AI开发者应分别提供的声明和保证。

适用于生成式AI：法院特别指出，罗斯的AI工具不涉及生成式AI，使用受版权保护材料训练生成式AI的问题正在其他法院审理中，包括在纽约时报公司诉微软公司案中。纽约南区联邦地区法院最近听取了被告的驳回动议，其裁决很可能会进一步阐明使用受版权保护材料训练AI模型的情况。

(以上内容均由Ai生成)