Adobe被诉用盗版书训练AI模型

发布时间：2025年12月18日来源：szf

快速阅读: 截至报道时，美国俄勒冈州作家伊丽莎白·莱昂起诉Adobe公司，指控其训练SlimLM模型所用的SlimPajama-627B数据集包含盗版图书，涉嫌侵犯版权。该争议反映出AI训练数据合法性问题持续发酵，多家科技公司近期因此面临类似诉讼。

近日，美国俄勒冈州作家伊丽莎白·莱昂对Adobe公司提起集体诉讼，指控其在训练人工智能模型时使用了包括她本人作品在内的盗版图书。诉讼指出，Adobe用于开发轻量级语言模型SlimLM的训练数据，来自名为SlimPajama-627B的开源数据集，而该数据集系由RedPajama数据集复制并加工而成。

起诉书披露，RedPajama数据集中包含一个名为“Books3”的子集，收录约19.1万本图书，其中大量作品受版权保护。原告强调，SlimPajama作为RedPajama的衍生版本，同样包含了这些未经授权的书籍内容，侵犯了作者的合法权益。

Adobe曾表示，SlimLM系列模型专为移动设备上的文档辅助任务优化，其预训练基于Cerebras公司于2023年6月发布的SlimPajama-627B数据集。然而，该数据集的来源合法性正面临多方质疑。

此类争议并非孤例。今年9月，苹果公司被诉在其“Apple Intelligence”模型训练中使用了含盗版内容的数据集；10月，Salesforce也因类似原因遭到起诉。更早前，人工智能公司Anthropic已就使用盗版图书训练其聊天机器人Claude一事，与多位作者达成15亿美元的和解协议。

目前，围绕生成式人工智能训练数据版权问题的法律纠纷持续增加。由于AI模型依赖海量文本进行训练，部分数据集被指包含未经许可的受版权保护内容，引发出版界与科技行业的广泛冲突。

(以上内容均由Ai生成)

引用自：TechCrunch科技媒体