Meta 使用盗版书籍来训练其 AI 模型，有电子邮件可以证明这一点

发布时间：2025年2月8日来源：szf

快速阅读: 据《技术点》最新报道，一群作者起诉Meta公司，指控其使用未经授权的书籍训练AI模型。内部邮件显示，Meta员工讨论并通过比特流下载盗版书籍，涉及数据量达81.7太字节。Meta公司试图通过外部服务器掩盖此行为。原告认为Meta的行动构成大规模盗版，Meta则辩称其做法属合理使用。此事可能对Meta的法律辩护带来挑战。

掩面：一群作者起诉Meta公司，指控该公司使用未经授权的书籍副本来训练其生成式人工智能模型。尽管Meta公司否认有任何不当行为的说法，但最新解封的信息显示，高管和工程师们清楚地知道他们的行为，并且他们违反了版权法。萨拉·西尔弗曼、理查德·卡德雷和其他作家及权利持有人对Meta公司提起的诉讼可能正进入最关键的阶段。作者获得了公司内部邮件，在这些邮件中，Meta员工公开讨论了“通过比特流下载知名盗版内容库文件”以训练更强大的人工智能模型。Meta公司此前承认使用某些有争议的数据集，并辩称这些做法应被视为合理使用。该公司还承认下载了一个名为“LibGen”的大规模数据集，其中包含数百万本盗版书籍。然而，新解封的邮件揭示了Meta公司对通过比特流网络获取和分发这些数据存在更深层次的担忧。

根据邮件，Meta公司下载并分享了至少81.7太字节的数据，其中包括来自Z-Library和LibGen档案的35.7太字节的数据。原告声称Meta公司参与了一项“惊人的”比特流分发计划，以前所未有的规模分发盗版书籍。在2023年4月的一条信息中，Meta研究员尼古拉耶·巴什里科夫写道：“用公司笔记本电脑进行比特流下载感觉不对劲。”这条消息以一个笑脸表情符号结尾，但几个月后，他的语气发生了显著变化。2023年9月，巴什里科夫表示他正在咨询Meta公司的法律团队，因为使用比特流——从而“播种”数太字节的盗版数据——从法律角度来看显然是“不合适”的。

“我所说的每一件事都会泄露出去”，马克·扎克伯格在一个泄露的备忘录中抱怨道。显然，Meta公司意识到其工程师正在进行非法的比特流下载以训练人工智能模型，而马克·扎克伯格本人据说也知晓LibGen。为了掩盖这一活动，该公司试图通过使用Facebook主网络之外的服务器来隐藏其比特流下载和传播行为。在另一条内部消息中，Meta员工张兴将这种方法称为“隐秘模式”。

与其他主要科技公司一样，Meta公司也在大量投入人工智能开发和生成式人工智能服务。该公司旨在为其老龄化社交网络填充由人工智能生成的角色和机器人，最近提交了一份动议要求驳回西尔弗曼和其他作者领导的诉讼。然而，新披露的详细描述Meta公司参与比特流下载和分发盗版书籍的邮件可能会显著复杂化其法律辩护过程。

(以上内容均由Ai生成)