据称,泄露的电子邮件揭示了 Meta 种子 TB 的盗版电子书,用于 AI 训练
快速阅读: 据《Neowin.net》最新报道,今年1月,诉讼指控Meta(Facebook的母公司)在其AI模型训练数据集中使用了盗版电子书和文章。泄露的邮件显示,Meta通过BT下载了包含数千万本盗版书籍的“文学图书馆”数据集,涉及大量数据。Meta员工也意识到此行为的法律风险。作者们认为Meta非法使用盗版内容进行AI训练,并尝试掩盖其行为。
1月,一项诉讼指控脸书母公司元宇宙公司在其训练人工智能模型的数据集中使用了盗版电子书和文章。未密封的邮件为书作者对元宇宙公司提起的版权案件提供了新的证据。作者们指控元宇宙公司非法在其人工智能模型上训练盗版书籍,这一指控现在得到了泄露通信的进一步证实。邮件显示,元宇宙公司通过BT下载了一个名为文学图书馆的大数据集,该数据集包含数千万本盗版书籍。根据作者们的法庭文件,元宇宙公司通过安娜档案网站从多个影子图书馆下载了至少81.7太字节的数据,其中包括来自Z-Library和文学图书馆的至少35.7太字节的数据。此外,该公司此前还从文学图书馆下载了80.6太字节的数据。作者们描述元宇宙公司非法通过BT下载计划的规模令人震惊,指出“仅仅相当于元宇宙公司盗版作品数量的0.008%的微小数据盗版行为,就已经导致法官将这种行为转交美国检察官办公室进行刑事调查。”
邮件显示,元宇宙公司员工也意识到其行为的法律风险。2023年4月,元宇宙公司的研究工程师尼古拉·巴什利科夫写道:“从公司笔记本电脑上通过BT下载感觉不对劲。”到2023年9月,巴什利科夫加大了抗议力度,并与法律团队进行了咨询。“使用BT下载意味着‘播种’文件——即在外部分享内容。这可能在法律上不被允许,”他写道。尽管存在这些警告,作者们认为元宇宙公司决定隐藏其播种活动,修改设置以尽量减少播种的发生。该公司还涉嫌试图通过将数据集下载到非元宇宙服务器上来避免任何人能从元宇宙服务器上追溯到播种者/下载者。
(以上内容均由Ai生成)