Meta 因使用受版权保护的作品训练其 AI 模型而面临另一起诉讼
快速阅读: 据《今日社交媒体》称,Meta因未经授权使用受版权保护的材料训练其Llama模型,面临法国出版商的版权侵权诉讼,类似情况也在美国发生。尽管Meta坐拥超30亿活跃用户,但仍需外部庞大数据以增强AI竞争力。此举或引发全球诉讼潮,但数据驱动的大型语言模型发展需求可能是其冒险的原因。
对于一家坐拥超过30亿活跃用户的科技巨头而言,Meta为何还要依赖如此庞大的外部数据,这确实让人感到困惑。然而,无论怎样,由于这家公司在美方面临一项重大的法律挑战——未经授权便使用受版权保护的材料来训练其Llama模型,Meta也遭遇了一场新的版权侵权指控,这一次是在法国。法国出版商也发起了一场版权侵权诉讼。据彭博社报道:“法国出版商和作者起诉Meta侵犯版权,指控这家科技巨头未经许可便使用他们的书籍来训练其生成式人工智能模型。”
代表包括哈切特和埃迪蒂斯在内的主要法国出版社的SNE贸易协会,以及作者协会SGDL和作家联盟SNAC,在周三一场新闻发布会上表示,他们已在巴黎一个专门处理知识产权的法院提交了投诉。似乎,就像美国集体试图追究Meta非法使用其作品的责任一样,法国出版商也发现了类似的问题,即Meta的人工智能模型能够高度精准地复制其作者的作品,这表明可能对其知识产权进行了窃取和滥用。这很可能源于该公司在同一波人工智能开发浪潮中。
据报道,随着OpenAI在2022年的崛起,Meta首席执行官马克·扎克伯格急于迎头赶上,并建立一个竞争对手的人工智能模型,以确保Meta在人工智能竞赛中保持领先地位。在此过程中,扎克伯格据说批准了使用Meta明知是受版权保护的材料,以构建其语言模型。正如《纽约时报》所报道的:“除非获得更多的数据,否则Meta无法与ChatGPT相媲美。有人争论是否应为每本新书支付10美元的完整许可权。他们讨论了购买西蒙与舒斯特公司,该公司出版像史蒂芬·金这样的作者的作品。他们还讨论了如何在未获授权的情况下总结网络上的书籍、论文及其他作品,并讨论了获取更多内容,即使这意味着面临诉讼。一名律师警告了从艺术家处获取知识产权的‘伦理’问题,但没有得到回应。”
Meta据说确实整合了非法来源的受版权保护的材料。据《纽约时报》报道,问题在于,尽管Meta拥有众多应用用户,但他们产生的大部分内容并不太有助于构建其人工智能模型,因为人们会删除旧的帖子,人们通常不会在应用程序上发布较长的内容,写作风格也不符合聊天机器人的对话性质等。因此,为了竞争,Meta需要新的数据源,它在盗版书籍中找到了这些。现在出版商已经通过自己的方式检测到了这一点。这可能导致Meta在全球范围内面临一系列诉讼,特别是如果这些初步案件导致受影响的作者获得赔偿。确实,如果能确立法律先例,你可以打赌世界上每一个出版商都会嗅到金钱的味道,并会仔细查找任何能找到的信息,以寻找他们自己作品的痕迹。这可能会给Meta带来重大处罚。
但是等等,像OpenAI这样规模较小的初创公司,没有数十亿用户的个人信息,如何以相同的方式建立自己的数据库而没有相同的版权问题?嗯,它也面临着类似的法律挑战。实际上,在所有这些案件中,你可以预期看到OpenAI也会因同样的违规行为受到调查,因为作者和出版商寻求未经授权使用的补救措施。
数据是大型语言模型的动力源泉,拥有最佳数据源的公司将最终胜出,因为基于参考集,他们的系统将产生更好、更准确、更有用的结果。如果没有最初的数据源,系统就无从下手,这似乎是为什么Meta和OpenAI以及其他公司愿意承担这种风险来构建他们的LLM。同时,一旦它们被构建出来,它们就会存在,然后你可以从那时起用补充数据来训练它们。所以Meta或许认为这是必要的风险投资,这将使它能够更好地利用自己的数据宝库来完善其模型。这类似于xAI正在接近其LLM的方式,构建基础,再利用X篇帖子完善和调整模型以提供实时信息更新。
因此,虽然这可能会让他们付出代价,但这可能是值得的,因为它能从出售模型中获得的收益中得到补偿。无论如何,法院可能需要数年时间才能审理完每个案件,到那时,可能会有新的法律方法来培训LLM和使用此类作品。你可以打赌Meta正在全面探索这一领域。
(以上内容均由Ai生成)