据称,Meta 使用盗版书籍来训练 AI。澳大利亚作者对此表示反对,但美国法院可能会决定这是否属于“合理使用”
快速阅读: 据《The Conversation (英国)》最新报道,围绕AI训练使用受版权保护作品引发法律争议,作家和出版商担忧权益受损。澳作家协会呼吁监管,要求许可与补偿。不同地区立法态度各异,创新与版权保护需平衡。
开发人工智能模型的企业,如开放人工智能(OpenAI)和元宇宙(Meta),会在巨大的数据集中训练其系统。这些数据集包括来自报纸、书籍(通常来自未经授权的资源库)、学术出版物以及各种互联网来源的文本。其中包含受版权保护的作品。《大西洋月刊》近期指控脸书(Facebook)和其母公司Meta利用非法书籍存储库Library Genesis(简称LibGen)来训练其生成式人工智能工具。由俄罗斯科学家于2008年创立的LibGen托管了超过750万本书籍和8100万篇研究论文,使其成为全球最大的盗版在线图书馆之一。
在受版权保护的材料上训练人工智能的做法引发了激烈的法律辩论,并引起了作家和出版商的严重担忧,他们面临作品被贬值或取代的风险。虽然一些企业,如开放人工智能(OpenAI),已与某些内容提供商建立了正式合作关系,但许多出版商和作家反对未经许可或未获经济补偿的情况下使用他们的知识产权。作家特蕾西·斯派克形容Meta对受版权保护书籍的使用为“技术资本主义的巅峰”,而澳大利亚作家协会主席索菲·坎宁安则指责该公司“轻视作者”。
Meta在美国因侵犯版权被一群作者起诉,其中包括迈克尔·查博恩、塔内希·科茨和喜剧演员莎拉·西尔弗曼。一月份提交的法院文件指控Meta首席执行官马克·扎克伯格批准使用LibGen数据集来训练公司的AI模型,明知其中包含盗版材料。Meta拒绝就正在进行的诉讼发表评论。
法律争端的核心在于:大规模的数据抓取用于AI训练是否构成“合理使用”?法律挑战由于AI公司不仅利用公开可得的数据训练模型,还使用这些内容提供可能与原创作者作品竞争的聊天机器人答案,因此风险尤其高。AI公司为其数据抓取辩护的理由是创新和“合理使用”——这一美国法律原则允许在特定情况下“未经许可使用受版权保护的作品”。这些情况包括研究、教学和评论。其他法律管辖区,包括澳大利亚,也有类似规定。AI公司认为他们出于培训目的使用受版权保护的作品具有转化性。然而,当AI能够复制与作者风格相似的内容或再生大量受版权保护的材料时,关于这是否构成侵权的合法问题便浮现出来。
这场战斗中的里程碑式法律案件是《纽约时报》诉开放人工智能(OpenAI)和微软案。该案于2023年底发起,仍在进行中。《纽约时报》指控版权侵权,声称开放人工智能(OpenAI)及其合作伙伴微软未经许可使用了数百万篇文章来训练AI系统。尽管诉讼范围已缩小至与版权和商标稀释侵权相关的核心主张,但最近允许案件进入庭审阶段的法院裁决被视为《纽约时报》的一次胜利。其他新闻出版商,包括新闻集团(News Corp),也对AI公司发起了法律诉讼。
这种担忧不仅限于传统出版商和新闻机构,还延伸到个人创作者,他们面临着生计威胁。2023年,一群作者——包括乔纳森·弗兰岑、约翰·格里沙姆和乔治·R·R·马丁——提起了一项尚未解决的集体诉讼,指控开放人工智能(OpenAI)未经许可或支付费用就复制了他们的作品。作者乔治·R·R·马丁加入了针对开放人工智能(OpenAI)的集体诉讼。
回应这些挑战,澳大利亚作家协会(ASA)呼吁澳大利亚政府监管AI。其提议要求AI公司在使用受版权保护的作品之前必须获得许可,并且必须向授权的作者提供公平补偿。ASA还呼吁明确标注完全或部分由AI生成的内容,并透明地说明哪些受版权保护的作品被用于AI培训以及培训的目的。
如果在受版权保护的作品上训练AI是可行的,那么什么样的补偿模式对原创创作者来说是公平的?2024年,哈珀柯林斯签署了一项协议,允许有限使用选定的非虚构类旧书目录用于AI培训。为期三年的非独家协议影响了超过150位澳大利亚作者。他们可以选择以2500美元的价格加入,这笔钱将在作者和出版商之间平分。然而,作者协会认为50/50的分成不公平,并建议75%应归作者所有,只有25%归出版社所有。
潜在反应出版商和创作者越来越担心知识产权的控制权丧失。AI系统很少引用来源,降低了归属的价值。如果这些系统可以生成替代已出版作品的内容,这可能会减少对原创内容的需求。随着AI生成的内容充斥市场,区分和保护原创作品变得更加困难。亚马逊已经受到AI生成内容的冲击,包括仿作和书评摘要,这些都作为电子书出售。
不同司法管辖区的立法者正在考虑更新国家版权法,专门针对AI,旨在促进创新并保护权利。但这些反应差异巨大。欧盟2024年的《人工智能法案》旨在平衡版权持有者的利益与AI发展的创新。版权条款是在谈判后期添加的,被认为相对较弱。但它们为版权持有者提供了识别潜在侵权的额外工具,并给予通用AI提供商更多的法律确定性,前提是他们遵守规则。
美国副总统JD·范斯明确拒绝了任何关于监管AI的计划。今年2月,在巴黎的人工智能行动峰会上,范斯将“过度管控”描述为“压制性的审查制度”,认为这阻碍了AI的发展。这一立场反映了美国更广泛的AI监管方法。
在向美国政府正在制定的AI行动计划提交的意见中,开放人工智能(OpenAI)和谷歌(Google)都主张AI公司应该能够在“合理使用”的原则下自由地在其模型上训练受版权保护的材料,这是“推动学习自由”的版权战略的一部分。这一立场引发了内容创作者的重大担忧。
澳大利亚作家协会主席索菲·坎宁安指责Meta“轻视作者”。
交易还是不交易?
除了法律框架外,全球范围内正在开发各种模式,以确保创作者和出版商得到报酬,同时允许AI公司使用数据。自2023年年中以来,几家学术出版商,包括英富曼(Informa)(泰勒与弗朗西斯集团的母公司)、威立国际(Wiley)和牛津大学出版社,已与AI公司建立了许可协议。其他出版商正在直接与AI公司达成类似哈珀柯林斯的协议。在澳大利亚,布莱克公司(Black Inc.)最近要求其作者签署允许使用其作品进行AI培训的自愿协议。
出现了各种许可平台,例如“由人类创作”,旨在促进受版权保护材料的合法使用,用于AI培训,并清楚地指示读者一本书是由人类创作而非AI生成的。
迄今为止,澳大利亚政府尚未颁布任何直接规范AI的具体法规。2024年9月,政府发布了一个自愿框架,包含八项AI伦理原则,呼吁在AI系统中实现透明度、问责制和公平性。
使用受版权保护的作品来训练AI系统仍然是一个有争议的法律领域。AI开发者和创作者都有正当利益需要平衡。显然需要在技术创新与原创内容创作的可持续模式之间找到平衡。法院开始裁定这些案件时,我们可能会看到关于AI培训和AI驱动的内容创作中何为“合理使用”的更清晰指导方针,以及何种补偿模式可能是合适的。最终,人类创造力的未来取决于此平衡。
(以上内容均由Ai生成)