AI 和版权:扩大版权范围会伤害所有人 – 以下是该怎么做
快速阅读: 《电子前线基金会》消息,阅读网页内容无需许可,但要求开发者为AI训练材料获得授权将威胁创新和包容性发展。版权限制可能使机器学习和社会研究变得过于复杂和昂贵,阻碍科学进步。公平使用保护对ML和TDM研究至关重要,有助于重要科学发现。扩大版权范围不能解决生成式AI带来的问题,反而会损害言论自由和创新。我们需要针对具体问题制定有效政策,而非依赖无效的版权扩张。
阅读网页内容不需要许可——无论是用自己的眼睛看,还是使用软件辅助。人工智能是一类通用工具,具有多种有益的应用。要求开发者为创建这项技术所需材料获得许可,将威胁到更具创新性和包容性的AI模型的发展,以及作为表达和科学研究工具的重要应用。对有价值的社会研究和创新而言,要求研究人员为其公平使用的AI训练数据获得许可可能会使基于机器学习(ML)甚至文本和数据挖掘(TDM)的社会研究变得过于复杂和昂贵,甚至可能根本无法实现。研究人员已依靠公平使用进行了十年的TDM研究,推动了众多领域的重大进展。然而,获取高质量TDM研究所需的大量作品的许可通常是成本高昂且实际上不可行的。
公平使用保护ML和TDM研究是有充分理由的。没有公平使用,版权会阻碍对我们所有人都有益的重要科学进步。实证研究表明:在那些保护TDM研究不受版权控制的国家,使用TDM方法的研究更为常见;而在那些没有这种保护的国家,版权限制阻碍了有益的研究。原因很简单,因为要分析互联网上的文本等内容,识别并同数百万不同的版权持有者进行谈判几乎是不可能的。
这些任务的重要性不言而喻,因为ML帮助我们理解周围的世界至关重要。研究人员正在利用ML来理解从太空星云到我们身体内的蛋白质的一切。当任务需要处理大量的数据,比如由世界各地望远镜生成的数据时,ML能够迅速筛选信息以识别出可能对研究人员感兴趣的特征。例如,科学家们正在使用AlphaFold这一深度学习工具来理解生物过程,并开发针对这些过程中导致疾病的故障的药物。AlphaFold的开发者发布了开源版本,使其可供全球的研究人员使用。其他开发者已经在此基础上迭代,构建了变革性的新工具。
要求AI开发者在训练模型之前获得版权所有者的授权,将限制竞争仅限于拥有自己训练数据库的公司或能与之达成协议的公司。这将导致有限竞争的所有通常危害——更高的成本、更差的服务和增加的安全风险——同时也会减少用于训练此类工具的表达多样性以及允许用户借助AI表达自己的表达多样性。正如联邦贸易委员会最近所解释的那样,如果少数几家公司控制了AI训练数据,“他们可能能够利用其控制权来抑制或扭曲生成式AI市场的竞争”,并对经济活动产生过大的影响。
传统守门人已经利用版权来阻止信息的获取和新工具的创造。这被广泛认为是首例关于AI训练权利的诉讼中,汤森路透诉罗斯智能公司一案中,罗斯智能试图通过提供新的AI系统来打破西法典和莱克西斯奈克斯法律研究的双头垄断。这家初创企业试图获得在西法典的公共领域司法意见摘要及其案例组织方法上训练其模型的权利。西法典拒绝授予该许可,并起诉其微小的竞争者侵犯版权。最终,这场诉讼迫使初创企业退出市场,消除了一家原本可以增加法律访问机会的潜在竞争对手。同样地,就在Getty Images——一家拥有数十亿张图片的股票图片公司——提起版权诉讼,要求法院下令销毁Stable Diffusion因涉嫌在训练过程中侵犯版权后不久,Getty推出了自己的训练在其自有图像库上的AI图像生成器。
-1000亿元的公司。然而,唱片公司和出版商常常不与艺人分享这些收入,艺人也很少从中获益。没有理由相信这些公司在掌控人工智能之后会对艺人更加公平。生成式人工智能工具,如文本和图像生成器,是强大的表达工具。这促进了原本不可能存在的艺术创作,并让人们得以用以前无法实现的方式表达自己。正如教授兼数字艺术家内特里丝·加金斯所解释的那样,生成式人工智能是创作此类艺术的重要工具。限制可用于训练人工智能的作品将限制其作为艺术工具的实用性,并加剧版权法已经对历史上黑人艺术形式造成的伤害。
生成式人工智能工具,如文本和图像生成器,是强大的表达工具。这促进了原本不可能存在的艺术创作,并让人们得以用以前无法实现的方式表达自己。生成式人工智能有能力像互联网一样民主化言论和内容创作。在互联网出现之前,少数大型出版商控制了言论传播渠道,决定哪些材料能到达受众耳中。互联网改变了这一点,让任何拥有笔记本电脑和Wi-Fi连接的人都能接触到全球数十亿人。生成式人工智能通过使普通互联网用户能够在几秒钟内生成文本并轻松创建图形、图像、动画和视频来放大这些好处,而几年前只有最专业的工作室才有能力制作这些内容。
传统守门人希望扩大版权以逆转这一进程。不要让他们得逞:每个人都有权使用技术来表达自己,人工智能也不例外。在所有这些情况下,合理使用——即在某些情况下无需许可或支付即可使用受版权保护的材料的能力——往往是限制权利持有人施加的限制的最佳对策。但是,正如我们在本系列的第一篇文章中所解释的那样,合理使用正受到版权蔓延的攻击。出版商最近试图为人工智能训练权利实施新的许可制度,尽管他们缺乏控制人工智能训练的合法权利,这威胁到了公众的合理使用权利。通过削弱合理使用,人工智能版权蔓延使所有其他危险变得更加严重。研究人员和教育工作者经常依靠合理使用来进行学术评估和收集数据。合理使用允许竞争对手基于现有作品提供更好的替代品。而且,合理使用可以让任何人评论或批评受版权保护的材料。
在所有这些情况下,合理使用——即在某些情况下无需许可或支付即可使用受版权保护的材料的能力——往往是限制权利持有人施加的限制的最佳对策。但是,正如我们在本系列的第一篇文章中所解释的那样,合理使用正受到版权蔓延的攻击。出版商最近试图为人工智能训练权利实施新的许可制度,尽管他们缺乏控制人工智能训练的合法权利,这威胁到了公众的合理使用权利。当守门人在法庭上、向立法者和公众面前主张反对合理使用并支持广泛的版权时,他们是在寻求巩固自己的权力,并削弱我们的权力。人工智能确实带来了需要实际解决方案的真实威胁。许多创作者和白领专业人士越来越认为生成式人工智能威胁到他们的工作。许多人还担心它会导致严重的滥用行为,例如未经同意的人工智能生成的亲密影像,甚至包括儿童的影像。隐私问题层出不穷,关于错误信息和虚假信息的担忧也普遍存在。而且它已经损害了环境。
扩大版权范围并不能缓解这些危害,我们不应该为了追求那些无效的“解决方案”而放弃言论自由和创新。我们需要解决这些问题的根本原因,比如劳动权利和个人隐私的不足保护。有针对性的、针对具体问题的政策更有可能成功地解决社会面临的问题。以竞争为例。版权扩张的支持者认为,将人工智能开发视为合理使用会只让少数科技巨头受益。但强加繁重的新版权许可要求来训练模型将锁定大型科技公司和大型媒体公司享有的市场优势——这些公司是唯一拥有大型内容库或能够负担得起足够材料来构建深度学习模型的公司——以公众利益为代价,使既得利益者获利。无论大型科技公司还是大型媒体公司都不会说,更强有力的反垄断规则和执行将是更好的解决方案。
更重要的是,超越版权的未来保护措施将创造一个生态系统,在这个系统中,我们将拥有防御任何可能在这些领域造成危害的新技术的手段,而不仅仅是生成式人工智能。另一方面,扩大版权范围可能会威胁到人工智能的社会有益用途——例如用于科学研究和创造新的艺术表达——而没有实质性地解决这些危害。
(以上内容均由Ai生成)