AI版权新挑战:RSL协议引领数据授权新趋势
快速阅读: AI版权问题严峻,Anthropic与版权方达成15亿美元和解,引发40多起诉讼。RSL系统推出,旨在实现大规模数据授权,获Reddit等支持,但AI公司参与度未知。
随着人工智能(AI)行业面临的版权问题日益严峻,特别是在 Anthropic 与版权方达成15亿美元和解之后,许多企业开始重视其训练数据的合法性。目前,有40多起未经授权数据使用的诉讼正在审理中,其中包括一起因 Midjourney 制作超人形象而引发的诉讼。
在缺乏有效授权体系的情况下,AI 公司可能面临大规模的版权诉讼,这使得行业前景充满不确定性。为了应对这一挑战,一群技术专家和网络出版商联合推出了一个名为 Real Simple Licensing (RSL) 的新系统,旨在实现大规模的数据授权。该系统已获得 Reddit、Quora 和 Yahoo 等大型网络出版商的支持,但行业内能否形成合力,吸引主要的 AI 实验室参与仍是一个未知数。
RSL 的联合创始人 Eckart Walther 表示,他们的目标是在互联网上广泛实施训练数据的授权体系。他指出,“我们需要为互联网提供机器可读的许可协议,RSL 就是为此设计的解决方案。”多年来,像数据提供者联盟这样的组织一直致力于推动更透明的数据采集实践,但 RSL 是首个旨在提供实际技术和法律基础设施的尝试。技术方面,RSL 协议定义了出版商可以为其内容设定的具体许可条款,包括 AI 公司是否需要定制许可或采用知识共享(Creative Commons)条款。参与的网站会将其条款纳入“robots.txt”文件,以便于识别哪些数据受到何种条款的保护。
在法律层面,RSL 团队成立了一个名为 RSL Collective 的集体许可组织,旨在为出版商谈判条款并收取版税,类似于音乐行业的 ASCAP 或电影行业的 MPLC。目前,已有许多知名出版商加入了这一集体,包括 Yahoo、Reddit 和 Medium 等。
尽管如此,确定 AI 模型具体使用哪些训练数据以计算版税的挑战依然存在。对于实时获取网络数据的产品,如谷歌的 AI 搜索摘要,数据使用的追踪相对简单;但如果训练过程未被记录,确认特定文档是否被某个大语言模型(LLM)使用就变得极其困难。
尽管存在这些挑战,RSL 的创建者们相信 AI 公司有能力应对。“他们在之前的某些授权协议中已经需要报告数据使用情况,因此这并非不可能实现,”RSL 的另一位联合创始人 Doug Leeds 表示。“只要做到足够好,就能确保人们获得应有的报酬。”最终,RSL 的成功与否,关键在于 AI 公司是否愿意接受这一新体系。随着越来越多的 AI 行业领袖呼吁建立此类系统,RSL 团队希望他们能兑现承诺。
(以上内容均由Ai生成)