专家表示,AI 需要开放性。但是以谁的条件呢?
快速阅读: 据《Diginomica (数码化)》最新报道,英国政府提议修改版权规则以允许AI训练引发争议。批评者认为这可能导致数据所有者被迫开放内容,而富有的供应商借此获利。专家讨论了数据访问对AI开发的重要性,但回避了信任滥用问题。微软支持开放数据,但强调应在学术背景下进行。小组成员强调国际合作和公众信任的重要性,但也存在对版权持有者的潜在不公平。
(皮克斯贝)有人认为英国政府提议修改版权规则以允许AI训练是错误的——正如媒体、价值1600亿英镑的英国创意社区和行业贸易组织UKAI所主张的那样。或者,正如科学技术国务大臣彼得·凯莱所说,可以声称批评者正在阻碍创新和进步,尽管UKAI持不同意见。但大多数人同意的一件事是,开放数据、数据访问以及普遍的开放精神对AI的发展至关重要,如果这项技术要像承诺的那样造福人类的话。那么问题就变成了我们所说的“开放”是什么意思。
大多数人理解开源和开放数据的概念;但在这两种情况下,都有事先的认可和协议,即数据和流程都将开放。例如,共享经过匿名化处理的数据集或开源软件,开发者可以自由协作、更新工具,以及/或访问和修改源代码。在这两种情况下,都有一套公认的准则和一个共享该准则的社区。
数据访问对AI开发很重要,但——政府提案的批评者说——这不应该意味着数据所有者被迫违背自己的意愿开放内容。特别是如果这意味着富有的供应商——其中一些囤积了自己的知识产权——将其转化为金钱,而数据所有者却什么也得不到(甚至没有得到认可)。
一些供应商声称原创作品没有内在的货币价值。但这些公司也声称他们负担不起支付费用。这是荒谬的,尤其是当一些公司是人类历史上最富有的公司之一时,却选择从已知的盗版来源获取专有数据。在AI训练师看来,这些数据是关键且必要的,但根据观察者的不同,也可能被视为毫无价值。这几乎就像它处于量子叠加态:薛定谔的数据,或许?它是活的还是死的?问问律师就知道了!
数据访问对AI开发很重要,但——政府提案的批评者说——这不应该意味着数据所有者被迫违背自己的意愿开放内容。特别是如果这意味着富有的供应商——其中一些囤积了自己的知识产权——将其转化为金钱,而数据所有者却什么也得不到(甚至没有得到认可)。
### 数据抓取与开放合作
开放数据和开源开发通常涉及合作、公平和互利,而未经许可、无信用或无报酬地抓取专有内容则是一边倒且不道德的——更不用说非法了。虽然文本和数据挖掘(TDM)例外被错误地描述为训练大型语言模型和生成式AI,但它并不适用于商业产品开发,只适用于学术研究中的合理使用。这就是政府提案试图改变的地方。但计划的批评者认为这是在偏袒少数公司:几家美国供应商。这些公司声称是在帮助大多数人,但却看起来更像是在帮助自己。
这些问题上周在西敏寺的人工智能英国(AIUK)会议上,在女王伊丽莎白二世中心举行的图灵研究所活动中有所提及,距离议会大厦仅几步之遥。
### 背景是什么?
认识到中国DeepSeek已经“爆炸性发展”——用主持人的说法——“人工智能的胚胎生态系统”。当然,鉴于DeepSeek(本周可获得v3版本)似乎比其美国竞争对手更便宜、更高效,它已经挑战了像OpenAI这样的脆弱的风险投资资金。(一个OpenAI数据中心花费5000亿美元?不需要,中国公司表示——相当于一张笑脸表情符号。)
那么,人工智能的未来会走向何方?在这个过程中,开放又处于什么位置?难道只是意味着版权持有者对被盗行为的容忍?(或者将被盗重新界定为合理使用?)
### 一场一边倒的讨论
发言者包括OpenUK首席执行官阿曼达·布罗克;英国政府AI顾问、牛津埃里森科技学院AI政府项目负责人劳拉·吉尔伯特博士;MLOps平台Seldon创始人亚历克斯·豪斯利;以及微软助理总法律顾问、OpenUK成员索尼娅·库珀,她还担任知识产权联盟版权委员会主席——似乎是从偷猎者变成了守门人。
一组专家,值得注意的是,他们都持有相同观点并共享相同立场:这就是当今所谓的辩论。所以,让我们称之为盟友之间的对话,在某些情况下,也是OpenUK同事之间的对话。让他们让我们听进去真是太好了!
对话强调了数据访问对AI开发的重要性,引用了如军用地图和交通数据等开放数据的例子。小组成员强调了建立更好的数据共享基础设施、私营部门与学术界的伙伴关系以及国际协作以推动创新的必要性。公平地说,谁又能反对呢?但他们也讨论了公众对政府AI倡议的信任的重要性,同时拒绝讨论在抓取非公开数据中涉及的信任滥用问题——我向他们提出了这个问题,但主持人忽略了。
因此,对于关于开放性的“辩论”,我的印象是它显得异常封闭且安排得当。然而,它确实提供了一个洞察地球上最富有和最有价值的公司之一微软的世界观的机会,该公司也是ChatGPT制造商OpenAI的关键合作伙伴和支持者。
### 本质上,他们的论点是这样的:
任何人自由阅读一本书或研究论文,从中学习,并在未来利用这些知识自主行动;也许他们会写一本自己的书,或者通过解释性舞蹈来表达。AI有点像那个正在了解世界的人——或者它创造了这样做的说服力假象——那么为什么它不应该享有同样的权利呢?到此为止。
但在现实世界中,通常一个人买一本书或去图书馆购买那本书。同样一般地,他们不会把数百万本盗版书籍和研究论文装进卡车,以创建一个自动化的商业竞争对手——而不承认他们甚至读过这些文字。但让我们暂时先放下这一点。(小说家米兰·昆德拉曾说过,比喻是危险的。)
### 微软的观点
如之前报道的那样,微软的库珀说:
微软的观点
她补充道:
再次,是谁说的?然而,值得注意的是,她——像她的其他小组成员一样——将评论限制在一个学术研究论文的背景下,并避免讨论其他形式的知识产权。这可能是因为更容易声称研究是为了扩展人类知识,而不是声称小说、歌曲、绘画和电影都应该被装进我们的隐喻性货车厢中用于转售。
### 人工智能时代的开放性
那么,小组还说了些什么?
布罗克阐明了“开放AI”(不是公司)和开源之间的区别,无论是事实还是精神上。她说:
嗯。为了说明这一点,她分享了一些Meta的Llama LLM家族的历史,暗示——在她看来——作为最初打算供学者使用的泄露的软件,它不能被称为“开源”。毕竟,泄密是由市场竞争压力驱动的,在所谓的开放市场中。
她继续说道:
一种反讽,或许。或者是一种Meta。
### 商业挑战
至于豪斯利,他概述了作为一名开源空间企业家的一些挑战:
实际上,在开源运动早期,像Red Hat和SuSE这样的Linux发行版会在服务而非产品上竞争,这是一个机会,除非你针对专业领域,否则在AI世界中很难推销这种机会。除此之外,他继续说道:
一个有价值的视角。无论你站在哪一边,将尽可能多的世界数据商品化的商业激励变得清晰——即使在法律上不应如此抓取、重新加工和(实际上)转售的数据。
### 政府的观点
那么,政府对这一切AI开放的看法是什么呢?
作为(实际上的)政府发言人,吉尔伯特博士说:
政府的观点
哇。让我们掩盖政府在AI训练中的版权失误以及试图强迫IP持有人违背意愿开放数据的行为。
然而,在这一点上,吉尔伯特确实分享了一个有趣的故事——虽然我不确定她是否想让它变得有趣:
我的看法
好吧,现在这不是一个残酷的竞争环境吗?让一家AI公司将你的作品重新包装并卖回给你真的让人难以接受,不是吗?
(以上内容均由Ai生成)