OpenAI 的最新举措使 DeepSeek 等竞争对手更难复制其作业
快速阅读: 《商业内幕》消息,为防止模型输出被滥用及竞品不当使用,OpenAI要求开发者进行政府ID验证。研究表明,中国模型DeepSeek-R1的输出74%与OpenAI模型风格相似,疑似不当蒸馏。此举引发关于数据使用和版权的讨论,也凸显模型溯源的重要性。
为了保护其核心资产,**开放AI**(OpenAI)现在要求希望访问其最先进的**人工智能模型**的开发人员进行政府ID验证。尽管此举表面上是为了遏制滥用,但一个更深层次的担忧正在浮现:**开放AI**的输出可能正被用于训练竞争性的人工智能系统。专注于人工智能内容检测的公司**科皮利克斯**(Copyleaks)发表的一篇新研究论文提供了证据,说明为何**开放AI**可能正在采取措施。使用一种能够识别主要人工智能模型风格“指纹”的系统,**科皮利克斯**估计,来自竞争对手中国模型**深度探索-R1**(DeepSeek-R1)的74%输出被归类为由**开放AI**所写。这不仅仅暗示重叠——它意味着模仿。**科皮利克斯**的分类器还对其他模型进行了测试,包括**微软**的phi-4和埃隆·马斯克的**格罗克-1**(Grok-1)。这些模型分别得到了99.3%和100%的“无协议”评分,表明独立训练。**米斯特拉尔**的**混合模型**(Mixtral)也有一定相似之处,但**深度探索**的数据尤其引人注目。
展示与**开放AI**模型风格“指纹”相似度的图表
**科皮利克斯**研究
这项研究表明,即使模型被提示以不同的语气或格式撰写,它们仍然会留下可检测到的风格特征——就像语言指纹一样。这些指纹在任务、主题和提示中保持一致,并且现在可以相对准确地追溯到其来源。这对有助于检测未经授权的模型使用、执行许可协议并保护知识产权具有重要意义。**开放AI**没有回应评论请求。但在宣布这一变化时,该公司讨论了一些引入新验证流程的原因。“不幸的是,少数开发者故意违反我们的使用政策使用**开放AI**API,”它最近写道。
**开放AI**称**深度探索**或许不当蒸馏了其模型
今年早些时候,就在**深度探索**让人工智能社区感到震惊的推理模型与**开放AI**提供的产品性能相当后,这家美国初创公司更加明确地表示:“我们已经注意到并正在审查**深度探索**不当蒸馏我们模型的迹象。”
**开放AI**称**深度探索**或许不当蒸馏了其模型
蒸馏是一种过程,在该过程中,开发人员利用开源模型进行蒸馏以训练新模型。虽然这种技术在人工智能研究中很常见,但未经允许这样做可能会违反**开放AI**的服务条款。**深度探索**关于其新R1模型的研究论文描述了利用开源模型进行蒸馏,但没有提到**开放AI**。今年早些时候我曾询问**深度探索**这些模仿指控,但未得到回复。有批评者指出,**开放AI**本身通过抓取网络内容(包括新闻出版商、作者和创作者的内容)构建了早期模型——通常未经同意。那么,当其他人以类似方式使用**开放AI**的输出时,**开放AI**抱怨是否显得虚伪之举?
“这实际上归结为同意和透明度,”**科皮利克斯**首席执行官**阿隆·亚明**(Alon Yamin)说。未经许可训练受版权保护的人类内容是一类问题。但使用专有人工智能系统的输出来训练竞争性模型是另一类——这更像是逆向破解他人的产品,他解释道。**亚明**认为,尽管这两种做法在道德上都存在问题,但基于**开放AI**输出进行训练会带来竞争风险,实质上是在原开发者不知情且未获补偿的情况下转移了他们的创新成果。
随着人工智能公司争相构建更强大的模型,关于谁拥有什么、谁能训练谁的争议正在加剧。像**科皮利克斯**的数字指纹系统这样的工具提供了一种潜在的方法来追踪和验证模型级别的作者身份。对**开放AI**及其竞争对手而言,这既是机遇也是警示。
(以上内容均由Ai生成)