“It Wasn’t Me”:DeepSeek 否认他们窃取了任何东西,但他们的模式仍然是一场成本革命吗?

发布时间:2025年2月8日    来源:szf
“It Wasn’t Me”:DeepSeek 否认他们窃取了任何东西,但他们的模式仍然是一场成本革命吗?

快速阅读: 据《修补的自由》最新报道,深寻R1的发布引发全球关注,英伟达股价大跌。开放AI指控深寻通过“模型蒸馏”非法复制其技术。CITP学者对此展开讨论,质疑深寻的训练成本及技术可行性。版权和数据盗窃问题成为焦点,专家们认为这可能影响未来人工智能领域的竞争格局。

深寻R1于2025年1月20日发布,引发了全球强烈反响。英伟达股票一天内下跌超过百分之十七,公司市值损失创美国历史之最。恐慌似乎源于深寻声称他们仅用五百六十万美元就训练出了R1,使用的却是上一代GPU。市场对于更快的GPU和不断增长的、耗能昂贵的计算需求是否将枯竭?戏剧性事件并未结束。第二天,开放AI指责深寻试图通过构建大量GPT4o回应的数据集来“复制”他们的模型——这一过程被称为模型蒸馏,开放AI的发言人表示这“不适当”地违反了他们的服务条款。有人认为这是因果报应,因为开放AI最初也被指窃取训练数据。但什么是蒸馏?它是否使用了与GPT4o相同的“数据”?这真的是“盗窃”吗?无论是否如此,开放AI能否执行其服务条款?CITP学者们整周都在讨论这些问题,包括在2月4日周二举办的科技与社会读书小组特别会议上。昂贵硬件和计算的时代结束了吗?基础设施与部署CITP学者持怀疑态度,认为需要看到更多测试结果才能下结论。助理教授马努埃尔·霍塔·里贝罗强调了一个许多人可能忽视的关键区别:拥有大规模部署大型语言模型(LLM)的基础设施与拥有训练它们的基础设施之间的区别。即使R1是在少量硬件上训练的,部署它可能意味着成千上万的用户远程与其交互。这种计算在拥有最新芯片的大服务器农场中最为高效。马努埃尔指出:“这些科技公司建设基础设施的部分原因也是为了推理(使用模型,而不是训练它),这应该与深寻的突破是正交的。”尚不清楚深寻能做出多高效的模型,以及它能在多么小的GPU上运行。计算机科学助理教授彼得·亨德森同意里贝罗的观点,强调理解推理所需的硬件要求的重要性。他表示:“随着更多专门硬件和优化技术的发展,用于推理的最佳芯片组将不断发展。但目前,英伟达芯片对于训练运行和大规模部署模型以服务于客户仍然是必不可少的。”尽管这些可以在树莓派上运行,但CITP博士后研究员多米尼克·斯坦姆巴赫对速度和用户体验表示担忧。这一讨论引出了计算机科学助理教授安德烈斯·蒙罗-埃尔南德斯提出的问题:“有没有理由对声称他们只花费了约六百万美元表示怀疑?”果然,不久就有报道称深寻达到R1的总成本可能高达十六亿美元。尽管如此,CITP诊所负责人米希尔·克什萨加尔指出,人们普遍认为建造有能力的人工智能模型的成本远高于深寻声称的金额。他评论道:“有一种‘感觉’是建造有能力的模型成本将超过一亿美元,因此只有超大规模企业才能负担得起。这一发展质疑了这种普遍认知。”

数据盗窃指控,或对等原则……

关于深寻的数据是否从开放AI“盗窃”的争议不会很快解决,因为我们等待监管机构采取行动和法院作出裁决。但在现行法律下,开放AI是否真的“盗窃”过什么,或者是否有东西被“盗窃”,存在严重疑问。彼得·亨德森和他的同事研究了这一问题的所有方面。首先,有开放AI是否在抓取训练数据时侵犯版权的问题。他们认为,美国版权法中的“合理使用”辩护可能允许开放AI在受版权保护的数据上进行训练。然而,如果他们的模型生成的输出与训练数据非常相似,这可能会使他们更难以主张合理使用。但也有开放AI是否可以对其模型输出(深寻用来训练V3,即R1前身的输出)声称某种法律控制的问题。这有些牵强,正如莱姆利和亨德森在这篇论文中所争论的那样。美国版权局最近也同意了这一点,泼了一盆冷水,认为除非输出中有“足够水平的人类贡献”使其具有版权性,否则模型输出不可受版权保护。这将使版权更接近于促使模型的人,而不是拥有该模型的公司。这是否意味着深寻可以自由使用开放AI的模型输出?里贝罗解释说:“深寻(可能)使用的技巧称为‘模型蒸馏’。这是一种相当常见的方法,一种做法是用一个更强的模型(例如,开放AI的o1)生成数据,并用它来训练一个较弱的模型。开放AI禁止以这种方式使用模型,但这是否真的有意义还不清楚。”

CITP举办了一场关于深寻的深度探讨会,专门在技术与社会读书小组(Tech Soc)的一次周二会议上阅读深寻的研究论文并了解其训练创新。博士后研究员多米尼克·斯坦姆巴赫带领其他人了解了整个过程——从初始训练数据到群体相对策略优化,再到监督微调。当被问及他对深寻训练数据的看法时,斯坦姆巴赫表达了对深寻发布的全面技术报告中缺乏细节的沮丧。“目前我们只能推测模型训练了什么内容,但我不会惊讶如果深寻V3或R1的一些训练数据(例如,长链思维)实际上是通过蒸馏专有的语言模型获得的。这种法律后果以及这是否会改变消费者和研究人员与这类模型互动的方式,仍有待观察。”

对人工智能公司的意义

马努埃尔总结了他的观点:“总体而言,这可能是那些战略是训练大型前沿模型并将其提供给公众(例如,开放AI)的公司的系统性问题。如果人们总是能够‘蒸馏’出一个类似于大型模型的模型,这可能会带来显著的‘后来者优势’。第二家公司可以以极低的成本获得‘足够好’的模型。”CITP博士后研究员尹英指出:“开放AI声称他们使用了互联网上的公共数据,而深寻则涉嫌蒸馏信息,这可能构成对开放AI服务条款的违反。但《纽约时报》声称开放AI收集并使用了他们的专有文章,所以公共数据与专有数据之间的区别在这里并不令人信服。”尹英的研究致力于结合法律和计算机科学,专注于为负责任的人工智能系统建立指导原则。她继续说道:“但我完全不同意深寻的隐私政策及其潜在滥用个人数据的行为。我认为如果山姆·奥特曼的反应是‘我讨厌他们利用GPT开发剥削性的数据实践’,而不是‘你偷了我的财产’,可能会引起更大的共鸣。”

TechTakes是一个系列,我们在其中邀请CITP社区成员对科技和科技政策相关的新闻发表评论。TechTakes由CITP附属教员和普林斯顿公共与国际事务学院(SPIA)讲师史蒂文·凯尔茨,以及CITP外联和项目协调员莉迪亚·欧文斯主持。

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日