校友 @ RopesTalk：塔夫茨大学 Vasanth Sarathy 博士的 DeepSeek Deep Dive

快速阅读: 据《JD Supra》称，在本期《瑞格与格雷校友@瑞格对话》播客中，技术与知识产权交易合伙人丽吉娜·萨姆·彭蒂博士与图斯大学计算机科学教授瓦桑特·萨拉西博士探讨了中国应用深探及其模型的技术和商业影响。深探因其低成本和开源特性引起关注，但也存在数据审查和误导信息等问题，引发市场对整合该技术的担忧。

在这期《瑞格与格雷校友@瑞格对话》特别播客中，技术与知识产权交易合伙人丽吉娜·萨姆·彭蒂博士邀请了图斯大学计算机科学教授兼瑞格与格雷校友瓦桑特·萨拉西博士。他们深入探讨了中国应用深探及其模型的技术和商业影响。该应用及其模型在人工智能领域引起了广泛关注。收听本期节目以了解其背后的真实情况，以及这对考虑采用人工智能的企业意味着什么。大家好，欢迎收听本期《瑞格与格雷校友@瑞格对话》。我是丽吉娜·彭蒂，我是瑞格与格雷知识产权交易部门的合伙人，并已为数十家公司提供过人工智能战略和采用方面的咨询。今天我们讨论的是中国应用深探及其模型。关于这个应用及其模型对人工智能世界的意义，已经有很多说法。我的嘉宾是瓦桑特·萨拉西博士。瓦桑特是图斯大学的计算机科学教授。他的研究集中在人工智能与自然语言处理的交叉领域。他还定期为寻求弥合业务与技术差距的公司提供建议。瓦桑特也是一名完全训练有素的律师，并且是瑞格的校友。在进入学术界之前，瓦桑特曾在这里的瑞格与格雷律师事务所工作近十年。因此，我们非常高兴能再次邀请他讨论这个重要话题。欢迎你，瓦桑特。大家好，感谢你们邀请我参加。丽吉娜·萨姆·彭蒂：瓦桑特和我今天将重点讨论深探的技术和商业影响，并尝试从宣传中梳理出事实。对于任何对深探相关的法律风险和考虑感兴趣的听众，我共同撰写了瑞格与格雷的一份警告，其中涵盖了这些要点。如果您需要一份副本，请联系我。让我们直接进入主题。对于那些可能还不完全了解深探的听众，您如何描述它？它有哪些特点？为什么它引发了如此多的关注，甚至有些困惑？瓦桑特·萨拉西博士：从高层次来看，深探是一个大型语言模型（“LLM”），由一家中国对冲基金设计和构建。其基本理念是，传统上，软件工程涉及编写程序。输入一些内容，编写程序，然后进行计算并产生输出。机器学习的出现改变了这种状况，它说：“你不必编写程序。它可以接收大量输入和输出，它会自动生成程序。”深度学习将其提升到了新的高度，现在有了更为复杂的系统。可以这样理解这些系统，就像一台巨大的机器，上面有许多调节旋钮。当这些机器接受训练时，这些旋钮会自动调整或校准。因此在未来，当你输入某些内容时，你可以得到正确的输出。语言建模是这些内容的一个子集，你试图预测下一个单词。这基本上就是你所做的——你查看现有的词汇集合，并说：“最有可能的下一个单词是什么？”大型语言模型就是这样做的，只是它们是在庞大的数据集上训练的，例如互联网上的数万亿个单词。像聊天GPT这样的模型就是一个大型语言模型的例子。还有其他模型：克劳德。深探也属于同一类大型语言模型。深探有趣的地方在于，当这些大型语言模型问世时，它们通常会进行大量的所谓“基准测试”。这基本上是评估这些模型在各种不同任务上的表现。一组特定任务被称为“推理”。你可以把推理想象成通过多个步骤思考。许多新的人工智能模型的目标是建立更好的推理模型，因此它们会在给出答案前先思考，或者能够进行某种内部思考。深探正式被称为R1模型，最新的R1模型是另一种推理模型。有趣的是，这些模型的表现，尤其是深探，并没有比现有模型好很多。像聊天GPT这样的模型，以及Meta公司的Llama模型，在推理任务上都表现得非常相似。那么问题就来了：为什么深探一经发布就引起了一片疯狂？其中一个主要原因是它非常便宜。如果你使用这个应用程序，你支付的价格远低于聊天GPT的价格，这引起了人们的兴趣。所以这是一个重要因素。它显著更便宜，我认为大约便宜了30倍。然后，我们还有另一个问题，那就是尽管深探的表现与聊天GPT及其后续版本相当，深探在许多开源模型上表现要好得多。这些模型是任何人都可以公开使用的。通常情况下，像聊天GPT这样的模型背后有一道专有的墙，你根本看不到这些模型的内部结构。你最多只能与API交互，这只是一个公开可用的接口，但模型的其余部分并不开放。但是深探发布后说：“你知道吗？每个人都可以拥有它。”因此，这引起了很大的兴趣和关注。当你训练这些大语言模型时，训练过程的每一步通常需要GPU来提高效率。GPU之所以能提高效率，是因为它们可以并行运行任务，这意味着它们可以同时运行数百万次计算，而不是一次一个，因此大大提高了处理速度。GPU是所有这些大语言模型底层硬件中非常重要的技术，因此在训练过程中需要大量的GPU。当训练完成后，将这些模型提供给公众使用时，你也需要GPU来加载和运行这些模型。因此，GPU在这些不同的地方都起着作用，大型公司如亚马逊网络服务、微软Azure和谷歌云都有装满GPU的数据中心。现在，英伟达股价可能下跌600亿美元的原因是市场对此的一种反应——有些人可能会认为这是一种过度反应——即认为深探的制造成本大幅降低。据信，为了制造开放AI的聊天GPT，他们花费了大约1亿美元。而深探声称，他们的成本仅为500万美元，并且使用的GPU数量显著减少。此外，由于出口限制，他们使用的是我们美国市场上不太理想的英伟达GPU版本，所以他们能够用更少的GPU完成这一切，并产生与其他顶级模型相当的结果。我认为普遍的看法是，GPU可能不是最重要的部分，因此英伟达最终可能会卖出更少的产品。我认为这是市场最初对此的反应或过度反应。这很有帮助。看来至少在开发不同AI模型的成本结构中存在一些假设。对于一些我们的客户和其他听众来说，作为他们工作的一部分，他们必须考虑估值和投资于AI公司的问题，以及真正弄清楚未来的回报和投资在哪里。这意味着什么？这对初创公司的融资和AI领域的估值意味着什么？目前有大量的资金投入到AI中，而且这些资金投入的地方确实很重要。许多观察者注意到，即使GPU的需求可能较少，但由于所谓的“杰文斯悖论”，你最终可能会看到更多的GPU被销售。这个悖论是指，某种资源的成本降低后，你会拥有更多这种资源，并且人们实际上会想要它。市场确实非常需要智能系统，因此仍然有对它的需求。许多人预测GPU的销量会上升。要理解整个大语言模型生态系统，可以将其视为像一叠纸一样堆叠起来。这叠纸的最底层是硬件，比如你的GPU。这些GPU随后被堆叠层中的下一层所使用，也就是数据中心。数据中心拥有一大批计算机，因此他们会购买所有的GPU。这些数据中心被像开放AI、Meta、深探等公司用来训练和运行他们的语言模型，因此这是堆栈的一层。然后，如果你再往上一层，就会发生这样的事情：人们，特别是初创企业，利用这些已经由其他人训练和构建的大语言模型在各种应用中。因此，你可以将其用于搜索。你可以在企业环境中使用它——目前AI应用程序的创建是一个巨大的热潮。但它们都是在堆栈的顶层创建的。有趣的是，底层的两层，即GPU和数据中心，是大量投资的地方——这样做需要相当多的资金。英伟达去年的销售额约为1500亿美元，这意味着他们卖出了价值约1500亿美元的GPU。如果你考虑到数据中心的投资，那么这1500亿美元可以翻倍，因为数据中心还有其他成本——大约是3000亿美元的投资。然后，如果你再往上一层到应用程序等等——使用该数据中心基础设施的应用程序较少，他们会建立自己的应用程序，并且可能会希望获得50%的利润率，因此你有一个6000亿美元的市场。现在，这个AI系统的整个目标是，人们希望这一切都能有所回报。你在底层投入了大量的资金。你让所有的数据中心运转起来。然后，这些应用程序出现了，希望它们产生的收入能够弥补这些投资。问题是，目前还没有——存在一个很大的缺口。红杉资本的大卫·卡恩实际上写了一篇关于这个问题的伟大文章——他称之为6000亿美元的缺口。这是因为这个原因，也是因为实际的收入创造部分与目前正被注入的投资之间的差异。正如我之前提到的，深探是一个开源模型，这意味着任何人都可以复制它。因此，会有其他人开发出同样便宜、需要更少GPU的基础模型等等。因此，投资可能会向上移动技术栈。可能会有更多的AI应用程序公司出现。可能会有更多的投资进入应用程序空间。我认为很多风险投资和初创企业的投资将会进入那个领域，因为现在有很多机会供AI应用程序开发者真正全面地增加价值。从搜索开始——有困惑AI，到艾利克特研究论文，哈维法律搜索，开放证据医学搜索等等——有各种各样的工具可以帮助企业管理和使用现有的文档，以及帮助内部用户使用这些工具。基本上，这将使投资在各个层级上更加均衡分布。深探的一个关键特性是它是开源模型。开源的理念是公开所有模型权重（即调节参数）和运行这些模型所需的代码。这对社区非常有益，应用开发者都依赖于这一点。开源模型的一大好处是你可以下载整个模型并将其保存在自己的计算机或企业计算机上，这样更私密。因此，当你向大型语言模型提问时，数据不会被发送到外部——它会保留在公司内部。你可以使用自己的专有数据进行微调，而不用担心敏感信息会泄露到公司之外。但现在，你无需担心这些问题——你可以将其保留在内部。有人认为深探代表了AI的商品化。你是否认同这种观点？还有一个有趣的视角。如果你用深探提问关于中国、中国政府或台湾的一些敏感话题，答案会经过大量审查，这是一个值得关注的问题点。问题是，这个模型究竟有多少内容被审查了？更糟糕的是，这个模型中有多少内容是被误导或错误信息所充斥，并且专门训练来向你提供错误信息？所有这些问题依然存在，显然是一个重大的担忧。同样，当你拥有开源版本时，你可以避免这个问题。实际上，有一个叫困惑的公司，它拥有一款AI搜索引擎，也在背后使用深探。他们报告说，他们的开源模型没有受到类似应用的审查限制，因此他们能够询问诸如天安门广场之类的问题，并直接从深探获得答案。据推测，审查和这些控制措施仅限于应用版本。尽管这是一个开源模型，但我们不清楚它训练所用的所有数据。我们可能有些猜测，但并不确定。我认为这涵盖了所有中国问题，即我们对很多方面都不了解。我们不确定他们只花了500万美元来训练这个模型。我们也不能确定他们只使用了声称的资源。我们也不清楚他们在模型中训练的数据是什么。鉴于此，人们对这个模型有很多不确定性，因此人们对于将其整合到自己的产品中感到紧张，这是可以理解的。

(以上内容均由Ai生成)