Snowflake 首席执行官 Sridhar Ramaswamy 关于数据和 AI 的访谈
快速阅读: 据《策略》称,Snowflake CEO斯里达尔·拉马斯瓦米分享了他在谷歌和Neeva的经验,以及接管Snowflake后的挑战与机遇。他认为,AI将使数据更灵活,扩展受益人群,同时强调简单、高效、可信的AI策略。Snowflake正通过集成化产品和服务拓展其优势,面对迁移和市场竞争的挑战,坚持紧密集成的数据平台战略。
**雪崩:斯里达尔·拉马斯瓦米的访谈**
早上好,本周的《Stratechery访谈》嘉宾是Snowflake首席执行官斯里达尔·拉马斯瓦米。拉马斯瓦米的职业生涯始于贝尔实验室,之后在谷歌工作了15年,负责构建谷歌的搜索广告产品。拉马斯瓦米随后创立了Neeva,这是一家基于订阅的搜索引擎,并于2023年被Snowflake收购;八个月后,拉马斯瓦米接替Snowflake董事长弗兰克·斯洛特曼成为首席执行官,其任务是将Snowflake重新聚焦于产品,特别是人工智能。在这次访谈中,我们将涵盖所有这些话题,包括拉马斯瓦米在谷歌的背景和经验,以及他对公司目前在搜索领域面临的挑战的看法。然后我们将深入探讨Snowflake及其意外升任首席执行官的过程,包括商业模式、上市策略和激励机制等内容。接下来的访谈内容将围绕人工智能和Snowflake在市场中的地位展开:在竞争对手如Databricks利用人工智能将非结构化数据转化为更具吸引力的产品之前,Snowflake能否超越其结构化数据仓库的根基?
**谷歌与Neeva**
斯里达尔·拉马斯瓦米,欢迎参加Stratechery访谈。
斯里达尔·拉马斯瓦米:嘿,本。很高兴聊天。能有机会正式与您交谈真是太好了。我们之前聊过,当时您还在Neeva,我确实想问问您关于那方面的事情,但我总是喜欢从受访者的背景开始这些访谈。您是在哪里长大的?又是如何开始接触技术的?
SR:我在南印度的一个叫泰米尔纳德邦的地方长大,后来在我十岁的时候搬到了班加罗尔。班加罗尔现在被称为Bengaluru,它和我成长的城市已经大不相同了。是的,很多事情变化很大。
SR:确实变化很大。我在马德拉斯理工学院获得了学士学位,现在称为钦奈,然后我在数据库领域获得了博士学位。在许多方面,马德拉斯理工学院影响了我对计算的理解。我有幸与一群非常出色的同事一起学习,教授们本可以在世界任何地方任教,但他们选择留在印度来教导像我们这样的学生。布朗大学也非常有助于培养我的批判性思维能力,更多地进行无结构的工作。正如您所知,获得博士学位就是关于寻找有趣的问题,这与上课完全不同。然后我在贝尔实验室工作了几年。我认为这三个因素——马德拉斯理工学院、布朗大学和贝尔实验室——是我早期在计算领域受到的最大影响,之后我搬到了西海岸。
在贝尔实验室您做了什么?
SR:我在数据库研究小组工作。我开玩笑说这是穆雷山发明晶体管的地方,我只是个普通的数据库研究人员。我告诉人们,我的成名之处在于我隔壁的一位科学家发明了量子计算的大部分理论方面,但那是一个令人惊叹的地方。在那里工作后,我来到了硅谷,于2003年初加入谷歌,进入了一个完全不同的计算世界,在这里你必须重新学习关于软件和计算的一切。
从数据库的角度来看,您在Snowflake的经历可以说是回到了原点。
SR:100%。但是谷歌,有很大的不同。
跟我说说谷歌,跟我说说您在那里的时间。正如我说过的,您在那里度过了公司一个非常有趣的时期,职业生涯非常辉煌。
SR:我于2003年加入谷歌,实际上我管理着一家拥有超过100名员工、年收入达1亿美元的小型初创公司的大型软件团队。但当我加入谷歌时,我决定回到个人贡献者的位置,因为我说这是一个正在重新思考、重新设计我们如何看待计算和分布式编程的公司,我想从头开始学习。我很幸运地偶然被分配到了搜索广告服务器团队。当时我们谁也没有想到,这个团队会成为人类历史上最好的业务之一,如果不是最好的业务的话。
那么,有没有什么与传统数据库相关的东西呢?毕竟,最终可以说一切都可以看作是数据库,但在谷歌的规模下,它几乎是完全不同的另一件事。
SR:嗯,是的,也不是。早期谷歌的计算方法很大程度上是由这样一个事实驱动的:早期谷歌主要处理只读问题。例如,网络搜索主要是只读的。有一些关于你的偏好之类的小缓存,但大部分都是只读的,因此分发信息、分担负载的方法与你通常认为的数据库规模有很大的不同。当然,我们在谷歌的广告团队使用了MySQL数据库,而且我还兼职做过一段时间的那些数据库系统管理员。
这份工作听起来压力很大。
SR:但学习计算是非常棒的经历。我们还构建了一些有史以来最令人惊叹的数据处理系统,例如在行星尺度上进行的日志连接。来自世界各地看到广告的每个用户都会产生日志,你需要将这些日志与点击事件关联起来,而我是应该按时完成这项工作的。
我本来要问这个问题。您提到搜索主要是只读的,但广告方面存在写入问题。
SR:是的,也不完全是。统计处理是延迟处理,不是实时进行的。绝对地,广告商更新确实进入了MySQL数据库,但这只是整体广告数据的一小部分,比如日志、日志处理、大规模聚合处理等。早期地球上最大的逻辑回归系统之一叫做“智能傻瓜”。有很多分布式系统编程,当然还有非常高的规模服务系统,所以你真正学会了分布式计算是什么。
那时我也重新发现了自己对领导工作的热爱,谷歌允许你以任何方式领导。我长时间担任非常亲力亲为的技术领导者。我喜欢管理团队、帮助他们交付优秀产品的混合工作,同时也非常注重技术细节,亲力亲为。这有助于在一个技术要求极高的产品上工作。随着时间推移,我逐渐负责更多的搜索广告团队,然后是更多的广告团队,我为此工作了五六年,涉及广告和商业。这包括一些有趣的事情,比如推出Google Pay,这是一个独立的故事,但也涵盖了您在其他地方提到的谷歌商业的各种旅程。那是一个令人着迷的地方,这是我生命和职业生涯中15个精彩且极其充实的年份。
那么,您决定离开,不仅仅是离开,而是决定,“我要建立一个没有广告的产品”,指的是Neeva,一个基于订阅的搜索引擎。我们可以稍后再谈Neeva,但您的动机是什么?是因为,“我已经做这个很久了,我真的想做一些不同的事情,谷歌也变了”,还是有其他原因?
SR:都不是。我已经做了15年多的广告,我觉得“做一种产品太久了”。显然,为YouTube服务广告与做搜索广告有很大的不同,有不同的问题、不同的广告商和不同的目标。但有一部分的我希望有一个重置按钮,我想重新开始,我也知道在可以创办公司之前我只有有限的时间。即使那时候我也不年轻,所以我只是决定重置并重新开始。
我实际上是在离开谷歌后不久加入了风险投资公司Greylock,而Neeva的初创公司稍晚才成立。正如我所说,就职于谷歌是一次难得的机会,但我也有一部分想法认为我不希望这段经历成为我职业生涯的主要部分,因此Neeva对我来说是一个重新开始的机会,有时候你必须踏上新的旅程,它们会带你去到有趣的地方,而我现在就在这样的地方。
你对谷歌现在的看法如何?我认为已经过去足够多的时间了,你可以给出一些评论。搜索功能还好吗?没有人应该对此感到担忧吧?还是说他们行动太慢了?你的观点是什么?
SR:看吧,这就是硅谷,只有保持警觉的人才能生存下来。这一点在过去五年、十年甚至更久之前也同样适用。这是一个技术变革极为迅速的时代,我们可以详细讨论不同公司是如何应对这一变化的。我个人觉得,当公司发展顺利时,会有整合的阶段,在这个阶段里,你想要在所做的事情上变得更加高效。有时你需要进行根本性的改变,因为外部环境正在发生根本性的变化。说实话,越来越多的问题表明,像ChatGPT这样的产品使用网络搜索能提供比谷歌搜索更好的体验。当然,我也经常在Safari浏览器中使用谷歌搜索,但它已经成为我的默认搜索引擎,不过我也安装了ChatGPT的应用程序,并为此付费。我认为现在对于许多常见的搜索需求来说,一种更具对话性的体验是一种更好的体验。另一方面,对于那些需要通过复杂空间查找的情况,你并不希望有对话式的体验,比如试图在一个对话式环境中确定具体要买哪双鞋,这无疑是非常烦人的。但另一方面,我认为你已经开始有了能够执行更为复杂的流程的自主系统,这些系统的功能远超从前的搜索引擎所能提供的。所以我要说的是,谷歌的搜索功能正受到来自两面夹击的压力:一方面是简单问题的答案需求,另一方面是需要应用完全不同技术来解决的复杂问题。这是一个非常有趣的视角。就像是两面夹击的局面,一边是最简单的,另一边是最复杂的。
是的,这是一种很好的方式来理解它。
SR:而且它们都有非常不同的解决方案。老实说,在我看来,这也是数据和雪花公司(Snowflake)的故事所在。是的,我们是从一个极端开始的,但我认为我们正在走向的是产品和服务之间的界限越来越模糊。我认为这是一个快速变化的世界,是的,人们总是担心搜索功能的变化速度不够快。我是谷歌从桌面公司转型为移动公司的关键人物之一。我们曾经有一个术语叫做RPM(每千次展示收入),基本上是指移动RPM与桌面RPM的比例。我们一开始的时候这个比例是8%或10%,然后花了令人恐惧的五年时间努力让这个比例接近100%。努力缩小这个差距,是的。
正如我说的,那确实是非常可怕的。我认为这是其中一个时刻,可能需要三到五年的时间才能展开,但很难想象五年后我们如何获取信息或产品的方式会和三年前一样。
大部分这次采访都会围绕着Snowflake展开,但在进入主题之前,我想先问一下关于Neeva的事情。我认为高层次的宣传语是,“无广告的搜索引擎,仅订阅制”。这是否是一个足够好的总结?你在那尝试了什么,又学到了什么?
Neeva的基本理念是,广告支持的搜索模式已经达到了其在提供效用方面的极限,我们需要重新开始。在2019年,我能做的最好的描述就是,“无广告的私人搜索引擎”。你觉得你们是不是在正确的时间做了错误的事情?
我们绝对是在大约两到三年前就开始解决正确的问题了。等到我们在2023年初推出第一个真正的基于网络索引和检索增强生成(RAG)的搜索引擎时,我们已经存在了大约四年。我的团队感到疲惫不堪,我们决定将我们的知识应用到一个新的领域,在那里我们可以获得更多的杠杆作用,而不是继续下去。你知道创业公司就是这样,你必须在正确的时间处于正确的地点。
是的。
我认为这个想法本身没有问题,但它需要一两个当时不存在的关键技术。新的产品范式,也就是聊天界面。上周我刚和Sam Altman聊过,他非常反对广告,他想尝试用订阅制来实现所有目标,这与Neeva的做法一致,只是他们是从聊天界面开始的,这可能是一个更好的起点。
没错,还有7亿用户,这也很有帮助。
我本来也想问这个问题。在Neeva工作期间,你对谷歌是更加欣赏还是更加厌恶?这两种情绪都可能出现。
谷歌是一家很棒的公司,我以前就这么说过。谷歌早期的用户业务不仅依靠出色的产品,还依赖于与AOL和雅虎等公司达成的精明商业协议。我对谷歌所做的一切充满敬意。这种做法延续到了与苹果和安卓以及类似的合作中。
100%同意,苹果协议、火狐协议,我认为微软沉睡时的许多PC制造商协议也是一样。是的。
所有这些共同成就了谷歌今日的成功。但商业模式也有保质期,有时很难用一种可能不会盈利的模式去颠覆自己,尤其是在你靠这种模式赚取2000亿美元的时候。这在逻辑上行不通,而这就是我们现在所处的情况。
**接管Snowflake**
Snowflake在2023年5月收购了Neeva,就在你终于找到了AI RAG搜索的想法之后,八个月后你就成为了CEO,这一直都是计划吗?
这并不是计划。Snowflake收购Neeva是因为我们在搜索和早期AI方面的专业知识。我们曾经微调过听起来像是笑话的七九亿参数模型,以便进行非常好的摘要处理,从而能够写出我们习以为常的引用式答案。我们必须在预算有限的情况下完成这一切,因为我们正在处理网页规模的流量,当然也有六到八百亿页的网页索引。这就是Snowflake认为有吸引力的专业知识。我们都非常清楚,Snowflake和Neeva都不会继续消费者搜索引擎。事实上,我们甚至在收购完成之前就已经关闭了它,并开始在Snowflake内部打造一款优秀的搜索产品。现在它被称为Cortex Search,并且在Snowflake内开创了基于RAG的搜索,同时也致力于结构化数据的技术。
我和当时的首席执行官Frank Slootman最初的协议是,我会在Snowflake待六个月,专注于AI,帮助制定Snowflake的AI路线图,然后决定我想做什么。到了年底,我开始有一些谈话。“Frank,我想接替你的职位,这是我想要做的事情。”
(笑着)坦白说,事情并没有发展到那个地步。到了十月,我还在思考该怎么做,这时我们开始讨论是否有不同的未来可能性。显然,这些事情很复杂,过渡也很困难,但几个月后的二月份一切终于尘埃落定。
好吧,当Frank Slootman退休时,股价一夜之间下跌了20%。至今仍未恢复到原来的水平。你当时知道你要面对的是什么吗?直接参与财报电话会,人们都很紧张。
是的,即使回顾过去,我认为也非常重要的是要认识到去年我们指导全年增长率为22%,而市场共识预期是30%。
我认为把存储视为收入来源是个错误。我认为我们应该一直以成本价提供存储,并鼓励用户尽量将更多数据存入Snowflake。
但除此之外,我认为开放格式标准将会长期存在。这是因为那些前沿客户,也就是这些企业,他们并不想再次经历更多的迁移过程,他们希望自己的数据能以可以直接进行计算的格式存在。顺便说一下,这也给软件即服务(SaaS)公司带来了巨大压力,要求他们向客户提供数据副本。这些人都有充分理由表示:“至少我希望获得一份我的数据副本”,而Snowflake也接受了这一点。
在过去一年里,我和团队实施了两项重大产品变革。首先是我们全面拥抱开放格式。当然,换个角度来看,我们过去通过存储获得的收入现在无法获取,因为这些数据现在存储在云存储的开放格式中。但从另一个角度看,大多数大型企业的云中数据量通常是其在Snowflake内数据量的数百倍,有时甚至达到上千倍。突然间,我们的强大计算引擎能够用于数据工程,也可以用于数据采集。
但除此之外,我认为开放格式标准将会长期存在。这是因为那些前沿客户,也就是这些企业,他们并不想再次经历更多的迁移过程,他们希望自己的数据能以可以直接进行计算的格式存在。顺便说一下,这也给软件即服务(SaaS)公司带来了巨大压力,要求他们向客户提供数据副本。这些人都有充分理由表示:“至少我希望获得一份我的数据副本”,而Snowflake也接受了这一点。
因此,这一变化显著提升了我们为客户创造的价值,这也是我们已经采纳的变化。Iceberg是最受欢迎的格式之一,但我们正在超越Iceberg的局限。我们发布了名为Apache Polaris的新工具,它是一种开放的数据目录格式,因为我们希望帮助人们更方便地发现数据集。当然,接下来的部分涉及AI,我们稍后会讨论。
令我印象深刻的是,你提到Snowflake的网络效应,我的看法是,当公司过多地整合多个功能点时,它们往往容易陷入困境。所以当时的想法是,“我们将向您提供存储和计算服务”,太好了,有了两笔收入来源。但正如你所说,这实际上限制了平台的吸引力。锁定是一种委婉说法,指的就是平台对用户的吸引力,也就是这个数据共享功能。这就像是非此即彼的关系。如果你想构建一个网络,那么围绕它的其他部分都应免费提供。
我完全同意这一点。我认为Snowflake的核心价值在于它是一个卓越的大规模数据计算平台。我们成功地将机器学习和人工智能元素融入其中,因此它成为了一站式解决方案,可以满足人们想要在其上运行的各种不同类型的计算需求。我们拥有的客户网络以及他们如何相互合作,这就是Snowflake持久的价值所在。是的,我们最初是一家专有格式的公司,但这需要一些时间才能显现出来,但我认为开放数据领域也有巨大的机会。当然,计算远不止于运行SQL查询。它涉及多个方面,比如“你提供的治理支持是什么?你提供的出色协作设施是什么?”我们为重要客户提供灾难恢复服务。有些客户根据监管要求,需要在一个云服务商处运行主数据库,并在另一云服务商处运行备份,顺便说一下,这个备份的成本仅为原始成本的10%到15%,而所有这些都集成在一个易于使用且紧凑的单一产品中。所以Snowflake不仅仅是一个用来运行SQL查询的地方。这意味着我们必须持续竞争并不断提升自身能力,欢迎进入竞争的世界。
令我印象深刻的是,你提到Snowflake的网络效应,我的看法是,当公司过多地整合多个功能点时,它们往往容易陷入困境。所以当时的想法是,“我们将向您提供存储和计算服务”,太好了,有了两笔收入来源。但正如你所说,这实际上限制了平台的吸引力。锁定是一种委婉说法,指的就是平台对用户的吸引力,也就是这个数据共享功能。这就像是非此即彼的关系。如果你想构建一个网络,那么围绕它的其他部分都应免费提供。
**商业模式及市场推广**
正如我们所讨论的,它结合了存储使用量和计算使用量。当时将两者分开并采取不同处理方式意义重大。回想起来,你觉得非常幸运的是,当时的使用量模式是一种全新事物,你们不是按座位收费的吗?Snowflake有可能变成按座位收费吗?还是说现在对此已习以为常?
这些问题没有简单的答案,有些改变很难实现。消费模式绝对是在双方之间实现价值创造的对齐。换句话说,只有当我们的客户实际使用他们从我们这里购买的计算资源时,我们才会确认收入,因此我们类似超大规模提供商,现在有一套非常精细的市场推广方式:“我们如何与客户合作?我们如何构建所谓的用例,为其创造价值,并在此过程中以增值方式增加消费?”我认为这是一种高度对齐的模式。
有时我会遇到一些客户说,“我非常喜欢Snowflake,我用它优化了关键的定价策略,定价算法每年耗资一百万美元,而我每年节省了三亿美元。”你会想,哎呀,那时你或许希望采用基于价值的定价方式,但我觉得核心模式非常稳固。
不过,你是否觉得在激励机制上存在任何紧张关系?比如有传闻称未优化的运行会导致Snowflake账单激增,所以显然你想帮助客户规避这种情况,你不想引发负面舆论。另一方面,这对公司利润有益。你如何平衡这些激励机制?
我和客户以及销售团队对此非常明确。我告诉他们,任何低效计算都是一个隐患,因为他们最终会察觉并对此极为不满。你能否将这种机制纳入团队的激励体系?比如“如果因客户的账单激增而失去客户,我们将扣回部分佣金”或者其他措施。除了拍桌子和大声斥责员工之外,你如何处理这个问题?
我们有一套完整的流程,用于构建用例、投入生产以及客户应关注的指标类型。我们协助客户制定治理方案,例如“如何启动新项目?”你需要一个简化的流程。它可以像谷歌表单一样简单,通过此表单,想要试验的人可以在Snowflake上花费100美元或1000美元。你可以用它完成很多事情,但如果他们想运行真实的生产用例,可能花费,我不知道,十万到二十万美元,他们确实需要规划项目规模并获得财务人员批准才能这样做,我们的众多优质客户都会这么做。我们将这一流程作为解决方案工程师与客户共同实施的一部分,并将其整合进Snowflake的核心平台,因此类似你提到的情况不会发生。
顺着这个思路,从你的角度看,这对你而言是否是个挑战?所以这是一个更具个人色彩的问题,学习如何领导一家以销售为导向的企业?这与谷歌的工作方式大不相同。谷歌,特别是广告部分,市场的最大部分是自助服务,显然你有团队并且设有销售部门,但与企业运作方式大不相同。
我认为我们并未充分认可谷歌商业团队。他们培养出了地球上一些最杰出的商业领袖,他们后来取得了许多令人瞩目的成就,比如我的朋友[Nikesh Arora,帕洛阿尔托网络董事长兼首席执行官]。甚至[Philipp Schindler,谷歌首席商务官],他长期在那里主管业务。这是一支优秀的团队,而且我还必须指出,他们在内部销售组织的激励机制等方面开创了许多技术。谷歌具备多种销售方式。绝对的自助服务是重点,尽管不到50%,但仍然是一个庞大数字的一半。我们还设有电话销售团队,他们会致电客户或通过电子邮件向他们推介潜在的新活动、新流量、新转化机会等。还有一些负责季度规划的命名账户销售团队,关于如何扩大业务、他们的目标是什么。所以谷歌无所不包,并且做得相当出色。
你是否认为这些经验可以迁移?还是你仍有需要学习之处?
每家公司都有其独特之处。过去一年里,我学到了一些关于企业销售运营的知识。事实上,Snowflake有些与众不同,因为它既是交易驱动型团队,我们的客户签订合同是因为他们承诺的支出,他们会获得更优惠的基础计算价格。但也有涉及利用用例推动消费并创造价值的艺术。因此Snowflake始终处于消费与交易的平衡状态。所以这里有一些新方法,也有一些需要学习的新东西。我在优化谷歌搜索时学到的许多技术,以及与销售团队合作的方法,我都应用于此。我是布尔度量这类效率衡量方法的忠实拥护者,与其衡量平均值,如果你想了解一个300人的团队中有多少比例的人超过了你设定的基准线,那么这些技术是可以转移的。但这也是生活的乐趣所在。
**Snowflake与人工智能**
好吧,你说过这是因为学习写在简历上的缘故。Snowflake的AI优势显而易见,你拥有理想情况下所有的数据,或者至少是一些对企业至关重要的数据。但有一件事引起了我的兴趣,只是想到Snowflake,我说的是Snowflake是一件大事,它在AI兴起之前就发展壮大了,在诸多方面因其易用性而闻名,它是一个直接的数据操作与分析平台。因此相比而言,它不像“哦,你有一堆随机的数据一直闲置着,现在你可以从中获取实用价值”,而是“你有许多我们与你共同整理的数据”,因此AI几乎需要达到更高的门槛。这公平吗?
这是一种看待方式,但请记住,Snowflake的数据通常是由一组人和工具来消费的,通常是通过BI工具或笔记本电脑等形式。
在我看来,AI 对一家像 Snowflake 这样的公司带来了两大重要变化。一是它让数据变得更加灵活,这意味着你更易于分析 PDF 文档并从中提取结构化数据,这得益于诸如多模态模型等技术。信息比以往更加灵活,因此,当我们引入 AI 层时,我们的一部分工作就是让人们只需编写 SQL 查询即可轻松访问模型。所以,原本在 Snowflake 上分析数据的分析师基本上变成了具备 AI 能力的分析师。他们以同样的方式工作,只是获得了更多的数据。
他们获得了更多的数据。但另一方面,我们看到了一个巨大的机会,那就是那些通常介于 Snowflake 和最终业务用户之间的 BI 工具。我认为,借助 AI,消费体验可以大不相同,你无需通过特定的 BI 工具。例如,我的观点是,最终 BI 工具是一种试图以二维结构表示复杂多维世界的工具,如果你设想一个有 10 或 12 个维度的数据集,相信我,没有任何简单的仪表板能代表它。但现在你可以创建一种方法,让人们轻松查询该数据集,如果需要的话,获取他们所需的聚合数据,或者进行后续分析。所以我认为这极大地扩展了可以从 Snowflake 数据中获益的人群范围,但有一个重要的前提条件,并且这也在我的 Neeva 经历中得以延续。当我们与 Neeva 使用 AI 时,我们强调我们需要引用答案,我们不希望搜索像我们看到 ChatGPT 那样产生幻觉。我们基本上采用了类似的技术,我们说 Cortex 搜索将让人们更轻松地向非结构化数据提问并提供引用。同样地,我们开发了一种能够编写 SQL 查询、提取结构化数据的产品,但我们加入了反馈回路,以便人们能够可靠地获取答案。实际上,我们在 Snowflake 上的 AI 方针是‘简单、高效、可信’。对我来说,这是真正需要的,它将使 AI 对现有结构化和非结构化数据真正有用,这也是我们迄今为止所采用的视角。
这一优势在于它建立在已有优势之上。换句话说,如果你拥有能够获取结构化或非结构化信息的强大稳定的操作员,那么你现在可以构建平台,将它们组合成各种事物。你可以称之为自主工作流,但我们始终在 Snowflake 上谨慎地采取量化的 AI 方法,并利用我们的优势,而不是盲目尝试转型为基础模型公司或廉价推理即服务公司。我们一直致力于帮助人们利用其数据,而 AI 是实现这一目标的加速器。
我们行业是否需要一些更优的指标?如果你观察许多模型的测量指标,你之前的雇主刚刚发布了 Gemini 2.5,它在各项指标上表现优异,且所有指标均为增量指标,它们的得分高于先前的成绩。但我们是否需要一个负面评价指标,其中 100% 是一个人进入并执行 SQL 查询,且你知道数据正确无误,AI 可以衡量它相对于人类的表现是 89 分还是 91 分,这种指标在哪里?
我认为这正是我们所需要的。我们已发布了 Cortex Analyst 的相关指标,这是我们用于非结构化数据的产品。事实上,在我参与 Cortex Analyst 设计的过程中,我告诉团队我们需要考虑精确度与召回率之间的平衡。正如你所知,搜索引擎以这种方式运行,假装具有无限的召回能力,无论你问什么问题,谷歌都会说,‘是的,我有答案’,但它永远不会告诉你答案的质量如何,也不告诉你是否应该相信它。这就是蓝色链接的魅力所在,最终需要人类做出最后的决定,判断答案是什么。
你是人类,由你来决定。
尽管我发现如今谷歌在某些情况下会告诉你某些查询结果不够理想,这在过去几年里有所改变,但我认为这是一种积极的变化。但早期的 ChatGPT 模型肯定会对任何你提出的问题作出回应,即使它们没有任何信息或信心。因此,我们非常重视构建,我们称之为 Cortex Analyst 的‘验证查询库’,包含正样本和负样本,这样你可以根据分析师验证过的正样本进行模式匹配,同时也可以针对我们不应回答的一组问题进行匹配。因为一般来说,如果你在一个人面前放置一个聊天机器人,他们首先会问的问题之一是‘我 15 年后的收入会是多少?’ 这是任何模型都不应回答的问题。所以我认为拥有这样的指标并明确何时能够带来价值非常重要,这是任何 AI 驱动产品的关键方面之一,而这一点往往未受到足够重视。
你认为哪个更有价值?也许我在引导你,但拥有一个 GPT-3 级别的模型,可靠性达 99%,还是一个 GPT-4.5 级别的模型,可靠性达 95%?
我的回答一如既往。当人们就速度或质量的选择征求我的意见时,我的回答是,‘是’。(笑)
好吧,你必须选一个。
模型和产品
我的意思是你们并非在构建或发布大规模的基础模型,实际上,你一年前在一些公开评论中也曾表达过担忧,‘如果制作一个模型需要数十亿美元,并且我们只能减少到少数几个模型提供商,那就不妙了’。今年对你来说是不是一个非常令人振奋的年份,因为这些开源模型如此强大且不断涌现,这些模型对未来业务是否至关重要?
我们与多家开源模型提供商合作。我们与 Meta 和 Llama 团队保持着良好的合作关系。我认为模型领域取得的进步相当显著,这也基本避免了模型形成寡头垄断。我认为世界若仅有少数几个大型模型提供商或三家公司占据主导地位并不理想。我认为去年在这方面的情况相当不错。
那么你如何看待这种利用的发生呢?你认为客户长期是否会频繁更换这些模型?你是否需要针对每位客户进行密集的后训练?你有一位竞争对手拥有自己的模型,他们承诺为客户定制模型,或者只是围绕 RAG 的高级版本加上验证系统?我是指你如何在长期内利用自身优势并保持竞争力?
我认为 AI 是我们作为数据公司自然的补充,这就是为什么我们要构建与我们业务互补的产品。例如,对于非结构化数据的搜索产品,以及拥抱开放格式等。我们在连接器方面投入了很多资源,这样更多的数据可以从更多应用中被导入到云存储或 Snowflake 中,从而便于查询。同样地,当涉及到结构化数据时,我们希望让人们通过自然语言提问来轻松获取结构化数据,同时也能够在数据之上创建如仪表盘之类的事物。
我们正在探索如何将这些不同的数据元素和自主操作符组合起来构建更复杂的工作流,这也是我之前提到的关于产品如何融入公司的一个观点。正如你所知,有一个庞大的系统集成商生态系统,他们会采用产品并处理每个公司中的细节和复杂性,从而创造真正的实用价值。我预见一个世界,在这个世界里,越来越多的实际用例可以直接在平台上解决,这是我们希望 Snowflake 推动的方向,即基于数据驱动的工作流。我认为由于 AI 和自主能力,我们正在重新定义产品与服务之间的界限。
我认为 AI 是我们作为数据公司自然的补充,这就是为什么我们要构建与我们业务互补的产品。例如,对于非结构化数据的搜索产品,以及拥抱开放格式等。我们在连接器方面投入了很多资源,这样更多的数据可以从更多应用中被导入到云存储或 Snowflake 中,从而便于查询。同样地,当涉及到结构化数据时,我们希望让人们通过自然语言提问来轻松获取结构化数据,同时也能够在数据之上创建如仪表盘之类的事物。
至于你的问题,关于我会选择哪个模型,我试图避免非此即彼的情况,特别是在你需要精确的定量答案时,你想要一个经过最大精度调优的系统。另一方面,如果你处理的是一个没有固定答案的分析任务,你则需要一个更强大的思维模型,它可能会犯更多错误,但也会提出更好的计划。这关乎于基础部分是否可靠。
在我看来,Snowflake正建立在数据平台和Snowflake的数据资产之上,并利用这些来更快地为客户提供价值。
你在某种程度上触及了我认为是Snowflake思考中的一个重要方面之一。Frank Slootman是一位传奇人物,接替他并不容易。他有一些原则,其中之一就是“缩小范围”,这是他以之闻名的。然而,我想到了一件事,如果Snowflake的整体主张是我们让您的数据更易访问和使用,您就可以从中获得更多价值。这其中包含用户体验的因素,而提供更好用户体验的一种方式是更加集成化,提供更多产品。有时,如果您在使用Snowflake时遇到限制,“抱歉,您需要去找其他人来满足这个产品需求”,然后就会有人问:“我喜欢Snowflake,难道你不能为我做这件事吗?”你指的是在这方面,产品应该能够做更多的事情,而不是去外部寻找解决方案。你是否觉得Snowflake需要稍微扩大一下它的关注范围?它需要更广泛,并且需要——您不需要像以前那样频繁地遇到这些限制。
当然,更广泛的基础。Snowflake曾专注于所谓的“黄金分析层”,即已经清理和处理过的数据,可用于运行分析和机器学习。我认为我们通过拥抱开放格式、拥抱连接器,已经具备了处理更大数量级数据的能力。我们使底层变得更加强大,这再次发挥了我们的核心优势。但这是否足够呢?我的意思是,你有其他公司从一开始就涉足——你有仓库与湖屋之争,以及各种各样的竞争对手从不同角度切入市场。所以你有一个竞争对手,它一开始非常广泛,这对AI来说很好因为它能很好地处理非结构化数据,而Snowflake则更为狭窄但更易于使用。你觉得在这种情况下,你的优势在于变得更为广泛,还是你正在陌生的领域竞争,必须将数据从Snowflake中提取出来才能使其更具可访问性,而这正是你一直在努力解决的问题?
这不是非黑即白的选择。首先,重要的是要认识到我们正处于从传统系统向云计算过渡的时代变革之中。所以你的竞争对手实际上是那些仍然留在本地数据中心中的数据。有大量的这种情况,这是一个快速扩展的业务,因此还有很大的空间。例如在迁移方面,你会惊讶于一些迁移过程有多困难、耗时多久。我们非常兴奋的部分是如何应用类似的技术,本质上是利用AI辅助的人类循环来加快如迁移这样的进程。
不过回到你的主要观点。我认为AI的世界、信息交互消费的世界确实为那些不与Tableau等公司竞争的产品创造了有趣的新机会,因为这是一个全新的类别。回到你在其他播客中提到的创新点,我认为AI驱动的消费将会非常广泛且最初相对浅显。它永远无法达到某人花费六个月时间创建的仪表板那样的复杂程度。另一方面,许多更多的用户可以比等待分析师更快地获取数据。随着时间推移,我们绝对会拥有对话式仪表盘小部件,您可以轻松操作透视表,而无需真正了解编程,只需说“嘿,把这个属性作为X轴”,或者“计算这样的度量值”,这样您就可以更辅助地创建这类东西。我认为这就是Snowflake正在创造的机会。同样,这与我们作为数据平台的优势高度一致,我们并不是试图彻底改变自己成为另一家新公司。
**企业栈**
你多次提到了产品和服务的结合,有趣的是你提到了系统迁移。在某些方面,我们是不是回到了过去?实际上需要发生的事情是人们会经历一段蜜月期,认为“是的,只要给它套个AI模型就行了”,但实际上必要的步骤是6个月、12个月甚至18个月的迁移,重新塑造数据,然后AI才会变得有用。这实际上是下游的大量前期工作,而每个人都以为这些工作已经完成了。但现在又回到了70年代,回到了80年代。没有企业人士会告诉你他们已经完成了从本地系统到企业的迁移。我可以挑战你,你可以去任何一家大型银行,他们会告诉你还有很多工作要做。今天的不同之处在于,我认为我们有可能大幅缩短这类迁移的时间。我们正在进行一项针对一家非常大的银行的迁移,这是一个为期18个月的迁移。这是他们拥有的最重要的数据集,他们对此感到恐惧,我们也一样,担心在迁移过程中出现任何错误。然而,是不是存在一种情况,如果我们最终进入一个迁移需要很长时间的世界,并且这是“我们刚刚意识到数据需要被很好地结构化”的结果,而这正是过程的重要组成部分。这不是对Snowflake有利的世界吗?因为你已经在更结构化的数据一侧。
没错。所以迁移是关键。迁移绝对是关键。更快的迁移是关键。我甚至遇到过有人告诉我:“我会让你开始处理我们遗留数据库的一个实例,尽快做好,然后你可以得到50个这样的实例。”有时这可能需要三个月,听起来不长,但50乘以三个月是一段很长的时间。
那么,未来是否需要一个更大的服务组织?我认为这不是人员的问题,而是技术的问题。我从根本上相信人机协作的AI循环,其中AI可以解决一些容易解决的问题,而困难的问题可以通过更辅助的方式解决。我认为这可以在这些棘手的领域推动大量进展,这些领域确实有很多边缘案例。
长远来看,你如何看待这一切的发展?显然你会对Snowflake持乐观态度,但你如何克服这一挑战?到目前为止,你的卖点一直是简单易用且高度可预测,并以此作为相对于无序但实用优势的竞争优势。但实际上这是一项优势,就像过去人们对Netflix不那么看好时常说的那样:“Netflix能在HBO成为Netflix之前先成为HBO吗?”两者在某些方面都被证明是失准的,但这里有一个问题:Snowflake能否在无序且广泛解决方案变得更精确、更有用且更可预测之前,就变得无序且广泛?
我们是这一领域的积极参与者,我们有机会书写历史,而不仅仅是被动接受它。我认为使Snowflake出色的特点——简单易用且高度集成的产品——不是事后能随便附加的东西。我非常喜欢我们合作的大型云服务提供商,但我告诉人们,它们实际上是在竞争,就像300位总经理都在争取各自产品线的成功。没有人真正考虑过“创建一个紧密集成的数据平台需要什么”,这是我们从一开始就专注的目标,也是我们认为能够胜出的地方。当然,大型云服务提供商在许多计算领域会非常出色,但类似于世界上只有两三个伟大的模型制造商一样,即使大型云服务提供商有更多的资金,我认为创建一个紧密集成的数据平台是非常困难的。而且我有偏见,但如果让我下注,我会选择Snowflake通过紧密的产品在非结构化数据上做得更好,而不是一个基于非结构化数据构建的庞大产品变得异常优秀、紧密且易用。
所以如果你有大型云服务提供商,它们在基础设施方面更擅长,它们在这方面有优势,它们会停留在那里。向上进入平台层实际上更难,而你处于平台层——这就剩下SaaS层。正如你之前提到的,人们希望将他们的数据从SaaS应用中提取出来。同时,如果你是一个SaaS应用,对于失去对自己数据的控制权,这同样令人害怕。你是否看到SaaS公司面临的市场压力会带来这种情况:他们会与Snowflake建立集成,更轻松地将数据导入?或者你必须更加积极地施加这种市场压力,并通过自己的应用程序和垂直方法来说服用户,“看,切换过来吧,因为他们会很慢,他们囤积数据。如果你想整合数据,我们有更好的解决方案,因为它与其他一切相关联。”
首先,我们相信合作伙伴关系。我们与许多SaaS提供商合作,通常与他们有双向数据集成,我们的客户可以从SaaS平台将数据导入Snowflake,但如果他们想将数据集放入那个SaaS平台以进行分析目的,我们绝对支持。实际上,当我谈到SaaS玩家时,无论是ServiceNow、Salesforce还是SAP,行动已经转向了“这些产品的智能工作流意味着什么?”——这就是为什么他们都强调这一点的原因,因为我认为智能AI、智能工作流为那些在这些平台上工作的人员提供了另一种选择。这也是为什么他们更倾向于这些解决方案的原因。我们积极与他们合作,这是一个庞大的市场。我们有一些客户将数据从Snowflake移动到这些平台,我们还有许多其他客户从这些平台将数据带到Snowflake进行集中分析和后续操作。
但还有另一层互动正在进行。如你所知,智能AI的世界非常混乱,很难找到关于代理或代理组件的确切定义,但人们正在努力使这些事物互操作,所以我确实认为我们正在走向这样一个世界:例如,一家公司开发了一个代理,使得查询或处理某个数据集
(以上内容均由Ai生成)