BigQuery 比 Snowflake 和 Databricks 大 5 倍:Google 正在采取哪些措施来使其变得更好
快速阅读: 据《VentureBeat 公司》最新报道,谷歌在Google Cloud Next大会上发布229项新功能,重点改进BigQuery数据仓库服务,推出统一治理功能帮助企业更好地管理和信任数据资产。这项功能通过嵌入式治理和AI模型支持,解决了企业数据管理中的碎片化和质量问题,获得了多家企业的积极反馈。
订阅我们的每日和每周简报,获取行业领先的AI报道的最新资讯和独家内容。
谷歌云在上周的Google Cloud Next大会上宣布了许多新功能,至少发布了229项新功能。
在这众多新闻中,包括新的AI芯片、自主式AI功能以及数据库更新,谷歌云也在其BigQuery数据仓库服务上做出了重大改进。其中一项新功能是BigQuery统一治理,它帮助企业发现、理解和信任其数据资产。治理工具通过确保数据质量、可访问性和可信性来克服AI应用的主要障碍。
对于谷歌而言,在企业数据领域与竞争对手竞争,压力巨大。
自2011年上市以来,BigQuery近年来在能力和用户群方面都取得了显著增长。显然,BigQuery也是谷歌云的一项重要业务。在Google Cloud Next期间,这是我们首次被允许公布客户数据。根据谷歌的说法,BigQuery的客户数是Snowflake和Databricks两家公司客户总数的五倍。
“这是我们首次被允许公布客户数据,这让我感到十分开心,”谷歌云数据分析主管亚斯米恩·艾哈迈德告诉VentureBeat。“Databricks和Snowflake是市场上仅有的其他两种企业数据仓库平台。我们的客户数量是它们中的任何一个的五倍。”
谷歌如何改进BigQuery以促进企业采用
尽管谷歌现在声称拥有比其竞争对手更广泛的用户群,但它并未放松步伐。在最近几个月,尤其是在Google Cloud Next期间,超大规模提供商宣布了多项新功能以推动企业采用。
企业AI面临的一大挑战是获取符合业务服务水平协议(SLA)的正确数据。根据谷歌引用的Gartner研究,那些未通过AI就绪的数据实践启用和支撑其AI用例的组织将看到超过60%的AI项目无法实现业务SLA并被放弃。
这一挑战源于困扰企业数据管理的三个持续存在的问题:
– 碎片化的数据孤岛
– 快速变化的需求
– 团队之间缺乏关于数据的共同语言的不一致的组织数据文化
谷歌的BigQuery统一治理解决方案通过直接在BigQuery平台内嵌入治理功能,而非要求单独的工具或流程,代表了传统方法的重大转变。
BigQuery统一治理:技术深度解析
谷歌公告的核心是BigQuery统一治理,由新的BigQuery通用目录提供支持。与只包含基本表和列信息的传统目录不同,通用目录集成了三种不同的元数据:
– **物理/技术元数据**:模式定义、数据类型和分析统计。
– **业务元数据**:业务词汇表术语、描述和语义上下文。
– **运行时元数据**:查询模式、使用统计信息和技术格式特定信息,如Apache Iceberg。
这种统一的方法使BigQuery能够在整个企业范围内维护对数据资产的全面理解。该系统特别强大的原因在于谷歌如何通过他们所谓的知识引擎将Gemini,其先进的AI模型,直接集成到治理层中。
知识引擎通过发现数据集之间的关系、丰富元数据的业务背景并自动监控数据质量,主动增强治理。
主要功能包括自然语言理解的语义搜索、自动元数据生成、AI驱动的关系发现、用于打包相关资产的数据产品、业务词汇表、结构化和非结构化数据的自动目录以及自动异常检测。
别再关注基准测试,企业AI是一个更大的问题
谷歌的战略超越了AI模型竞争。
“我认为行业内有太多人只是专注于登上那个个人排行榜的顶端,而实际上谷歌正在全面思考这个问题,”艾哈迈德说。
这种全面的方法解决了整个企业数据生命周期的问题,回答了关键问题,例如:你如何交付信任?你如何交付规模?你如何交付治理和安全性?
通过在每个层次上进行创新并将这些创新整合起来,谷歌打造了一个实时数据激活飞轮,在数据被捕获后,无论其类型、格式或存储位置如何,都会立即生成元数据、谱系和质量。
话虽如此,模型确实很重要。艾哈迈德解释说,随着像Gemini 2.0这样的思维模型的出现,谷歌的数据平台有了巨大的突破。
“一年前,当你让GenAI回答一个商业问题时,稍微复杂一点的事情,你实际上需要将其分解成多个步骤,”她说。“突然间,借助思维模型,它能够制定出计划……你无需硬编码让它构建计划。它懂得如何构建计划。”她表示,现在你可以轻松让数据工程代理构建出三步或十步的管道。与谷歌AI能力的集成已彻底改变企业数据的潜力。
实际影响:企业如何获益
Levi Strauss & Company展示了统一数据治理如何能变革业务运营。这家拥有172年历史的公司正利用谷歌的数据治理能力,从以批发为主转向直接面向消费者的品牌。在谷歌云下一代会议的一场演讲中,负责Levi’s数据和AI平台工程的文尼·纳拉亚纳详细介绍了他们组织的用例。
“我们希望使业务分析师能够访问实时且准确的数据,”纳拉亚纳说。“在我们开始构建新平台前,发现了多种用户挑战。我们的业务用户不清楚数据存放在哪里,即便知道数据来源,也不清楚归谁所有。若他们设法获取访问权,也缺乏文档。”
Levi’s在谷歌云上构建了一个数据平台,按业务领域分类整理数据产品,通过分析中心(谷歌的数据市场)使其可被发现。每个数据产品都配有详尽的文档、谱系信息和质量指标。
成果显著:“我们比旧数据平台快50倍,这只是低端情况。大量可视化效果快100倍,”纳拉亚纳说。“我们已有超过700名用户每天使用该平台。”
另一例子来自Verizon,该公司正在利用谷歌的治理工具作为其One Verizon Data计划的一部分,以统一此前孤立的业务部门数据。
“这将是北美最大的电信数据仓库,运行在BigQuery上,”Verizon的数据工程、架构和产品副总裁阿尔温德·拉贾戈帕兰在一场谷歌云下一代会议中说。该公司数据资产庞大,包括3500名用户,运行约5亿个查询,35000个数据管道,以及超过40PB的数据。
在谷歌云下一代的一场亮点会上,艾哈迈德还提供了许多其他用户的实例。
– Radisson酒店集团规模化个性化广告,基于BigQuery数据训练Gemini模型。团队工作效率提升50%,而由人工智能驱动的活动收入增长超20%。
– Gordon Food Service迁移到BigQuery,确保其数据已准备好用于人工智能,并将面向客户的应用程序采用率提升了96%。
竞争格局中的‘大’差异:探索竞争环境
企业数据仓库领域有多家供应商,包括Databricks、Snowflake、微软的Synapse和亚马逊的Redshift。近年来,所有这些供应商都在开发各种形式的人工智能集成。
Databricks拥有全面的数据湖屋平台,并在一定程度上得益于13亿美元收购Mosaic,从而扩展了自己的人工智能能力。
亚马逊Redshift在2023年增加了对生成式人工智能的支持,亚马逊Q帮助用户构建查询并获得更好答案。
至于Snowflake,它一直在忙于开发工具并与大型语言模型(LLM)提供商合作,包括Anthropic。
当被问及与微软产品的具体比较时,艾哈迈德认为Synapse并非用于客户使用BigQuery的那些用例的企业数据平台。
“我认为我们领先于整个行业,因为我们已完成了所有这些部分,”她说。“我们拥有最好的模型,顺便提一下,这是整合在一个理解代理工作机制的数据堆栈中的最佳模型。”
这种集成推动了BigQuery中人工智能能力的迅速普及。根据谷歌的说法,客户在BigQuery中使用谷歌AI模型进行多模态分析的数量同比增长16倍。
这对采用人工智能的企业意味着什么
对于已在人工智能实施方面面临困难的企业来说,谷歌的综合治理方法可能比整合单独的数据管理和人工智能系统提供了一条更顺畅的成功路径。
艾哈迈德声称谷歌在这个领域“超越”竞争对手的说法将在组织应用这些新功能时受到检验。然而,客户示例和技术细节表明谷歌在解决企业人工智能采用中最棘手的问题之一上取得了重大进展。
对于已在人工智能实施方面面临困难的企业来说,谷歌的综合治理方法可能比整合单独的数据管理和人工智能系统提供了一条更顺畅的成功路径。
对于评估数据平台的技术决策者来说,关键问题是这种综合方法是否提供了足够的附加价值,以证明从现有投资中迁移至专门平台(如Snowflake或Databricks)是合理的,并且谷歌能否在其竞争对手做出回应时保持当前的创新速度。
每日商业用例洞察:VB日报
如果你想给老板留下深刻印象,VB日报可以帮你。我们为你提供关于公司如何使用生成式人工智能的内部消息,从监管变化到实际部署,以便你能分享见解以实现最大ROI。立即订阅阅读我们的隐私政策。
感谢订阅,查看更多VB新闻简报。
出现错误。
(以上内容均由Ai生成)