Amazon S3 表与 Amazon SageMaker Lakehouse 的集成现已全面推出

快速阅读: 据《亚马逊云科技》最新报道，Amazon S3表与SageMaker湖仓服务现已全面可用，支持跨多种分析引擎统一访问S3表数据。该集成简化了数据查询、管理及与其他数据源的连接，助力高效分析与AI工作流。

在2024年的re:Invent大会上，我们推出了Amazon S3表，这是首个内置Apache Iceberg支持的云对象存储，旨在简化大规模存储表格数据的操作。同时推出了Amazon SageMaker湖仓服务，通过统一、开放且安全的数据湖仓简化分析和人工智能工作流。我们还预览了S3表与亚马逊云科技（AWS）分析服务的集成，使您可以通过Amazon Athena、Amazon Data Firehose、Amazon EMR、AWS Glue、Amazon Redshift和Amazon QuickSight等工具流式传输、查询和可视化S3表数据。

客户希望通过简化其Apache Iceberg存储的管理和优化来克服挑战，这促使了S3表的开发。同时，他们致力于打破阻碍分析协作和洞察生成的数据孤岛，利用SageMaker湖仓服务实现这一目标。当与S3表和SageMaker湖仓服务结合，并与AWS分析服务集成时，他们可以获得一个全面的平台，统一访问多个数据源，支持分析和机器学习（ML）工作流。

今天，我们宣布Amazon S3表与Amazon SageMaker湖仓服务正式全面可用，提供跨各种分析引擎和工具的统一S3表数据访问。您可以从Amazon SageMaker统一工作区访问SageMaker湖仓服务，这是一个集成了AWS分析和AI/ML服务功能和工具的单一数据和AI开发环境。所有与SageMaker湖仓服务集成的S3表数据都可以从SageMaker统一工作区以及诸如Amazon Athena、Amazon EMR、Amazon Redshift和兼容Apache Iceberg的引擎（如Apache Spark或PyIceberg）中查询。

通过此集成，您可以简化构建安全的分析工作流，在其中可以读写S3表，并与其他数据仓库以及第三方和联邦数据源（如Amazon DynamoDB或PostgreSQL）中的数据进行连接。您还可以在S3表中的数据以及其他数据在SageMaker湖仓服务中集中设置和管理细粒度的访问权限，并在所有分析和查询引擎中一致应用它们。

### 使用S3表与SageMaker湖仓服务的集成

#### 1. 在Amazon S3控制台中使用Amazon Athena创建表
您可以使用Amazon Athena在几个步骤内直接从Amazon S3控制台创建表、填充数据并查询它。选择一个表桶并选择“使用Athena创建表”，或者可以选择现有表并选择“使用Athena查询表”。当您想要使用Athena创建表时，应首先为表指定一个命名空间。S3表桶中的命名空间相当于AWS Glue中的数据库，您在Athena查询中将表命名空间用作数据库。选择一个命名空间并选择“使用Athena创建表”。它会进入Athena控制台的“使用Athena创建表”查询编辑器。您可以在您的S3表桶中创建表或查询表中的数据。

#### 2. 在SageMaker统一工作区中使用SageMaker湖仓服务查询
现在您可以直接从SageMaker统一工作区访问S3数据湖、Redshift数据仓库、第三方和联邦数据源中的统一数据。要开始，请转至SageMaker控制台并使用示例项目配置文件创建SageMaker统一工作区和项目：“数据分析和AI-ML模型开发”。要了解更多信息，请访问AWS文档中的“创建Amazon SageMaker统一工作区”。

项目创建后，导航到项目概述并滚动到项目详情以记下项目角色Amazon资源名称（ARN）。转至AWS Lake Formation控制台并授予AWS身份和访问管理（IAM）用户和角色的权限。在主体部分，选择上一段中记录的<项目角色ARN>。在LF标签或目录资源部分选择命名数据目录资源，并选择您为目录创建的表桶名称。

返回SageMaker统一工作区时，您可以在项目页面左导航栏的数据菜单下的湖仓中看到您的表桶项目。选择操作时，您可以选择如何在Amazon Athena、Amazon Redshift或JupyterLab笔记本中查询您的表桶数据。选择“使用Athena查询”时，它会自动进入查询编辑器，使用Athena对S3表运行数据查询语言（DQL）和数据操作语言（DML）查询。以下是一个使用Athena的示例查询：

“`sql
select * from “s3tablecatalog/s3tables-integblog-bucket”.”proddb”.”customer” limit 10;
“`

要使用Amazon Redshift查询，您应该为数据查询分析设置Amazon Redshift Serverless计算资源。然后选择“使用Redshift查询”并在查询编辑器中运行SQL。

如果您想使用JupyterLab笔记本，应在Amazon EMR Serverless中创建一个新的JupyterLab空间。

#### 3. 使用S3表数据与其他来源的数据连接
由于S3表数据现在已在SageMaker湖仓服务中可用，您可以将其与数据仓库、在线事务处理（OLTP）源（如关系型或非关系型数据库）、Iceberg表和其他第三方源的数据连接起来，以获得更全面和深入的见解。

例如，您可以添加对数据源的连接，如Amazon DocumentDB、Amazon DynamoDB、Amazon Redshift、PostgreSQL、MySQL、Google BigQuery或Snowflake，并使用SQL结合数据，而无需提取、转换和加载（ETL）脚本。现在您可以在查询编辑器中运行SQL查询，将S3表中的数据与DynamoDB中的数据连接起来。以下是一个将Athena和DynamoDB连接起来的示例查询：

“`sql
select * from “s3tablescatalog/s3tables-integblog-bucket”.”blogdb”.”customer”, “dynamodb1″.”default”.”customer_ddb” where cust_id=pid limit 10;
“`

要了解更多关于此集成的信息，请访问AWS文档中的“Amazon S3表与Amazon SageMaker湖仓服务集成”。

### 现已推出S3表与SageMaker湖仓服务的集成
S3表与SageMaker湖仓服务的集成现已在所有S3表可用的AWS区域普遍可用。要了解更多信息，请访问S3表产品页面和SageMaker湖仓服务页面。

今天就在SageMaker统一工作区中尝试S3表，并通过AWS re:Post for Amazon S3和AWS re:Post for Amazon SageMaker或通过您通常的AWS支持联系人发送反馈。

在庆祝Amazon S3发布的年度活动中，我们将介绍更多Amazon S3和Amazon SageMaker的精彩发布。要了解更多信息，请加入3月14日的Amazon S3发布AWS圆周率日活动。

——
陈晨

——

新闻博客文章做得怎么样？请完成这个1分钟问卷调查！（此问卷调查由外部公司主办。AWS将按照AWS隐私政策所述的方式处理您的信息。AWS将拥有通过此问卷调查收集的数据，并不会与问卷调查参与者分享所收集的信息。）

(以上内容均由Ai生成)