AWS推出隐私保护合成数据集生成技术,助力机器学习模型训练
快速阅读: AWS推出Clean Rooms隐私增强合成数据集生成功能,使组织能从集体数据中生成隐私保护的合成数据集,用于训练机器学习模型,解决数据效用与隐私保护的矛盾。
今日宣布推出 AWS Clean Rooms 的隐私增强合成数据集生成功能。这一新功能允许组织及其合作伙伴从集体数据中生成隐私保护的合成数据集,用于训练回归和分类机器学习模型。利用此功能,可以生成保留原始数据统计模式的合成训练数据集,而无需模型访问原始记录,从而开辟了以前因隐私问题而无法实现的新模型训练机会。
在构建机器学习模型时,数据科学家和分析师通常面临数据效用与隐私保护之间的基本矛盾。获取高质量、细粒度的数据对于训练能够识别趋势、个性化体验并推动业务成果的准确模型至关重要。然而,使用来自多方的细粒度数据(如用户级事件数据)会引发重大隐私问题和合规挑战。组织希望回答诸如“哪些特征表明客户有高转化率?”的问题,但在个体层面信号上进行训练往往与隐私政策和监管要求相冲突。
为解决这一挑战,我们推出了 AWS Clean Rooms ML 中的隐私增强合成数据集生成功能。组织可以使用该功能创建敏感数据集的合成版本,以便更安全地用于机器学习模型训练。该功能采用先进的机器学习技术生成新的数据集,这些数据集保持了原始数据的统计特性,同时去除了原始源数据中的主体身份信息。
传统的匿名化技术,如屏蔽,仍存在重新识别数据集中个人的风险——知道某人的邮政编码和出生日期等属性,就足以通过人口普查数据来识别他们。隐私增强合成数据集生成功能通过一种根本不同的方法解决了这一风险。系统训练一个模型,学习原始数据集的基本统计模式,然后通过从原始数据集中抽样值并使用模型预测目标值列来生成合成记录。该系统不仅复制或扰动原始数据,还采用模型容量缩减技术来降低模型记忆训练数据中个人信息的风险。最终生成的合成数据集具有与原始数据相同的架构和统计特征,适用于训练分类和回归模型。这种方法可量化地减少了重新识别的风险。
使用此功能的组织对其隐私参数有控制权,包括应用的噪声量以及针对成员推断攻击的保护水平,其中攻击者试图确定特定个体的数据是否包含在训练集中。生成合成数据集后,AWS Clean Rooms 提供详细指标,帮助客户及其合规团队了解合成数据集在这两个关键维度上的质量:与原始数据的相似性和隐私保护程度。相似度评分使用 KL 散度衡量合成数据与原始数据集的相似程度,而隐私评分则量化数据集受成员推断攻击保护的可能性。
在 AWS Clean Rooms 中使用合成数据
开始使用隐私增强合成数据集生成遵循既定的 AWS Clean Rooms ML 自定义模型工作流程,新增步骤以指定隐私要求并审查质量指标。组织首先使用其首选数据源创建配置表和分析规则,然后与合作伙伴建立或加入协作,并将其表与此协作关联。
新功能引入了一个增强的分析模板,在该模板中,数据所有者不仅定义创建数据集的 SQL 查询,还指定结果数据集必须是合成的。在此模板中,组织对列进行分类,指示机器学习模型将预测哪一列以及哪些列包含分类值与数值。重要的是,该模板还包括生成的合成数据必须满足的隐私阈值,以供训练使用。这些包括一个指定合成数据中必须存在多少噪声以防止重新识别的 epsilon 值,以及对成员推断攻击的最低保护评分。适当设置这些阈值需要理解您组织的具体隐私和合规要求,我们建议在此过程中与您的法律和合规团队合作。
在所有数据所有者审查并批准分析模板后,协作成员将创建一个引用该模板的机器学习输入通道。随后,AWS Clean Rooms 开始合成数据集的生成过程,通常几小时内即可完成,具体时间取决于数据集的大小和复杂程度。如果生成的合成数据集达到了分析模板中定义的隐私阈值,将提供一个合成的机器学习输入通道以及详细的品质指标。数据科学家可以审查针对模拟成员推断攻击的实际保护得分。
当对品质指标满意后,组织可以使用合成数据集在 AWS Clean Rooms 协作环境中训练他们的机器学习模型。根据应用场景的不同,他们可以选择导出训练好的模型权重,或者继续在协作环境中运行推理作业。
创建新的 AWS Clean Rooms 协作时,现在可以设置谁来支付合成数据集的生成费用。配置完协作后,在创建新的分析模板时可选择“要求分析模板输出为合成”。合成分析模板准备就绪后,可以在运行受保护查询时使用,并查看所有相关的机器学习输入通道详情。
您现在可以开始使用通过 AWS Clean Rooms 提供的隐私增强型合成数据集生成功能。此功能已在所有商业 AWS 区域上线,详情请参阅 AWS Clean Rooms 文档。
隐私增强型合成数据集生成按使用量计费。您只需支付用于生成合成数据集的计算费用,以合成数据生成单元(SDGU)的形式收费。SDGU 的数量依据原始数据集的大小和复杂度而定。此费用可以通过设置由任一协作成员承担。有关定价的更多信息,请参见 AWS Clean Rooms 定价页面。
首次发布支持在表格数据上训练分类和回归模型。合成数据集兼容标准的机器学习框架,无需更改工作流程即可集成到现有的模型开发管道中。
这一能力标志着隐私增强机器学习的重要进展。组织可以在尊重个人隐私的同时,利用敏感的用户级数据进行模型训练,从而降低敏感信息泄露的风险。无论是在优化广告活动、个性化保险报价还是增强欺诈检测系统方面,隐私增强型合成数据集生成都使得通过数据协作训练更准确的模型成为可能。
(以上内容均由Ai生成)