AWS推出隐私保护合成数据集生成技术,助力机器学习模型训练

发布时间:2025年12月1日    来源:szf
AWS推出隐私保护合成数据集生成技术,助力机器学习模型训练

快速阅读: AWS推出Clean Rooms隐私增强合成数据集生成功能,使组织能从集体数据中生成隐私保护的合成数据集,用于训练机器学习模型,解决数据效用与隐私保护的矛盾。

今日宣布推出 AWS Clean Rooms 的隐私增强合成数据集生成功能。这一新功能允许组织及其合作伙伴从集体数据中生成隐私保护的合成数据集,用于训练回归和分类机器学习模型。利用此功能,可以生成保留原始数据统计模式的合成训练数据集,而无需模型访问原始记录,从而开辟了以前因隐私问题而无法实现的新模型训练机会。

在构建机器学习模型时,数据科学家和分析师通常面临数据效用与隐私保护之间的基本矛盾。获取高质量、细粒度的数据对于训练能够识别趋势、个性化体验并推动业务成果的准确模型至关重要。然而,使用来自多方的细粒度数据(如用户级事件数据)会引发重大隐私问题和合规挑战。组织希望回答诸如“哪些特征表明客户有高转化率?”的问题,但在个体层面信号上进行训练往往与隐私政策和监管要求相冲突。

为解决这一挑战,我们推出了 AWS Clean Rooms ML 中的隐私增强合成数据集生成功能。组织可以使用该功能创建敏感数据集的合成版本,以便更安全地用于机器学习模型训练。该功能采用先进的机器学习技术生成新的数据集,这些数据集保持了原始数据的统计特性,同时去除了原始源数据中的主体身份信息。

传统的匿名化技术,如屏蔽,仍存在重新识别数据集中个人的风险——知道某人的邮政编码和出生日期等属性,就足以通过人口普查数据来识别他们。隐私增强合成数据集生成功能通过一种根本不同的方法解决了这一风险。系统训练一个模型,学习原始数据集的基本统计模式,然后通过从原始数据集中抽样值并使用模型预测目标值列来生成合成记录。该系统不仅复制或扰动原始数据,还采用模型容量缩减技术来降低模型记忆训练数据中个人信息的风险。最终生成的合成数据集具有与原始数据相同的架构和统计特征,适用于训练分类和回归模型。这种方法可量化地减少了重新识别的风险。

使用此功能的组织对其隐私参数有控制权,包括应用的噪声量以及针对成员推断攻击的保护水平,其中攻击者试图确定特定个体的数据是否包含在训练集中。生成合成数据集后,AWS Clean Rooms 提供详细指标,帮助客户及其合规团队了解合成数据集在这两个关键维度上的质量:与原始数据的相似性和隐私保护程度。相似度评分使用 KL 散度衡量合成数据与原始数据集的相似程度,而隐私评分则量化数据集受成员推断攻击保护的可能性。

在 AWS Clean Rooms 中使用合成数据

开始使用隐私增强合成数据集生成遵循既定的 AWS Clean Rooms ML 自定义模型工作流程,新增步骤以指定隐私要求并审查质量指标。组织首先使用其首选数据源创建配置表和分析规则,然后与合作伙伴建立或加入协作,并将其表与此协作关联。

新功能引入了一个增强的分析模板,在该模板中,数据所有者不仅定义创建数据集的 SQL 查询,还指定结果数据集必须是合成的。在此模板中,组织对列进行分类,指示机器学习模型将预测哪一列以及哪些列包含分类值与数值。重要的是,该模板还包括生成的合成数据必须满足的隐私阈值,以供训练使用。这些包括一个指定合成数据中必须存在多少噪声以防止重新识别的 epsilon 值,以及对成员推断攻击的最低保护评分。适当设置这些阈值需要理解您组织的具体隐私和合规要求,我们建议在此过程中与您的法律和合规团队合作。

在所有数据所有者审查并批准分析模板后,协作成员将创建一个引用该模板的机器学习输入通道。随后,AWS Clean Rooms 开始合成数据集的生成过程,通常几小时内即可完成,具体时间取决于数据集的大小和复杂程度。如果生成的合成数据集达到了分析模板中定义的隐私阈值,将提供一个合成的机器学习输入通道以及详细的品质指标。数据科学家可以审查针对模拟成员推断攻击的实际保护得分。

当对品质指标满意后,组织可以使用合成数据集在 AWS Clean Rooms 协作环境中训练他们的机器学习模型。根据应用场景的不同,他们可以选择导出训练好的模型权重,或者继续在协作环境中运行推理作业。

创建新的 AWS Clean Rooms 协作时,现在可以设置谁来支付合成数据集的生成费用。配置完协作后,在创建新的分析模板时可选择“要求分析模板输出为合成”。合成分析模板准备就绪后,可以在运行受保护查询时使用,并查看所有相关的机器学习输入通道详情。

您现在可以开始使用通过 AWS Clean Rooms 提供的隐私增强型合成数据集生成功能。此功能已在所有商业 AWS 区域上线,详情请参阅 AWS Clean Rooms 文档。

隐私增强型合成数据集生成按使用量计费。您只需支付用于生成合成数据集的计算费用,以合成数据生成单元(SDGU)的形式收费。SDGU 的数量依据原始数据集的大小和复杂度而定。此费用可以通过设置由任一协作成员承担。有关定价的更多信息,请参见 AWS Clean Rooms 定价页面。

首次发布支持在表格数据上训练分类和回归模型。合成数据集兼容标准的机器学习框架,无需更改工作流程即可集成到现有的模型开发管道中。

这一能力标志着隐私增强机器学习的重要进展。组织可以在尊重个人隐私的同时,利用敏感的用户级数据进行模型训练,从而降低敏感信息泄露的风险。无论是在优化广告活动、个性化保险报价还是增强欺诈检测系统方面,隐私增强型合成数据集生成都使得通过数据协作训练更准确的模型成为可能。

(以上内容均由Ai生成)

你可能还想读

美国科技未来需投资人才与科研

美国科技未来需投资人才与科研

快速阅读: 据最新消息,美国政府拟持股英特尔10%,以强化半导体战略,但专家强调需同步加大基础科研投入并解决STEM人才短缺,方能维系科技领先地位。 近日,美国政府宣布将持有英特尔公司10%的股权,引发广泛关注。此举被视为对本国半导体制造业 […]

发布时间:2025年12月8日
康宁押注AI数据中心光纤需求激增

康宁押注AI数据中心光纤需求激增

快速阅读: 据康宁公司介绍,AI数据中心加速转向光纤互联,单节点集成72颗GPU,布线长达两英里;因算力激增与带宽需求,光通信将推动AI硬件生态结构性变革,市场或扩至三倍。 近日,人工智能硬件基础设施加速升级,数据中心内部连接技术正经历重要 […]

发布时间:2025年12月8日
智能体AI重塑政府与民众服务关系

智能体AI重塑政府与民众服务关系

快速阅读: 据最新消息,AI代理技术在能源、环保、医疗和教育等领域试点成效显著,提升地震解释准确率70%,优化垃圾清运与课程设置,推动公共服务向智能优化转型。 近日,人工智能代理技术在公共服务领域展现出显著应用潜力。今年1月,阿布扎比国家石 […]

发布时间:2025年12月8日
英警方呼吁中央统筹AI应用

英警方呼吁中央统筹AI应用

快速阅读: 据techUK发布消息称,英格兰和威尔士警方需建立中央统筹机制并加大投入,以释放AI在执法中的潜力,解决应用不均、数据质量及算法偏见等问题,推动全国协调与透明治理。 英国信息技术行业组织techUK近日发布报告指出,英格兰和威尔 […]

发布时间:2025年12月8日
Viam携手优傲机器人推AI自动化方案

Viam携手优傲机器人推AI自动化方案

快速阅读: 据最新消息,美国Viam公司与优傲机器人达成合作,基于UR系列协作机器人开发AI驱动的表面处理系统,已应用于船舶打磨,并拓展至家具、建筑等行业,推动制造智能化转型。 近日,美国纽约企业Viam宣布与泰瑞达集团旗下优傲机器人公司( […]

发布时间:2025年12月8日
AI智能体破解医疗沟通困局

AI智能体破解医疗沟通困局

快速阅读: 据最新消息,美国医疗系统因信息孤岛问题导致患者沟通受阻,AI智能体技术正通过代理式通信提升诊疗协同效率,企业Infinitus已推动该方案在随访与用药管理等场景落地。 近日,美国医疗系统在信息互通方面面临的严峻挑战引发广泛关注。 […]

发布时间:2025年12月8日
AI虚拟演员Tilly Norwood引行业争议

AI虚拟演员Tilly Norwood引行业争议

快速阅读: 据美联社报道,AI虚拟演员蒂莉·诺伍德由Particle6公司打造,旨在探索影视AI应用,团队正优化其自然表现并计划明年推出互动功能,但遭部分经纪公司抵制。 近日,人工智能虚拟演员“蒂莉·诺伍德”(Tilly Norwood)再 […]

发布时间:2025年12月8日
苹果硬件主管或离职,芯片业务面临巨变

苹果硬件主管或离职,芯片业务面临巨变

快速阅读: 据彭博社报道,苹果硬件技术主管斯鲁吉考虑离职,其主导自研M系列与A19 Pro芯片,深度支撑全系产品,潜在出走或重创苹果芯片优势并撼动行业格局。 据彭博社日前报道,苹果公司高级副总裁、硬件技术主管约翰尼·斯鲁吉正考虑离职。斯鲁吉 […]

发布时间:2025年12月8日