谷歌发布隐私保护AI模型VaultGemma,防止数据泄露
快速阅读: 谷歌推出新AI模型VaultGemma,通过差异隐私技术防止敏感信息泄露,同时保持与旧模型相当的性能,标志着在构建强大且私密的AI方面迈出重要一步。
训练AI模型可以为企业提供强大的新见解,但也可能导致敏感信息泄露。现在,谷歌推出了一款从底层设计以防止此类隐私泄露的新模型。
大型语言模型是提取公司所持有的大量非结构化数据中有价值信息的有希望的方法。然而,这些数据中往往包含大量关于客户、知识产权和公司财务的高度敏感细节。
问题在于,语言模型往往会记住部分训练数据,并可能在不当情况下原样输出。这使得确保模型不会在错误的情境下向错误的人透露私人数据变得非常困难。
一种潜在的解决方法是差异隐私技术,它允许从数据中提取洞察而不揭示具体信息。不过,这种方法会显著降低AI模型训练的效果,需要更多的数据和计算资源才能达到一定的准确度。
如今,谷歌的研究人员已经分析了隐私保证、计算预算和数据需求之间的权衡,制定出高效构建隐私保护AI模型的方案。他们利用这一方案创建了一个名为VaultGemma的10亿参数模型,其性能与旧型号相当,证明了可以在不完全牺牲能力的情况下保护隐私。
“VaultGemma代表了朝着构建既强大又私密的设计AI目标迈出的重要一步。”研究人员在其博客文章中写道。
差异隐私涉及在AI训练过程中注入少量噪声或随机数据。这不会改变模型学习的整体模式和洞察,但会模糊特定数据点的贡献,使模型更难记住可能日后复现的数据集中的具体细节。
然而,这种技术提供的隐私保护程度(称为隐私预算)与训练过程中添加的噪声量成正比。添加的噪声越多,训练效果越差,所需的数据和计算资源也越多。这三个因素以复杂的方式相互作用,使得找到最有效的方法来构建具有特定隐私保证和性能的模型变得棘手。
(以上内容均由Ai生成)