谷歌发布VaultGemma,实现隐私保护与AI性能双赢
快速阅读: 谷歌推出全球最强差分隐私LLM“VaultGemma”,基于Gemma架构,拥有10亿参数,采用先进算法防止数据泄露,性能接近非私有模型,计划开源以促进私有AI发展。
谷歌的两大研究单位在大型语言模型隐私领域取得了重大突破,推出了名为“VaultGemma”的新模型,这是全球最强大的“差分隐私LLM”。该模型基于谷歌的Gemma架构构建,拥有10亿个参数,采用先进的数学算法防止敏感数据泄露。
差分隐私是一种用于保护共享数据时隐私的技术,通过确保单个信息的包含或排除不会显著影响总体结果来实现。具体做法是在数据集中加入受控噪声,使得任何人都难以识别其中的具体信息。这一技术长期以来被监管行业用于保护敏感信息,对于人工智能隐私同样具有巨大潜力。然而,将其应用于大型语言模型一直存在挑战,导致模型的稳定性和效率受到影响。VaultGemma旨在克服这些问题,在不牺牲性能的情况下实现差分隐私。
谷歌研究团队与DeepMind合作开发了VaultGemma,专注于解决差分隐私训练中固有的计算-隐私-效用权衡问题。他们面临的挑战是传统的规模定律——预测AI模型性能的计算资源和数据大小关系——在应用差分隐私时不再成立,因为增加了噪声和更大的批次尺寸。为此,团队设计了新的规模定律,考虑这些因素以支持更大、更强大的私有LLM的开发。
VaultGemma从零开始使用差分隐私框架训练,确保不会记住或泄露敏感数据。这对于金融和医疗等受监管行业的AI应用至关重要。谷歌在多个基准测试中评估了VaultGemma的表现,如MMLU和Big-Bench,结果显示其性能远超早期的差分隐私模型,接近参数数量相似的非私有LLM,且不损害隐私。例如,测试表明它在推理和问答等任务上与早期的非私有Gemma模型能力相当,但没有暴露训练数据的风险。
在VaultGemma的关键创新之一中,研究人员调整了训练协议,以应对添加噪声造成的不稳定。谷歌的研究展示了差分隐私如何改变大型语言模型的学习动态。因此,差分隐私模型需要数百万个例子的大批量来稳定训练,这通常意味着更高的计算需求。但研究人员提出了一些方法来降低这些成本,可能降低私有模型的采用门槛。
架构上,VaultGemma是一个基于谷歌Gemma 2架构的解码器型变压器模型,具有26层,使用多查询注意力机制。关键的设计选择之一是将序列长度限制在1024个标记内,有助于管理私有训练的高计算需求。开发过程中遵循了一套新的“差分隐私规模定律”,为平衡计算能力、隐私预算和模型效用之间的权衡提供了框架。
推动私有AI的发展,谷歌的研究人员表示,他们将在Hugging Face和Kaggle上以开源许可证提供VaultGemma及其权重和代码库,以促进私有AI的普及。这一举措与谷歌通常的做法形成鲜明对比,其最强大的专有LLM如Gemini Pro通常是“黑箱”AI。开放源代码VaultGemma可能是谷歌为了在不断演变的法规下领先于AI隐私领域并加速数据敏感行业创新的战略举措。谷歌的差分隐私规模定律适用于规模更大的私有LLM,可能达到数万亿个参数。随着企业应对数据隐私问题,VaultGemma可以作为安全AI创新的蓝图。
目前,谷歌正在考虑与主要医疗保健提供商合作的可能性,设想VaultGemma能够分析敏感患者数据而不产生任何隐私泄露风险。
VaultGemma 对道德人工智能可能也有影响。通过拒绝透露训练数据,该模型减轻了虚假信息和偏见放大的风险,有助于推动负责任的人工智能模型的发展,谷歌的研究人员表示。
图片:谷歌
约翰·弗里尔,SiliconANGLE 的联合创始人发来消息:
支持我们的使命,保持内容开放和免费,参与 theCUBE 社区。
加入 theCUBE 的校友信任网络,
在这里,技术领导者相互连接,共享情报,创造机会。
1500多万 theCUBE 视频观众
,推动关于人工智能、云计算、网络安全等领域的对话。
11400多名 theCUBE 校友
——与超过11400名技术和商业领袖建立联系,他们通过独特的基于信任的网络塑造未来。
关于 SiliconANGLE Media
SiliconANGLE Media 是数字媒体创新的公认领导者,结合突破性的技术、战略洞察力和实时受众互动。作为
SiliconANGLE
、
theCUBE Network
、
theCUBE Research
、
CUBE365
、
theCUBE AI
和 theCUBE SuperStudios 的母公司——旗舰地点位于硅谷和纽约证券交易所——SiliconANGLE Media 在媒体、技术和人工智能的交汇处运营。
由技术远见者约翰·弗里尔和戴夫·韦兰特创立的 SiliconANGLE Media 已构建了一个动态的行业领先数字媒体品牌生态系统,覆盖1500多万精英技术专业人士。我们新的专有 theCUBE AI 视频云正在观众互动领域取得突破,利用 theCUBEai.com 神经网络帮助技术公司做出数据驱动的决策,保持在行业对话的前沿。
(以上内容均由Ai生成)