使用差分私有 LLM 推理生成合成数据

发布时间：2025年3月19日来源：szf

快速阅读: 据《Google Research 博客》最新报道，本文介绍一种新方法，通过差分隐私预测生成高质量合成数据，降低隐私保护技术门槛，促进跨部门高效协作，拓展隐私计算应用场景，推动研究与实践发展。

差分隐私（DP）提供了一种数学上严格的安全保障，确保算法不会泄露关于个人数据的详细信息。然而，在机器学习（ML）流程中引入差分隐私保障，可能会让已经复杂的流程变得更加繁琐。在现代机器学习的大规模应用中，这一点尤为突出，因为这些流程通常由组织内的多个不同小组维护和使用。

差分隐私合成数据可以作为模型开发团队协作的接口，而无需下游团队了解差分隐私的具体细节。正如之前的一篇博文所述，生成差分隐私合成数据的一种常见方式是通过私有微调大型语言模型（LLMs）。然而，这种方法可能成本高昂，且对数据量有较高要求。另一种选择是非私有训练的替代方案——差分隐私预测。在这种方法中，只发布模型的输出结果，而非模型本身，并以差分隐私的方式进行。虽然私有微调存在较高的固定成本，但差分隐私预测更注重质量而非数量，倾向于发布少量高质量的结果，而非大量低质量的结果。

在论文《大规模合成文本生成的私有预测》中，我们提出了一种仅基于推理的方法来生成差分隐私合成数据。该方法通过并行向现有的语言模型输入多个敏感示例，并结合其预测结果，同时利用差分隐私技术。我们解决了与隐私预算和效率相关的问题，从而生成了数千个具备差分隐私保障的高质量合成数据点，极大地扩展了潜在的应用场景。

这种创新的方法不仅降低了生成差分隐私合成数据的技术门槛，还为跨部门协作提供了更高效的解决方案。它既能满足隐私保护的需求，又能保证数据质量和应用场景的多样性。这标志着在隐私计算领域迈出了重要的一步，为未来的研究和实践奠定了坚实的基础。

(以上内容均由Ai生成)