合成数据会破坏生成式 AI 的势头还是成为我们需要的突破?
快速阅读: 《ZDNet》消息,随着生成式人工智能的发展,合成数据成为推动AI进步的关键因素。它通过模拟现实世界的数据来降低成本和隐私风险,但可能存在偏差和准确性问题。尽管如此,专家们认为合成数据将在AI领域发挥重要作用,前提是需确保透明度和准确性。
盖蒂图片社/亚罗夫拉夫·库斯塔随着生成式人工智能的兴起,合成图像和文本已经成为大家熟知的概念——你了解合成数据吗?顾名思义,这个术语指的是人为生成并用于替代真实数据的数据。它被用来为医疗保健、金融、汽车行业,尤其是人工智能领域创造解决方案。合成数据是数字革命的重要组成部分,以至于西南偏南(SXSW)举办了一场名为“模拟数据对人工智能及未来发展的影响”的会议,旨在分析这项技术增强和支持生成式人工智能的能力,同时评估潜在风险。此外:一夜之间AI普及的十个关键原因——接下来会发生什么小组成员包括英伟达企业级生成式AI软件产品管理总监迈克·霍林杰;Typeform首席产品官奥吉·乌德祖埃;以及德克萨斯州立大学商业分析领域主席泰勒·伊金,他们都对这项技术持有总体积极的看法。“对我们来说,[合成数据]使我们能够更便宜、更好地构建正确的东西——这是一大圣杯,”乌德祖埃说。关于合成数据如何推动AI领域的发展、其潜在风险以及专家的建议,请继续阅读。
优势
在收集实际数据成本过高、耗时过长或可能引起隐私问题的情况下,合成数据使用户能够在现实世界中模拟洞察力——例如涉及敏感财务信息的情况。它最近受欢迎的主要原因是它在训练和优化机器学习和AI模型中发挥着越来越重要的作用,在过去一年这些模型的发展迅速加快。此外:合成数据能否解决AI的隐私问题?这家公司押注于此“通过ChatGPT、Gemini、Claude、DeepSeek或任何这些模型,模型的训练数据中最有可能有一个合成生成步骤,”霍林杰说。“这种合成数据会提取训练材料的部分内容,并加以扩展,以提供多种变体,这样我就可以训练模型来产生任何输出。”
合成数据对于AI模型特别有价值,因为它们需要大量、多样化且高质量的数据集来进行有效的训练,而这些数据集往往难以获得或不切实际。特别是在处理小众、专有或原创数据集时,这些数据集往往无法通过公开数据抓取轻松获取。上周发布的报告中,研究公司高德纳将合成数据列为2025年最重要的数据和分析趋势之一。具体来说,该报告建议使用合成数据来补充缺失或不完整的见解,或替换敏感数据以保护隐私。
风险
为了创建合成数据,复杂的算法会从原始数据集中复制其中发现的模式、结构和其他特征。然而,就像其他任何AI输出一样,存在一些偏差的可能性,这些偏差可能会产生重大影响。为了说明这一点,霍林杰举了个例子:会议当天一天有多少小时是个难题,因为周日只有23小时,这是由于夏令时的缘故。如果从一年中的随机天数中抽取样本数据,那么所选的一天可能是来自一个实施了夏令时变更的城市,在那里少了一小时。基于此样本构建的合成数据流程会降低模型的准确性。
此外:AI对传统BI和分析工具有何影响因此,在构建合成数据集时,必须确保数据植根于现实世界,以避免这类不一致,并确保数据集尽可能代表它应该代表的情景。然而,即使采取了这一措施并考虑了熵,根据乌德祖埃的说法,通常很难确保准确性。“人类以不可预测的方式不可预测,”乌德祖埃说。“你怎么能预测80亿人的变化?”
除了技术挑战外,最大的障碍之一将是赢得用户信任,当使用合成数据作为主要信息来源和创建新解决方案时。要建立这种信任,透明度至关重要,包括合成数据的生成、验证和应用方式,如通过模型卡明确划分。此外:AI对传统BI和分析工具有何影响“从用户角度来看,我们正在使用这些AI工具,但如果自动驾驶汽车没有经过实际道路测试,而是仅通过模拟数据测试,你会怎么想?”伊金说。
展望未来
尽管存在挑战,但小组对未来利用这项技术在AI及其他领域的前景仍持乐观态度。这并不意味着挑战不存在,或者不需要努力,但其整体潜力仍然巨大,可以促进所有行业的增长。此外:企业如何加速实现自主AI价值“当正确使用时,模拟数据将提升科学、软件和行业水平,但我们必须正确地治理和保持透明,否则我们将无法充分利用它,”乌德祖埃说。
人工智能2025年最佳编程AI(以及不应使用的——包括DeepSeek R1)我对DeepSeek的R1和V3编程能力进行了测试——我们还没到绝望的地步(至少现在还没到)如何从你的Microsoft 365计划中卸载Copilot如何在MacOS上安装LLM(以及为何这样做很重要)
2025年最佳编程AI(以及不应使用的——包括DeepSeek R1)我对DeepSeek的R1和V3编程能力进行了测试——我们还没到绝望的地步(至少现在还没到)如何从你的Microsoft 365计划中卸载Copilot如何在MacOS上安装LLM(以及为何这样做很重要)
(以上内容均由Ai生成)