合成数据会破坏生成式 AI 的势头还是成为我们需要的突破?

发布时间:2025年3月11日    来源:szf
合成数据会破坏生成式 AI 的势头还是成为我们需要的突破?

快速阅读: 《ZDNet》消息,随着生成式人工智能的发展,合成数据成为推动AI进步的关键因素。它通过模拟现实世界的数据来降低成本和隐私风险,但可能存在偏差和准确性问题。尽管如此,专家们认为合成数据将在AI领域发挥重要作用,前提是需确保透明度和准确性。

盖蒂图片社/亚罗夫拉夫·库斯塔随着生成式人工智能的兴起,合成图像和文本已经成为大家熟知的概念——你了解合成数据吗?顾名思义,这个术语指的是人为生成并用于替代真实数据的数据。它被用来为医疗保健、金融、汽车行业,尤其是人工智能领域创造解决方案。合成数据是数字革命的重要组成部分,以至于西南偏南(SXSW)举办了一场名为“模拟数据对人工智能及未来发展的影响”的会议,旨在分析这项技术增强和支持生成式人工智能的能力,同时评估潜在风险。此外:一夜之间AI普及的十个关键原因——接下来会发生什么小组成员包括英伟达企业级生成式AI软件产品管理总监迈克·霍林杰;Typeform首席产品官奥吉·乌德祖埃;以及德克萨斯州立大学商业分析领域主席泰勒·伊金,他们都对这项技术持有总体积极的看法。“对我们来说,[合成数据]使我们能够更便宜、更好地构建正确的东西——这是一大圣杯,”乌德祖埃说。关于合成数据如何推动AI领域的发展、其潜在风险以及专家的建议,请继续阅读。

优势

在收集实际数据成本过高、耗时过长或可能引起隐私问题的情况下,合成数据使用户能够在现实世界中模拟洞察力——例如涉及敏感财务信息的情况。它最近受欢迎的主要原因是它在训练和优化机器学习和AI模型中发挥着越来越重要的作用,在过去一年这些模型的发展迅速加快。此外:合成数据能否解决AI的隐私问题?这家公司押注于此“通过ChatGPT、Gemini、Claude、DeepSeek或任何这些模型,模型的训练数据中最有可能有一个合成生成步骤,”霍林杰说。“这种合成数据会提取训练材料的部分内容,并加以扩展,以提供多种变体,这样我就可以训练模型来产生任何输出。”

合成数据对于AI模型特别有价值,因为它们需要大量、多样化且高质量的数据集来进行有效的训练,而这些数据集往往难以获得或不切实际。特别是在处理小众、专有或原创数据集时,这些数据集往往无法通过公开数据抓取轻松获取。上周发布的报告中,研究公司高德纳将合成数据列为2025年最重要的数据和分析趋势之一。具体来说,该报告建议使用合成数据来补充缺失或不完整的见解,或替换敏感数据以保护隐私。

风险

为了创建合成数据,复杂的算法会从原始数据集中复制其中发现的模式、结构和其他特征。然而,就像其他任何AI输出一样,存在一些偏差的可能性,这些偏差可能会产生重大影响。为了说明这一点,霍林杰举了个例子:会议当天一天有多少小时是个难题,因为周日只有23小时,这是由于夏令时的缘故。如果从一年中的随机天数中抽取样本数据,那么所选的一天可能是来自一个实施了夏令时变更的城市,在那里少了一小时。基于此样本构建的合成数据流程会降低模型的准确性。

此外:AI对传统BI和分析工具有何影响因此,在构建合成数据集时,必须确保数据植根于现实世界,以避免这类不一致,并确保数据集尽可能代表它应该代表的情景。然而,即使采取了这一措施并考虑了熵,根据乌德祖埃的说法,通常很难确保准确性。“人类以不可预测的方式不可预测,”乌德祖埃说。“你怎么能预测80亿人的变化?”

除了技术挑战外,最大的障碍之一将是赢得用户信任,当使用合成数据作为主要信息来源和创建新解决方案时。要建立这种信任,透明度至关重要,包括合成数据的生成、验证和应用方式,如通过模型卡明确划分。此外:AI对传统BI和分析工具有何影响“从用户角度来看,我们正在使用这些AI工具,但如果自动驾驶汽车没有经过实际道路测试,而是仅通过模拟数据测试,你会怎么想?”伊金说。

展望未来

尽管存在挑战,但小组对未来利用这项技术在AI及其他领域的前景仍持乐观态度。这并不意味着挑战不存在,或者不需要努力,但其整体潜力仍然巨大,可以促进所有行业的增长。此外:企业如何加速实现自主AI价值“当正确使用时,模拟数据将提升科学、软件和行业水平,但我们必须正确地治理和保持透明,否则我们将无法充分利用它,”乌德祖埃说。

人工智能2025年最佳编程AI(以及不应使用的——包括DeepSeek R1)我对DeepSeek的R1和V3编程能力进行了测试——我们还没到绝望的地步(至少现在还没到)如何从你的Microsoft 365计划中卸载Copilot如何在MacOS上安装LLM(以及为何这样做很重要)

2025年最佳编程AI(以及不应使用的——包括DeepSeek R1)我对DeepSeek的R1和V3编程能力进行了测试——我们还没到绝望的地步(至少现在还没到)如何从你的Microsoft 365计划中卸载Copilot如何在MacOS上安装LLM(以及为何这样做很重要)

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日