合成数据会破坏生成式 AI 的势头还是成为我们需要的突破?

发布时间:2025年3月11日    来源:szf
合成数据会破坏生成式 AI 的势头还是成为我们需要的突破?

快速阅读: 《ZDNet》消息,随着生成式人工智能的发展,合成数据成为推动AI进步的关键因素。它通过模拟现实世界的数据来降低成本和隐私风险,但可能存在偏差和准确性问题。尽管如此,专家们认为合成数据将在AI领域发挥重要作用,前提是需确保透明度和准确性。

盖蒂图片社/亚罗夫拉夫·库斯塔随着生成式人工智能的兴起,合成图像和文本已经成为大家熟知的概念——你了解合成数据吗?顾名思义,这个术语指的是人为生成并用于替代真实数据的数据。它被用来为医疗保健、金融、汽车行业,尤其是人工智能领域创造解决方案。合成数据是数字革命的重要组成部分,以至于西南偏南(SXSW)举办了一场名为“模拟数据对人工智能及未来发展的影响”的会议,旨在分析这项技术增强和支持生成式人工智能的能力,同时评估潜在风险。此外:一夜之间AI普及的十个关键原因——接下来会发生什么小组成员包括英伟达企业级生成式AI软件产品管理总监迈克·霍林杰;Typeform首席产品官奥吉·乌德祖埃;以及德克萨斯州立大学商业分析领域主席泰勒·伊金,他们都对这项技术持有总体积极的看法。“对我们来说,[合成数据]使我们能够更便宜、更好地构建正确的东西——这是一大圣杯,”乌德祖埃说。关于合成数据如何推动AI领域的发展、其潜在风险以及专家的建议,请继续阅读。

优势

在收集实际数据成本过高、耗时过长或可能引起隐私问题的情况下,合成数据使用户能够在现实世界中模拟洞察力——例如涉及敏感财务信息的情况。它最近受欢迎的主要原因是它在训练和优化机器学习和AI模型中发挥着越来越重要的作用,在过去一年这些模型的发展迅速加快。此外:合成数据能否解决AI的隐私问题?这家公司押注于此“通过ChatGPT、Gemini、Claude、DeepSeek或任何这些模型,模型的训练数据中最有可能有一个合成生成步骤,”霍林杰说。“这种合成数据会提取训练材料的部分内容,并加以扩展,以提供多种变体,这样我就可以训练模型来产生任何输出。”

合成数据对于AI模型特别有价值,因为它们需要大量、多样化且高质量的数据集来进行有效的训练,而这些数据集往往难以获得或不切实际。特别是在处理小众、专有或原创数据集时,这些数据集往往无法通过公开数据抓取轻松获取。上周发布的报告中,研究公司高德纳将合成数据列为2025年最重要的数据和分析趋势之一。具体来说,该报告建议使用合成数据来补充缺失或不完整的见解,或替换敏感数据以保护隐私。

风险

为了创建合成数据,复杂的算法会从原始数据集中复制其中发现的模式、结构和其他特征。然而,就像其他任何AI输出一样,存在一些偏差的可能性,这些偏差可能会产生重大影响。为了说明这一点,霍林杰举了个例子:会议当天一天有多少小时是个难题,因为周日只有23小时,这是由于夏令时的缘故。如果从一年中的随机天数中抽取样本数据,那么所选的一天可能是来自一个实施了夏令时变更的城市,在那里少了一小时。基于此样本构建的合成数据流程会降低模型的准确性。

此外:AI对传统BI和分析工具有何影响因此,在构建合成数据集时,必须确保数据植根于现实世界,以避免这类不一致,并确保数据集尽可能代表它应该代表的情景。然而,即使采取了这一措施并考虑了熵,根据乌德祖埃的说法,通常很难确保准确性。“人类以不可预测的方式不可预测,”乌德祖埃说。“你怎么能预测80亿人的变化?”

除了技术挑战外,最大的障碍之一将是赢得用户信任,当使用合成数据作为主要信息来源和创建新解决方案时。要建立这种信任,透明度至关重要,包括合成数据的生成、验证和应用方式,如通过模型卡明确划分。此外:AI对传统BI和分析工具有何影响“从用户角度来看,我们正在使用这些AI工具,但如果自动驾驶汽车没有经过实际道路测试,而是仅通过模拟数据测试,你会怎么想?”伊金说。

展望未来

尽管存在挑战,但小组对未来利用这项技术在AI及其他领域的前景仍持乐观态度。这并不意味着挑战不存在,或者不需要努力,但其整体潜力仍然巨大,可以促进所有行业的增长。此外:企业如何加速实现自主AI价值“当正确使用时,模拟数据将提升科学、软件和行业水平,但我们必须正确地治理和保持透明,否则我们将无法充分利用它,”乌德祖埃说。

人工智能2025年最佳编程AI(以及不应使用的——包括DeepSeek R1)我对DeepSeek的R1和V3编程能力进行了测试——我们还没到绝望的地步(至少现在还没到)如何从你的Microsoft 365计划中卸载Copilot如何在MacOS上安装LLM(以及为何这样做很重要)

2025年最佳编程AI(以及不应使用的——包括DeepSeek R1)我对DeepSeek的R1和V3编程能力进行了测试——我们还没到绝望的地步(至少现在还没到)如何从你的Microsoft 365计划中卸载Copilot如何在MacOS上安装LLM(以及为何这样做很重要)

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日