Gen AI 需要合成数据。我们需要能够信任它

发布时间:2025年3月11日    来源:szf
Gen AI 需要合成数据。我们需要能够信任它

快速阅读: 据《CNET 公司》最新报道,今天的生成式AI模型依赖大量现实数据,但仍需在模拟或合成数据上训练以应对未知情景。专家警告,AI开发者应负责任地使用合成数据,否则可能导致失控。模拟数据虽降低成本,但也带来信任和现实适应性的挑战。为确保模型可信,透明度和伦理考量至关重要,包括更新模型以反映真实数据,避免偏离现实。

今天的生成式AI模型,如支撑着ChatGPT和Gemini的那些,是基于大量现实世界数据训练的,但即便互联网上的所有内容也不足以让模型为每一种可能的情况做好准备。为了继续发展,这些模型需要在模拟或合成数据上进行训练,这些数据情景是合理的,但并非真实存在。专家们在西南偏南论坛的小组讨论中表示,AI开发者必须负责任地这样做,否则情况可能会迅速失控。今年,随着深求AI的推出——这是一种在中国生产的新型模型,其训练使用了比其他模型更多的合成数据,从而节省了资金和计算能力,使用模拟数据训练人工智能模型的做法引起了新的关注。但专家们表示,这不仅仅是节省数据收集和处理成本的问题。合成数据——通常由AI自身生成的计算机生成数据——可以教会模型关于现实中未提供信息的情景,但它在未来可能会遇到。如果模型已经见过这种模拟,那么百万分之一的事件就不会成为意外。“有了模拟数据,你可以消除边缘案例的想法,”曾在推特、阿特拉斯、微软等公司领导产品团队的奥吉·乌德祖补充道,“只要我们能信任它,理论上我们可以构建一个适用于80亿人口的产品。”难点在于确保你能信任它。

模拟数据的问题

模拟数据有很多好处。其中之一是它的生产成本更低。你可以使用一些软件来模拟测试成千上万辆汽车,但在现实生活中要得到同样的结果,就必须真的撞毁汽车——这会耗费大量金钱,奥吉·乌德祖说。例如,如果你正在训练一辆自动驾驶汽车,你可能需要捕捉一些车辆在路上可能遇到的不常见情景,即使这些情景不在训练数据中,德克萨斯州立大学商业分析教授塔希尔·埃金说。他举了奥斯汀国会大道桥上蝙蝠壮观现身的例子。这可能不会出现在训练数据中,但自动驾驶汽车需要对如何应对蝙蝠群做出某种反应。

风险来自于机器使用合成数据训练后对现实变化的响应方式。它不能存在于另一个现实中,否则就会变得不那么有用,甚至危险。埃金问道:“你会怎么想,如果一辆没有在道路上训练过,只在模拟数据上训练过的自动驾驶汽车?”任何使用模拟数据的系统都需要“立足于现实”,包括反馈其模拟推理与实际发生情况的一致性。奥吉·乌德祖将这个问题比作社交媒体的创建,它最初是为了扩大全球通信而设计的,并实现了这一目标。但他指出,社交媒体也被滥用了,“现在独裁者用它来控制人们,同时人们也用它来讲笑话。”

随着AI工具规模和受欢迎程度的增长,这得益于合成训练数据的使用,不可信赖的训练和模型脱离现实的潜在现实影响变得更加显著。“责任在于我们这些开发者和科学家,我们必须确保系统是可靠的,”奥吉·乌德祖说,“这不是幻想。”

如何保持模拟数据的可控性

确保模型可信的一种方法是使其训练透明,这样用户可以根据他们对该信息的评估选择使用哪个模型。小组成员反复使用营养标签的类比,这对用户来说很容易理解。一些透明度已经存在,比如通过开发平台Hugging Face提供的模型卡,这些卡片分解了不同系统的细节。英伟达芯片制造商企业生成式AI产品经理迈克·霍林格说,这些信息需要尽可能清晰和透明。“这些措施必须到位。”霍林格表示,最终,不仅是AI开发者,AI用户也将定义行业的最佳实践。行业还需要牢记伦理和风险,奥吉·乌德祖说。“合成数据将使许多事情更容易完成,”他说,“它将降低构建东西的成本。但其中一些事情将对社会产生深远影响。”奥吉·乌德祖表示,观察性、透明度和错误纠正必须融入模型中以确保其可靠性。这包括更新训练模型,使其反映准确的数据,而不是放大合成数据中的错误。一个担忧是模型失效,当一个AI模型基于其他AI模型产生的数据训练时,它会越来越远离现实,变得无用。“你越远离捕捉现实世界的多样性,回应可能会变得不正常,”奥吉·乌德祖说。“如果将信任、透明度和错误纠正相结合,这些问题是可以解决的。”

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日