Gen AI 需要合成数据。我们需要能够信任它

发布时间:2025年3月11日    来源:szf
Gen AI 需要合成数据。我们需要能够信任它

快速阅读: 据《CNET 公司》最新报道,今天的生成式AI模型依赖大量现实数据,但仍需在模拟或合成数据上训练以应对未知情景。专家警告,AI开发者应负责任地使用合成数据,否则可能导致失控。模拟数据虽降低成本,但也带来信任和现实适应性的挑战。为确保模型可信,透明度和伦理考量至关重要,包括更新模型以反映真实数据,避免偏离现实。

今天的生成式AI模型,如支撑着ChatGPT和Gemini的那些,是基于大量现实世界数据训练的,但即便互联网上的所有内容也不足以让模型为每一种可能的情况做好准备。为了继续发展,这些模型需要在模拟或合成数据上进行训练,这些数据情景是合理的,但并非真实存在。专家们在西南偏南论坛的小组讨论中表示,AI开发者必须负责任地这样做,否则情况可能会迅速失控。今年,随着深求AI的推出——这是一种在中国生产的新型模型,其训练使用了比其他模型更多的合成数据,从而节省了资金和计算能力,使用模拟数据训练人工智能模型的做法引起了新的关注。但专家们表示,这不仅仅是节省数据收集和处理成本的问题。合成数据——通常由AI自身生成的计算机生成数据——可以教会模型关于现实中未提供信息的情景,但它在未来可能会遇到。如果模型已经见过这种模拟,那么百万分之一的事件就不会成为意外。“有了模拟数据,你可以消除边缘案例的想法,”曾在推特、阿特拉斯、微软等公司领导产品团队的奥吉·乌德祖补充道,“只要我们能信任它,理论上我们可以构建一个适用于80亿人口的产品。”难点在于确保你能信任它。

模拟数据的问题

模拟数据有很多好处。其中之一是它的生产成本更低。你可以使用一些软件来模拟测试成千上万辆汽车,但在现实生活中要得到同样的结果,就必须真的撞毁汽车——这会耗费大量金钱,奥吉·乌德祖说。例如,如果你正在训练一辆自动驾驶汽车,你可能需要捕捉一些车辆在路上可能遇到的不常见情景,即使这些情景不在训练数据中,德克萨斯州立大学商业分析教授塔希尔·埃金说。他举了奥斯汀国会大道桥上蝙蝠壮观现身的例子。这可能不会出现在训练数据中,但自动驾驶汽车需要对如何应对蝙蝠群做出某种反应。

风险来自于机器使用合成数据训练后对现实变化的响应方式。它不能存在于另一个现实中,否则就会变得不那么有用,甚至危险。埃金问道:“你会怎么想,如果一辆没有在道路上训练过,只在模拟数据上训练过的自动驾驶汽车?”任何使用模拟数据的系统都需要“立足于现实”,包括反馈其模拟推理与实际发生情况的一致性。奥吉·乌德祖将这个问题比作社交媒体的创建,它最初是为了扩大全球通信而设计的,并实现了这一目标。但他指出,社交媒体也被滥用了,“现在独裁者用它来控制人们,同时人们也用它来讲笑话。”

随着AI工具规模和受欢迎程度的增长,这得益于合成训练数据的使用,不可信赖的训练和模型脱离现实的潜在现实影响变得更加显著。“责任在于我们这些开发者和科学家,我们必须确保系统是可靠的,”奥吉·乌德祖说,“这不是幻想。”

如何保持模拟数据的可控性

确保模型可信的一种方法是使其训练透明,这样用户可以根据他们对该信息的评估选择使用哪个模型。小组成员反复使用营养标签的类比,这对用户来说很容易理解。一些透明度已经存在,比如通过开发平台Hugging Face提供的模型卡,这些卡片分解了不同系统的细节。英伟达芯片制造商企业生成式AI产品经理迈克·霍林格说,这些信息需要尽可能清晰和透明。“这些措施必须到位。”霍林格表示,最终,不仅是AI开发者,AI用户也将定义行业的最佳实践。行业还需要牢记伦理和风险,奥吉·乌德祖说。“合成数据将使许多事情更容易完成,”他说,“它将降低构建东西的成本。但其中一些事情将对社会产生深远影响。”奥吉·乌德祖表示,观察性、透明度和错误纠正必须融入模型中以确保其可靠性。这包括更新训练模型,使其反映准确的数据,而不是放大合成数据中的错误。一个担忧是模型失效,当一个AI模型基于其他AI模型产生的数据训练时,它会越来越远离现实,变得无用。“你越远离捕捉现实世界的多样性,回应可能会变得不正常,”奥吉·乌德祖说。“如果将信任、透明度和错误纠正相结合,这些问题是可以解决的。”

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日