Gen AI 需要合成数据。我们需要能够信任它

快速阅读: 据《CNET 公司》最新报道，今天的生成式AI模型依赖大量现实数据，但仍需在模拟或合成数据上训练以应对未知情景。专家警告，AI开发者应负责任地使用合成数据，否则可能导致失控。模拟数据虽降低成本，但也带来信任和现实适应性的挑战。为确保模型可信，透明度和伦理考量至关重要，包括更新模型以反映真实数据，避免偏离现实。

今天的生成式AI模型，如支撑着ChatGPT和Gemini的那些，是基于大量现实世界数据训练的，但即便互联网上的所有内容也不足以让模型为每一种可能的情况做好准备。为了继续发展，这些模型需要在模拟或合成数据上进行训练，这些数据情景是合理的，但并非真实存在。专家们在西南偏南论坛的小组讨论中表示，AI开发者必须负责任地这样做，否则情况可能会迅速失控。今年，随着深求AI的推出——这是一种在中国生产的新型模型，其训练使用了比其他模型更多的合成数据，从而节省了资金和计算能力，使用模拟数据训练人工智能模型的做法引起了新的关注。但专家们表示，这不仅仅是节省数据收集和处理成本的问题。合成数据——通常由AI自身生成的计算机生成数据——可以教会模型关于现实中未提供信息的情景，但它在未来可能会遇到。如果模型已经见过这种模拟，那么百万分之一的事件就不会成为意外。“有了模拟数据，你可以消除边缘案例的想法，”曾在推特、阿特拉斯、微软等公司领导产品团队的奥吉·乌德祖补充道，“只要我们能信任它，理论上我们可以构建一个适用于80亿人口的产品。”难点在于确保你能信任它。

模拟数据的问题

模拟数据有很多好处。其中之一是它的生产成本更低。你可以使用一些软件来模拟测试成千上万辆汽车，但在现实生活中要得到同样的结果，就必须真的撞毁汽车——这会耗费大量金钱，奥吉·乌德祖说。例如，如果你正在训练一辆自动驾驶汽车，你可能需要捕捉一些车辆在路上可能遇到的不常见情景，即使这些情景不在训练数据中，德克萨斯州立大学商业分析教授塔希尔·埃金说。他举了奥斯汀国会大道桥上蝙蝠壮观现身的例子。这可能不会出现在训练数据中，但自动驾驶汽车需要对如何应对蝙蝠群做出某种反应。

风险来自于机器使用合成数据训练后对现实变化的响应方式。它不能存在于另一个现实中，否则就会变得不那么有用，甚至危险。埃金问道：“你会怎么想，如果一辆没有在道路上训练过，只在模拟数据上训练过的自动驾驶汽车？”任何使用模拟数据的系统都需要“立足于现实”，包括反馈其模拟推理与实际发生情况的一致性。奥吉·乌德祖将这个问题比作社交媒体的创建，它最初是为了扩大全球通信而设计的，并实现了这一目标。但他指出，社交媒体也被滥用了，“现在独裁者用它来控制人们，同时人们也用它来讲笑话。”

随着AI工具规模和受欢迎程度的增长，这得益于合成训练数据的使用，不可信赖的训练和模型脱离现实的潜在现实影响变得更加显著。“责任在于我们这些开发者和科学家，我们必须确保系统是可靠的，”奥吉·乌德祖说，“这不是幻想。”

如何保持模拟数据的可控性

确保模型可信的一种方法是使其训练透明，这样用户可以根据他们对该信息的评估选择使用哪个模型。小组成员反复使用营养标签的类比，这对用户来说很容易理解。一些透明度已经存在，比如通过开发平台Hugging Face提供的模型卡，这些卡片分解了不同系统的细节。英伟达芯片制造商企业生成式AI产品经理迈克·霍林格说，这些信息需要尽可能清晰和透明。“这些措施必须到位。”霍林格表示，最终，不仅是AI开发者，AI用户也将定义行业的最佳实践。行业还需要牢记伦理和风险，奥吉·乌德祖说。“合成数据将使许多事情更容易完成，”他说，“它将降低构建东西的成本。但其中一些事情将对社会产生深远影响。”奥吉·乌德祖表示，观察性、透明度和错误纠正必须融入模型中以确保其可靠性。这包括更新训练模型，使其反映准确的数据，而不是放大合成数据中的错误。一个担忧是模型失效，当一个AI模型基于其他AI模型产生的数据训练时，它会越来越远离现实，变得无用。“你越远离捕捉现实世界的多样性，回应可能会变得不正常，”奥吉·乌德祖说。“如果将信任、透明度和错误纠正相结合，这些问题是可以解决的。”

(以上内容均由Ai生成)