新工具帮助 LLM 开发人员选择更好的预训练数据

快速阅读: 据《新堆栈》最新报道，新工具DataDecide助开发者选择更优预训练数据，降低LLM训练成本。研究显示，小型模型可准确预测大规模性能，帮助开发者在早期阶段优化数据选择，节省资源。尽管如此，数据质量与模型架构仍需进一步改善。

人工智能工程 / 大型语言模型 (LLM) 新工具助开发者选择更优预训练数据

2025年5月29日上午9:00 来自比尔·迪弗菲尔德
图片来源：布兰登·丘奇，Unsplash

在开发新的大型语言模型（LLM）时，选择合适的训练数据至关重要。“你训练模型的数据将决定其完全不同的能力，”华盛顿大学的AI研究员及艾伦人工智能研究所（艾伦AI）成员伊恩·马格努森告诉The New Stack。

AI的训练数据影响效率、偏见和准确性。“选择不当的数据集可能会放大偏见，降低任务表现，并需要大量的后续修正，”神经心脏公司的创始人斯里坎特·戈皮告诉The New Stack。

面对无数庞大的数据集或语料库，你怎么知道哪个会带来最佳结果？彻底测试需要大量的计算资源，这很快变得成本高昂。“随着模型变大，训练它们的成本也随之增加，”戈皮补充道。

“即使是较小的LLM，预训练也耗时且耗费资源，”云原生服务公司Caylent的首席技术官兰德尔·亨特，也是亚马逊网络服务合作伙伴，告诉The New Stack。“对额外预训练数据的投资回报进行准确预测可以减少无谓的模型训练运行。”

为了解决这个问题，4月份，艾伦AI发布了DataDecide——一套模型、基准和建议来指导数据集选择。“DataDecide是迄今为止最全面的公开可用的大规模和随机种子数据决策扫描，”马格努森在艾伦AI博客上写道。

研究发现，开发者不需要高成本的计算资源就能在数据集选择上达到80%的准确率。“你可以使用极少的计算资源来预测哪种选择是最优的，”马格努森告诉我们。

测试训练数据：通常是随意的

到目前为止，预训练数据的选择涉及大量试错。几乎每个人都会使用Common Crawl数据集，这是一个公开的网页档案，Caylent的亨特说。“之后，人们往往会根据他们希望模型做什么而有所不同。”

测试训练数据：通常是随意的

其他人也同意数据选择一直是由用户自行解决的。“尽管现代模型规模庞大，但数据选择过程仍然出人意料地随意，”戈皮说。团队通常会在没有实证测试的情况下使用开放数据集，依赖直觉和过去的经验。

MinIO对象存储系统的人工智能解决方案工程师基思·皮扬科夫斯基告诉The New Stack，在早期训练中涉及数据清洗、向量数据库准备以及对每份文档的安全检查。在企业环境中，通常从组织内部数据开始。

最严格的方法是在全规模下训练、基准测试并重复——但这不切实际，马格努森说。相反，在全面训练开始之前，进行小规模实验要经济得多。

“它使我们能够生成分析，描述用于预测预训练数据集所需的计算资源之间的关系，”他说。

为了评估模型性能，AI研究人员使用MMLU、ARC、HellaSwag和SocialIQA等基准来测试LLM在各种任务上的表现，如推理、数学、符号解释、社交智能等。在小规模基准测试中表现良好的数据集往往在大规模上也有良好表现。“你可以从这些关系中推断出它在下游任务中的表现，”马格努森说。

关键发现：降低LLM训练成本

艾伦AI在广泛的语料库和模型大小范围内测试了DataDecide，并使用10个基准来评估小型模型预测大规模性能的能力。这些发现虽然不是革命性的，但对于AI开发者和研究人员来说却很有用。

首先，艾伦AI发现小型模型（约1.5亿参数）可以以令人惊讶的准确性预测大规模结果。一些基准使用与百亿参数模型相比仅0.01%的计算资源就达到了超过80%的决策准确性。

由于小型模型实验使用的计算资源比其他方法少，开发者不需要运行全规模测试来预测结果。“这项工作的承诺是降低训练期间的计算成本，”皮扬科夫斯基说。

艾伦AI发现，缩放定律并没有超越通过小型模型结果对数据集进行排名的简单方法。缩放定律是一种更复杂、成本更高的测试方法，旨在预测准确性如何随模型大小提高。目前，“只需在一个规模上进行消融测试即可，”马格努森建议。

亨特表示，这些发现应该让LLM开发者深思：“已经从数据量、计算资源和性能之间的经验研究中得出了缩放定律。艾伦AI的研究指出，我们可能需要重新审视其中的一些假设。”

不同基准所需的计算资源差异很大。在某些情况下，准确性早期就会达到平台期，所需计算资源远低于预期。例如，ARC Easy，一个包含多项选择题的小学科学问题测试，需要的资源最少。相比之下，HellaSwag专注于推理和句子完成，需求更高。

艾伦AI的研究对小型实验室和初创公司尤为重要，因为每一GPU小时都很重要。“在语言模型开发中最昂贵的阶段之一始终是预训练实验，”戈皮说。

选择数据集以微调AI任务

艾伦AI的研究也可能支持微调模型的开发。在这个阶段，数据选择成为一个战略问题，戈皮说。“实际上，从一开始就选择更好的数据可以减少后期复杂的微调和资源密集型修复的需求。”

人们常常认为更多的训练数据会导致更好的表现，但事实并非总是如此。每个LLM都有权衡，更多的训练数据甚至可能导致收益递减。这就是为什么专业化任务特定模型正在兴起的原因。

Gartner预测到2027年，小型专用模型的数量可能将超过大型模型三倍。

“如果一个组织拥有多个语料库可用于训练大型语言模型，并且没有足够的计算能力来在所有语料库上训练一个具有10亿或更多参数的大型语言模型，那么这项研究可以帮助他们选择能够产生最佳结果的语料库，”皮扬科夫斯基说。

DataDecide可以帮助开发者确定哪种数据最适合特定的大型语言模型应用场景——无论是代码补全、数学、推理还是艺术生成。“这有助于我们识别哪些信息对开发特定任务的能力最为关键，”马格努森说。

作为额外的好处，明确数据来源有助于企业遵守法规。“从头开始训练可以让你有信心做出这样的声明：你所训练的内容是基于可保证的现实，”马格努森说。“DataDecide帮助你全面了解基准测试及其利弊权衡。”

这是否有助于解决“垃圾进，垃圾出”问题？

更明智的数据决策似乎与经典的“垃圾进，垃圾出”问题密切相关。大型语言模型通常在数PB的非结构化、开放式的海量数据上进行训练，这使得很难检测错误、虚假信息、偏见、他人的知识产权或有害内容（即所谓的垃圾）。

皮扬科夫斯基指出，艾伦AI的研究有助于解决上游问题。“它可以用于初步筛选语料库，或者进行一系列小规模实验，以确定某些文档集合是否足够好，可以用于大型语言模型的微调。”

然而，DataDecide只是更大整体的一部分，亨特指出：“结合其他训练技术，这可能带来益处，但并非万能解决方案。”

戈皮也表达了同样的观点。“DataDecide使避免明显糟糕的数据选择变得更加容易，但它并没有完全解决更深层次的数据质量问题，”他说。将数据集与预测结果关联并不意味着自动实现道德或长期价值。

“DataDecide的优势在于早期展示比较效用，为预训练输入提供分类参考，”他补充道。“经典的‘垃圾进’问题变得更有规律可循，但仍未彻底解决。”

开发人员可以使用DataDecide在管道的早期识别支持其特定目标的数据。“DataDecide帮助你评估已有评估，从而做出更精准的新评估，”马格努森说。在某种意义上，它通过先测试结果的方式帮助反向推导哪些输入真正重要。

盲点依然存在

为预训练数据选择正确的数据集是一个重要的决定，它对最终效率和准确性有着重大影响。

“模型的行为更多地由其训练数据塑造，而不仅仅是架构，”戈皮说。无关或冗余的数据会导致低效并影响模型质量，因此训练数据描述成为人工智能开发中重要但常常被忽视的领域。

尽早剔除弱数据集可以节省计算资源并加速创新进程。然而，直到现在，开发人员缺乏一种可靠的方法来衡量他们的训练数据选择的质量。DataDecide填补了这一空白，助力模型开发中非正式步骤的标准化。

尽管如此，仅靠数据选择并不能解决围绕数据质量和模型架构的更深层次问题。“数据集选择工具是一些所需工具中的一种有用的工具，”亨特说。“对于真正更强大的模型，我们需要比现在更多的架构技术。”

皮扬科夫斯基并不完全信服：为什么不直接使用检索增强生成（RAG）？“这允许所有语料库被使用，而不必通过大型语言模型运行所有内容。”

在企业环境中，他认为主要挑战在于将数据分割成不同的语料库，以反映模型必须学习的不同技能。

戈皮还提到优化可测量基准的风险，这些基准测试分数而不是实际表现。这些指标并不总是反映开放性、多语言或对抗性上下文中行为的表现。“没有定性审查、偏见检查或代表性分析，”他说，“这样的工具只能部分减轻与数据相关的风险。”

虽然没有单一工具可以解决人工智能的所有挑战，但DataDecide降低了做出具有深远影响的预训练决策的难度。正如亨特告诉TNS的那样：“这并没有大幅改变局面，但这是一个令人振奋的研究发现。”

(以上内容均由Ai生成)

新工具帮助 LLM 开发人员选择更好的预训练数据

你可能还想读

本周科技大事件：谷歌发布Pixel 10，Gamescom揭晓重磅游戏

SK海力士凭借HBM激增首次超越三星，领跑全球内存市场

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

“这改变了一切”：谷歌的人工智能模式迫使品牌重新考虑搜索策略

在 Android 上用更智能的应用程序替换 Google Assistant

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争：报告

Meta 超出预期，为“个人超级智能”做准备