新工具帮助 LLM 开发人员选择更好的预训练数据

发布时间:2025年5月30日    来源:szf
新工具帮助 LLM 开发人员选择更好的预训练数据

快速阅读: 据《新堆栈》最新报道,新工具DataDecide助开发者选择更优预训练数据,降低LLM训练成本。研究显示,小型模型可准确预测大规模性能,帮助开发者在早期阶段优化数据选择,节省资源。尽管如此,数据质量与模型架构仍需进一步改善。

人工智能工程 / 大型语言模型 (LLM) 新工具助开发者选择更优预训练数据

2025年5月29日 上午9:00 来自 比尔·迪弗菲尔德
图片来源:布兰登·丘奇,Unsplash

在开发新的大型语言模型(LLM)时,选择合适的训练数据至关重要。“你训练模型的数据将决定其完全不同的能力,”华盛顿大学的AI研究员及艾伦人工智能研究所(艾伦AI)成员伊恩·马格努森告诉The New Stack。

AI的训练数据影响效率、偏见和准确性。“选择不当的数据集可能会放大偏见,降低任务表现,并需要大量的后续修正,”神经心脏公司的创始人斯里坎特·戈皮告诉The New Stack。

面对无数庞大的数据集或语料库,你怎么知道哪个会带来最佳结果?彻底测试需要大量的计算资源,这很快变得成本高昂。“随着模型变大,训练它们的成本也随之增加,”戈皮补充道。

“即使是较小的LLM,预训练也耗时且耗费资源,”云原生服务公司Caylent的首席技术官兰德尔·亨特,也是亚马逊网络服务合作伙伴,告诉The New Stack。“对额外预训练数据的投资回报进行准确预测可以减少无谓的模型训练运行。”

为了解决这个问题,4月份,艾伦AI发布了DataDecide——一套模型、基准和建议来指导数据集选择。“DataDecide是迄今为止最全面的公开可用的大规模和随机种子数据决策扫描,”马格努森在艾伦AI博客上写道。

研究发现,开发者不需要高成本的计算资源就能在数据集选择上达到80%的准确率。“你可以使用极少的计算资源来预测哪种选择是最优的,”马格努森告诉我们。

测试训练数据:通常是随意的

到目前为止,预训练数据的选择涉及大量试错。几乎每个人都会使用Common Crawl数据集,这是一个公开的网页档案,Caylent的亨特说。“之后,人们往往会根据他们希望模型做什么而有所不同。”

测试训练数据:通常是随意的

其他人也同意数据选择一直是由用户自行解决的。“尽管现代模型规模庞大,但数据选择过程仍然出人意料地随意,”戈皮说。团队通常会在没有实证测试的情况下使用开放数据集,依赖直觉和过去的经验。

MinIO对象存储系统的人工智能解决方案工程师基思·皮扬科夫斯基告诉The New Stack,在早期训练中涉及数据清洗、向量数据库准备以及对每份文档的安全检查。在企业环境中,通常从组织内部数据开始。

最严格的方法是在全规模下训练、基准测试并重复——但这不切实际,马格努森说。相反,在全面训练开始之前,进行小规模实验要经济得多。

“它使我们能够生成分析,描述用于预测预训练数据集所需的计算资源之间的关系,”他说。

为了评估模型性能,AI研究人员使用MMLU、ARC、HellaSwag和SocialIQA等基准来测试LLM在各种任务上的表现,如推理、数学、符号解释、社交智能等。在小规模基准测试中表现良好的数据集往往在大规模上也有良好表现。“你可以从这些关系中推断出它在下游任务中的表现,”马格努森说。

关键发现:降低LLM训练成本

艾伦AI在广泛的语料库和模型大小范围内测试了DataDecide,并使用10个基准来评估小型模型预测大规模性能的能力。这些发现虽然不是革命性的,但对于AI开发者和研究人员来说却很有用。

首先,艾伦AI发现小型模型(约1.5亿参数)可以以令人惊讶的准确性预测大规模结果。一些基准使用与百亿参数模型相比仅0.01%的计算资源就达到了超过80%的决策准确性。

艾伦AI在广泛的语料库和模型大小范围内测试了DataDecide,并使用10个基准来评估小型模型预测大规模性能的能力。这些发现虽然不是革命性的,但对于AI开发者和研究人员来说却很有用。

由于小型模型实验使用的计算资源比其他方法少,开发者不需要运行全规模测试来预测结果。“这项工作的承诺是降低训练期间的计算成本,”皮扬科夫斯基说。

艾伦AI发现,缩放定律并没有超越通过小型模型结果对数据集进行排名的简单方法。缩放定律是一种更复杂、成本更高的测试方法,旨在预测准确性如何随模型大小提高。目前,“只需在一个规模上进行消融测试即可,”马格努森建议。

亨特表示,这些发现应该让LLM开发者深思:“已经从数据量、计算资源和性能之间的经验研究中得出了缩放定律。艾伦AI的研究指出,我们可能需要重新审视其中的一些假设。”

不同基准所需的计算资源差异很大。在某些情况下,准确性早期就会达到平台期,所需计算资源远低于预期。例如,ARC Easy,一个包含多项选择题的小学科学问题测试,需要的资源最少。相比之下,HellaSwag专注于推理和句子完成,需求更高。

艾伦AI的研究对小型实验室和初创公司尤为重要,因为每一GPU小时都很重要。“在语言模型开发中最昂贵的阶段之一始终是预训练实验,”戈皮说。

选择数据集以微调AI任务

艾伦AI的研究也可能支持微调模型的开发。在这个阶段,数据选择成为一个战略问题,戈皮说。“实际上,从一开始就选择更好的数据可以减少后期复杂的微调和资源密集型修复的需求。”

人们常常认为更多的训练数据会导致更好的表现,但事实并非总是如此。每个LLM都有权衡,更多的训练数据甚至可能导致收益递减。这就是为什么专业化任务特定模型正在兴起的原因。

Gartner预测到2027年,小型专用模型的数量可能将超过大型模型三倍。

“如果一个组织拥有多个语料库可用于训练大型语言模型,并且没有足够的计算能力来在所有语料库上训练一个具有10亿或更多参数的大型语言模型,那么这项研究可以帮助他们选择能够产生最佳结果的语料库,”皮扬科夫斯基说。

DataDecide可以帮助开发者确定哪种数据最适合特定的大型语言模型应用场景——无论是代码补全、数学、推理还是艺术生成。“这有助于我们识别哪些信息对开发特定任务的能力最为关键,”马格努森说。

作为额外的好处,明确数据来源有助于企业遵守法规。“从头开始训练可以让你有信心做出这样的声明:你所训练的内容是基于可保证的现实,”马格努森说。“DataDecide帮助你全面了解基准测试及其利弊权衡。”

这是否有助于解决“垃圾进,垃圾出”问题?

更明智的数据决策似乎与经典的“垃圾进,垃圾出”问题密切相关。大型语言模型通常在数PB的非结构化、开放式的海量数据上进行训练,这使得很难检测错误、虚假信息、偏见、他人的知识产权或有害内容(即所谓的垃圾)。

皮扬科夫斯基指出,艾伦AI的研究有助于解决上游问题。“它可以用于初步筛选语料库,或者进行一系列小规模实验,以确定某些文档集合是否足够好,可以用于大型语言模型的微调。”

然而,DataDecide只是更大整体的一部分,亨特指出:“结合其他训练技术,这可能带来益处,但并非万能解决方案。”

戈皮也表达了同样的观点。“DataDecide使避免明显糟糕的数据选择变得更加容易,但它并没有完全解决更深层次的数据质量问题,”他说。将数据集与预测结果关联并不意味着自动实现道德或长期价值。

“DataDecide的优势在于早期展示比较效用,为预训练输入提供分类参考,”他补充道。“经典的‘垃圾进’问题变得更有规律可循,但仍未彻底解决。”

开发人员可以使用DataDecide在管道的早期识别支持其特定目标的数据。“DataDecide帮助你评估已有评估,从而做出更精准的新评估,”马格努森说。在某种意义上,它通过先测试结果的方式帮助反向推导哪些输入真正重要。

盲点依然存在

为预训练数据选择正确的数据集是一个重要的决定,它对最终效率和准确性有着重大影响。

“模型的行为更多地由其训练数据塑造,而不仅仅是架构,”戈皮说。无关或冗余的数据会导致低效并影响模型质量,因此训练数据描述成为人工智能开发中重要但常常被忽视的领域。

尽早剔除弱数据集可以节省计算资源并加速创新进程。然而,直到现在,开发人员缺乏一种可靠的方法来衡量他们的训练数据选择的质量。DataDecide填补了这一空白,助力模型开发中非正式步骤的标准化。

“模型的行为更多地由其训练数据塑造,而不仅仅是架构,”戈皮说。无关或冗余的数据会导致低效并影响模型质量,因此训练数据描述成为人工智能开发中重要但常常被忽视的领域。

尽管如此,仅靠数据选择并不能解决围绕数据质量和模型架构的更深层次问题。“数据集选择工具是一些所需工具中的一种有用的工具,”亨特说。“对于真正更强大的模型,我们需要比现在更多的架构技术。”

皮扬科夫斯基并不完全信服:为什么不直接使用检索增强生成(RAG)?“这允许所有语料库被使用,而不必通过大型语言模型运行所有内容。”

在企业环境中,他认为主要挑战在于将数据分割成不同的语料库,以反映模型必须学习的不同技能。

戈皮还提到优化可测量基准的风险,这些基准测试分数而不是实际表现。这些指标并不总是反映开放性、多语言或对抗性上下文中行为的表现。“没有定性审查、偏见检查或代表性分析,”他说,“这样的工具只能部分减轻与数据相关的风险。”

虽然没有单一工具可以解决人工智能的所有挑战,但DataDecide降低了做出具有深远影响的预训练决策的难度。正如亨特告诉TNS的那样:“这并没有大幅改变局面,但这是一个令人振奋的研究发现。”

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日