学习可能会导致 LLM 更擅长复杂推理

发布时间:2025年7月8日    来源:szf
学习可能会导致 LLM 更擅长复杂推理

快速阅读: 据《麻省理工学院》最新报道,麻省理工研究显示,测试时训练可提升LLM在复杂任务的准确性六倍,通过更新模型参数实现。该方法结合上下文学习,增强模型适应性。

尽管大型语言模型(LLMs)拥有令人印象深刻的能力,但当面对需要复杂推理技能的挑战性新任务时,它们往往表现不佳。一家会计事务所的LLM可能在总结财务报告方面表现出色,但如果被要求预测市场趋势或识别欺诈交易,该模型可能会意外失败。为了使LLMs更具适应性,麻省理工学院的研究人员研究了一种特定的训练技术如何被战略性地部署,以提高模型在不熟悉、困难问题上的表现。他们表明,测试时训练是一种方法,在部署期间临时更新模型的一些内部结构,可以将准确性提高六倍。研究人员开发了一个实施测试时训练策略的框架,利用新任务的例子来最大化这些收益。他们的工作可以提高模型的灵活性,使通用的现成LLM能够适应需要规划或抽象的复杂任务。这可能导致在许多需要逻辑推理的应用中更准确的LLM,从医学诊断到供应链管理。

“真正的学习——我们在这里通过测试时训练所做的——是这些模型在部署后无法自行完成的。它们无法获得新技能或在某项任务上变得更好。但我们已经证明,如果你稍微推动模型进行实际的学习,你会看到性能的巨大提升。”该研究的第一作者Ekin Akyürek博士(PhD ’25)说道。

Akyürek与研究生Mehul Damani、Linlu Qiu、Han Guo和Jyothish Pari;本科生Adam Zweiger;以及资深作者Yoon Kim(电子工程与计算机科学系助理教授,计算机科学与人工智能实验室(CSAIL)成员)和Jacob Andreas(电子工程与计算机科学系副教授,CSAIL成员)共同撰写了这篇论文。这项研究将在国际机器学习大会(International Conference on Machine Learning)上展示。

应对困难领域

LLM用户通常尝试使用一种称为上下文学习(in-context learning)的技术来提高模型在新任务上的性能。他们向模型提供少量新任务的文本提示,以指导模型的输出。

但上下文学习并不总是适用于需要逻辑和推理的问题。

麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。

研究人员探讨了测试时训练如何与上下文学习相互作用。他们研究了设计选择,以最大化可以从通用LLM中获取的性能提升。

麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。

“我们发现测试时训练是一种更强的学习形式。虽然仅仅提供示例可以适度提高准确性,但用这些示例更新模型可以显著提高性能,特别是在具有挑战性的领域中。”Damani表示。

麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。

上下文学习需要一组小的任务示例,包括问题及其解答。研究人员利用这些示例创建了测试时训练所需的任务特定数据集。

麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。

为了扩大这个数据集的规模,他们通过轻微改变示例中的问题和解决方案来创建新的输入,例如水平翻转某些输入数据。他们发现,用这个新数据集的输出来训练模型可以达到最佳性能。

此外,研究人员使用一种称为低秩适配(low-rank adaptation)的技术仅更新少量模型参数,这提高了测试时训练过程的效率。

“这一点很重要,因为如果我们的方法要在现实世界中应用,它必须高效。我们发现,只需少量的参数训练就可以获得巨大的准确性提升。”Akyürek说。

培养新技能

简化流程至关重要,因为测试时训练是按实例进行的,即用户需要为每个任务单独执行此操作。对模型的更新只是暂时的,模型在做出预测后会恢复到原始状态。

Akyürek补充道,一个通常在一分钟内就能回答查询的模型,使用测试时训练可能需要五到十分钟才能提供答案。

“我们不会为所有用户查询这样做,但如果有一个非常困难的任务希望模型能很好地解决,这很有用。也有可能有些任务对于LLM来说太难了,没有这种方法就无法解决。”他说。

研究人员在两个极复杂问题的基准数据集上测试了他们的方法,如智商谜题。与仅使用上下文学习的技术相比,它的准确性提高了六倍。

涉及结构化模式的任务或使用完全不熟悉类型的数据的任务显示出最大的性能提升。

“对于简单的任务,上下文学习可能还行。但更新参数本身可能在模型中发展出新的技能。”Damani表示。

未来,研究人员希望利用这些见解来开发持续学习的模型。

长期目标是一个LLM,给定一个查询,它可以自动判断是否需要使用测试时训练来更新参数,或者是否可以使用上下文学习解决任务,并且无需人工干预即可实施最佳的测试时训练策略。

这项工作部分得到了MIT-IBM Watson AI Lab和国家科学基金会的支持。

(以上内容均由Ai生成)

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日
苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

快速阅读: 据《香港标准》称,下载《标准》App,获取新闻、动态和大事:https://www.thestandard.com.hk/appdownload 下载《标准》应用程序,及时获取新闻、最新动态和重大事件: https://www. […]

发布时间:2025年8月1日