学习可能会导致 LLM 更擅长复杂推理
快速阅读: 据《麻省理工学院》最新报道,麻省理工研究显示,测试时训练可提升LLM在复杂任务的准确性六倍,通过更新模型参数实现。该方法结合上下文学习,增强模型适应性。
尽管大型语言模型(LLMs)拥有令人印象深刻的能力,但当面对需要复杂推理技能的挑战性新任务时,它们往往表现不佳。一家会计事务所的LLM可能在总结财务报告方面表现出色,但如果被要求预测市场趋势或识别欺诈交易,该模型可能会意外失败。为了使LLMs更具适应性,麻省理工学院的研究人员研究了一种特定的训练技术如何被战略性地部署,以提高模型在不熟悉、困难问题上的表现。他们表明,测试时训练是一种方法,在部署期间临时更新模型的一些内部结构,可以将准确性提高六倍。研究人员开发了一个实施测试时训练策略的框架,利用新任务的例子来最大化这些收益。他们的工作可以提高模型的灵活性,使通用的现成LLM能够适应需要规划或抽象的复杂任务。这可能导致在许多需要逻辑推理的应用中更准确的LLM,从医学诊断到供应链管理。
“真正的学习——我们在这里通过测试时训练所做的——是这些模型在部署后无法自行完成的。它们无法获得新技能或在某项任务上变得更好。但我们已经证明,如果你稍微推动模型进行实际的学习,你会看到性能的巨大提升。”该研究的第一作者Ekin Akyürek博士(PhD ’25)说道。
Akyürek与研究生Mehul Damani、Linlu Qiu、Han Guo和Jyothish Pari;本科生Adam Zweiger;以及资深作者Yoon Kim(电子工程与计算机科学系助理教授,计算机科学与人工智能实验室(CSAIL)成员)和Jacob Andreas(电子工程与计算机科学系副教授,CSAIL成员)共同撰写了这篇论文。这项研究将在国际机器学习大会(International Conference on Machine Learning)上展示。
应对困难领域
LLM用户通常尝试使用一种称为上下文学习(in-context learning)的技术来提高模型在新任务上的性能。他们向模型提供少量新任务的文本提示,以指导模型的输出。
但上下文学习并不总是适用于需要逻辑和推理的问题。
麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。
研究人员探讨了测试时训练如何与上下文学习相互作用。他们研究了设计选择,以最大化可以从通用LLM中获取的性能提升。
麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。
“我们发现测试时训练是一种更强的学习形式。虽然仅仅提供示例可以适度提高准确性,但用这些示例更新模型可以显著提高性能,特别是在具有挑战性的领域中。”Damani表示。
麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。
上下文学习需要一组小的任务示例,包括问题及其解答。研究人员利用这些示例创建了测试时训练所需的任务特定数据集。
麻省理工学院的研究人员研究了如何将测试时训练与上下文学习结合使用,以提高这些挑战性任务的表现。测试时训练涉及使用与当前任务相关的少量新数据来更新一些模型参数——模型用来进行预测的内部变量。
为了扩大这个数据集的规模,他们通过轻微改变示例中的问题和解决方案来创建新的输入,例如水平翻转某些输入数据。他们发现,用这个新数据集的输出来训练模型可以达到最佳性能。
此外,研究人员使用一种称为低秩适配(low-rank adaptation)的技术仅更新少量模型参数,这提高了测试时训练过程的效率。
“这一点很重要,因为如果我们的方法要在现实世界中应用,它必须高效。我们发现,只需少量的参数训练就可以获得巨大的准确性提升。”Akyürek说。
培养新技能
简化流程至关重要,因为测试时训练是按实例进行的,即用户需要为每个任务单独执行此操作。对模型的更新只是暂时的,模型在做出预测后会恢复到原始状态。
Akyürek补充道,一个通常在一分钟内就能回答查询的模型,使用测试时训练可能需要五到十分钟才能提供答案。
“我们不会为所有用户查询这样做,但如果有一个非常困难的任务希望模型能很好地解决,这很有用。也有可能有些任务对于LLM来说太难了,没有这种方法就无法解决。”他说。
研究人员在两个极复杂问题的基准数据集上测试了他们的方法,如智商谜题。与仅使用上下文学习的技术相比,它的准确性提高了六倍。
涉及结构化模式的任务或使用完全不熟悉类型的数据的任务显示出最大的性能提升。
“对于简单的任务,上下文学习可能还行。但更新参数本身可能在模型中发展出新的技能。”Damani表示。
未来,研究人员希望利用这些见解来开发持续学习的模型。
长期目标是一个LLM,给定一个查询,它可以自动判断是否需要使用测试时训练来更新参数,或者是否可以使用上下文学习解决任务,并且无需人工干预即可实施最佳的测试时训练策略。
这项工作部分得到了MIT-IBM Watson AI Lab和国家科学基金会的支持。
(以上内容均由Ai生成)