新技术帮助 LLM 控制 CoT 长度，在不增加计算成本的情况下优化推理

快速阅读: 据《VentureBeat 公司》称，卡内基梅隆大学的研究人员开发了一种名为长度控制策略优化（LCPO）的技术，通过训练让大型语言模型在保持推理准确性的同时控制链式思维（CoT）的长度。实验表明，基于LCPO训练的模型在准确性与成本间取得良好平衡，并在某些任务中优于更大模型。研究成果有助于在不增加过多成本的情况下提升AI的实际应用能力。相关代码和模型权重已开源。

订阅我们的每日或每周简报，获取行业领先的人工智能报道的最新动态和独家内容。了解更多通过链式思维推理（CoT）——模型在得出答案前将问题分解为可处理的“想法”的过程——已成为最新一代前沿大型语言模型（LLMs）不可或缺的一部分。然而，当模型生成过多的CoT标记时，推理模型的推理成本会迅速增加。在一篇新论文中，卡内基梅隆大学的研究人员提出了一种LLM训练技术，让开发者能更好地控制CoT的长度。通过链式思维推理（CoT）——模型在得出答案前将问题分解为可处理的“想法”的过程——已成为最新一代前沿大型语言模型（LLMs）不可或缺的一部分。该技术名为长度控制策略优化（LCPO），它通过使模型在提供正确答案的同时，也将“思维”控制在预设的标记预算范围内来实现这一点。实验表明，基于LCPO训练的模型在准确性和成本之间提供了平稳的权衡，并且在相同的推理长度上能意外地优于更大的模型。

LLM性能导致较长的CoT链条，如OpenAI的o1和DeepSeek-R1等推理模型是通过强化学习（RL）进行训练，以使用测试时间扩展并生成CoT跟踪，然后再生成答案。实证证据表明，当模型“思考”得越长，它们在推理任务上的表现往往越好。例如，R1最初是在没有人工标注示例的情况下仅通过纯RL进行训练的。其中一个见解是，随着模型性能的提高，它还学会了生成更长的CoT跟踪。

如OpenAI的o1和DeepSeek-R1等推理模型是通过强化学习（RL）进行训练，以使用测试时间扩展并生成CoT跟踪，然后再生成答案。实证证据表明，当模型“思考”得越长，它们在推理任务上的表现往往越好。一般而言，较长的CoT链条会导致更准确的响应，但它们也会在大规模应用推理模型时造成计算瓶颈。目前对测试时间的计算预算几乎没有控制，序列很容易伸展到数万个标记而不会提供显著的收益。尽管有一些尝试控制推理链条的长度，但它们往往会降低模型的性能。

长度控制策略优化（LCPO）解析经典RL方法仅训练LLMs以获得正确的响应。LCPO通过引入两个训练目标改变了这一范式：1）获得正确的结果，并保持CoT链条在特定标记长度以内。因此，如果模型产生了正确的响应但生成了过多的CoT标记，它将受到惩罚并被迫想出一个推理链条，以相同的答案但更小的标记预算来达到目标。研究人员写道：“LCPO训练的模型学会了满足长度约束，同时优化推理性能，而不是依赖手工设计的启发式方法。”

经典RL方法仅训练LLMs以获得正确的响应。LCPO通过引入两个训练目标改变了这一范式：1）获得正确的结果，并保持CoT链条在特定标记长度以内。因此，如果模型产生了正确的响应但生成了过多的CoT标记，它将受到惩罚并被迫想出一个推理链条，以相同的答案但更小的标记预算来达到目标。他们提出了两种LCPO变体：（1）LCPO-精确版，要求生成的推理必须完全等于目标长度；（2）LCPO-最大版，要求输出长度不超过目标长度。为了测试这项技术，研究人员在一个参数量为15亿的推理模型（Qwen-Distilled-R1-1.5B）上微调了这两种提出的LCPO方案，创建了L1-max和L1-exact模型。训练基于具有明确和可验证结果的数学问题。然而，评估包括数学问题以及分布外任务，如大规模多任务语言理解（MMLU）技术和研究生水平的Google-proof问答基准（GPQA）。

他们的研究结果显示，L1模型在标记预算和推理性能之间精确平衡，在短而高效的推理和长而准确的推理之间平滑过渡。重要的是，在某些任务上，L1模型可以在更低的标记预算下重现原始推理模型的性能。与仅有的其他限制CoT长度的方法S1相比，L1模型在不同的标记预算上显示出高达150%的性能提升。研究人员写道：“这种显著差异可以归因于两个关键因素：（1）L1智能地调整其CoT以适应指定的长度约束，而不破坏推理过程，而S1往往在推理过程中截断；（2）L1明确地被训练生成不同长度的高质量推理链条，有效地从较长链条中提炼推理模式到较短链条中。”

在非推理对应物上，L1高出5%，在GPT-4o上高出2%。“据我们所知，这是首次证明一个15亿参数的模型能够在使用相同生成长度的情况下优于前沿模型如GPT-4o。”研究人员写道。有趣的是，模型的CoT显示它学会了根据其标记预算调整其推理过程。例如，在较长的预算下，模型更有可能生成与自我纠正和验证相关的标记（即，“但是”和“等等”）以及结论性话语（即，“因此”和“所以”）。

基于LCPO训练的模型根据其标记预算调整其推理链条（来源：arXiv）

除了在标准数学推理设置中改进长度控制外，L1模型在分布外任务中表现出令人惊讶的良好泛化能力，包括GPQA和MMLU。这项关于可以调整推理预算的新研究方向对于实际应用具有重要意义，为企业提供了在不产生失控费用的情况下扩展推理模型的能力。这是一个强大替代方案，而不是简单地部署更大、更昂贵的模型——并且可能是使AI在高容量、现实世界的应用中更具经济可行性的重要因素。

研究人员已经开源了LCPO的代码和L1模型的权重。VB每日关于商业应用场景的每日洞察

如果你想给老板留下深刻印象，VB每日可以帮你做到。我们为你提供公司在生成式人工智能方面的内部信息，从监管变化到实际部署，以便你可以分享见解以实现最大ROI。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻通讯。发生错误。

(以上内容均由Ai生成)