QwenLong-L1 解决了难倒当前 LLM 的长上下文推理挑战

快速阅读: 《VentureBeat 公司》消息，阿里巴巴推出QwenLong-L1框架，助力大型语言模型处理超长输入，提升企业应用场景能力。该框架通过多阶段强化学习方法，改善长上下文推理，已在文档问答等任务中表现出色，可应用于法律、金融和客服等领域。

加入我们的每日和每周通讯，获取领先行业的人工智能报道最新动态及独家内容。

阿里巴巴集团推出QwenLong-L1，这是一种新框架，能让大型语言模型（LLMs）处理超长输入。这一突破可能解锁一系列企业应用场景，如需模型从广泛文件中提取见解，比如详尽的公司档案、冗长的财务报表或复杂的法律合同。

**人工智能长上下文推理的挑战**

大型推理模型（LRMs）近期在推理能力上的进步，尤其是通过强化学习（RL），显著提升了它们解决问题的能力。研究表明，当使用强化学习微调训练时，LRMs获得了类似人类“缓慢思考”的技能，在这种情况下，它们会发展出复杂的策略来应对复杂任务。然而，这些改进主要是在模型处理相对较短的文本片段时观察到的，通常大约为4000个标记。将模型的推理能力扩展到更长上下文（例如12万标记）的能力仍然是一个重大挑战。这种长上下文推理需要对整个上下文有强大的理解，并且能够进行多步骤分析。“这一限制对需要与外部知识互动的实际应用构成了重大障碍，例如深度研究，其中LRMs必须从知识密集型环境中收集和处理信息，”QwenLong-L1开发人员在其论文中写道。

强化学习训练模型具有挑战性，常常导致高效学习和不稳定的优化过程。模型难以收敛到良好解决方案，或者失去探索多样化推理路径的能力。

**QwenLong-L1：多阶段方法**

QwenLong-L1是一种强化学习框架，旨在帮助LRMs从擅长处理短文本过渡到在长上下文中实现稳健的泛化。该框架通过精心设计的多阶段过程增强现有的短上下文LRMs：

**预热监督微调（SFT）：**
模型首先经历一个SFT阶段，在此期间，它在长上下文推理的例子上进行训练。这一阶段建立了一个坚实的基础，使模型能够从长输入中准确地定位信息。它有助于发展理解上下文、生成逻辑推理链以及提取答案的基本能力。

**课程引导的阶段性强化学习：**
在这个阶段，模型通过多个阶段进行训练，输入文档的目标长度逐渐增加。这种系统性的逐步方法帮助模型稳定地适应其推理策略，从较短的上下文过渡到越来越长的上下文。它避免了当模型突然被训练处理非常长的文本时常见的不稳定现象。

**难度感知回顾采样：**
最终的训练阶段结合了前一阶段训练中的具有挑战性的例子，确保模型继续从最困难的问题中学习。这优先考虑困难实例，鼓励模型探索更多样化和复杂的推理路径。

**QwenLong-L1流程**
来源：arXiv

除了这种结构化的训练，QwenLong-L1还采用了一种独特的奖励系统。虽然短上下文推理任务的训练通常依赖严格的基于规则的奖励（例如数学问题中的正确答案），但QwenLong-L1采用了混合奖励机制。这结合了基于规则的验证，通过检查严格遵守正确性标准来确保精确性，以及“大型语言模型作为裁判”。这个裁判模型将生成的答案与真实情况的语义性进行比较，允许更多的灵活性，并更好地处理在处理长而细微的文档时正确答案可以以多种方式表达的情况。

**测试QwenLong-L1**

阿里巴巴团队使用文档问答（DocQA）作为主要任务评估了QwenLong-L1。这一场景对企业需求高度相关，其中AI必须理解密集文档以回答复杂的问题。在七个长上下文DocQA基准测试中得到的结果显示了QwenLong-L1的能力。值得注意的是，基于DeepSeek-R1-Distill-Qwen-32B的QWENLONG-L1-32B模型的表现与Anthropic的Claude-3.7 Sonnet Thinking相当，并优于OpenAI的o3-mini和Qwen3-235B-A22B等模型。较小的QWENLONG-L1-14B模型也优于Google的Gemini 2.0 Flash Thinking和Qwen3-32B。

来源：arXiv

与现实世界应用相关的另一个重要发现是，强化学习训练如何使模型发展出专门的长上下文推理行为。论文指出，使用QwenLong-L1训练的模型在“定位”（将答案链接到文档的具体部分）、“子目标设定”（分解复杂问题）、“回溯”（在推理过程中识别和纠正自己的错误）和“验证”（再次检查答案）方面表现更好。例如，基础模型可能会被财务文件中的无关细节分心，或者陷入过度分析无关信息的循环中，而经过QwenLong-L1训练的模型展示了有效的自我反思能力。它能够成功过滤掉这些干扰信息，从错误的路径中回溯，并得出正确的答案。

**与现实世界应用相关的另一个重要发现**

强化学习训练如何使模型发展出专门的长上下文推理行为。论文指出，使用QwenLong-L1训练的模型在“定位”（将答案链接到文档的具体部分）、“子目标设定”（分解复杂问题）、“回溯”（在推理过程中识别和纠正自己的错误）和“验证”（再次检查答案）方面表现更好。像QwenLong-L1这样的技术可以显著扩大AI在企业中的实用性。潜在的应用包括法律科技（分析数千页的法律文件）、金融（深入研究年度报告和财务文件以评估风险或寻找投资机会）和客户服务（分析长期客户交互历史以提供更明智的支持）。

研究人员已经发布了QwenLong-L1配方的代码和训练模型的权重。

**每日商业用例洞察 VB Daily**

如果你想给老板留下深刻印象，VB Daily可以帮到你。我们为你提供公司如何使用生成式人工智能的内幕消息，从监管变化到实际部署，以便你可以分享见解以获得最大化投资回报率。立即订阅阅读我们的隐私政策。

感谢订阅。查看更多VB新闻通讯。

发生错误。

(以上内容均由Ai生成)