当 AI 推理出错时：Microsoft Research 显示令牌越多，问题就越多

快速阅读: 《VentureBeat 公司》消息，研究显示，大型语言模型通过推理时间扩展提升复杂推理能力的效果因模型、任务和问题难度而异。增加计算量不一定带来更好或更高效的解决方案。测试发现，不同模型在标记效率和成本稳定性上存在显著差异，这对企业应用高级AI推理有重要启示。

订阅我们的每日和周报，获取行业领先的AI报道的最新动态和独家内容。大型语言模型（LLMs）通过“推理时间扩展”技术在复杂推理方面的能力日益增强。然而，微软研究院的一项新研究表明，这些扩展方法的有效性并非普遍适用。性能提升在不同模型、任务和问题复杂度之间存在显著差异。核心发现是，在推理过程中简单地增加计算量并不能保证更好的或更高效的解决方案。这些发现可以帮助企业更好地理解成本波动和模型可靠性，因为他们希望将高级人工智能推理集成到自己的应用程序中。

测试扩展方法
微软研究院团队对九个最先进的基础模型进行了广泛的实证分析。这包括一些“传统”模型，如GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Pro和Llama 3.1 405B，以及专门通过推理时间扩展进行微调以增强推理能力的模型。这些模型包括OpenAI的o1和o3-mini、Anthropic的Claude 3.7 Sonnet、Google的Gemini 2 Flash Thinking和DeepSeek R1。他们使用三种不同的推理时间扩展方法评估了这些模型：

**标准思维链（CoT）**：基本方法，提示模型逐步回答问题。
**并行扩展**：模型为相同的问题生成多个独立的答案，并使用聚合器（如多数投票或选择评分最高的答案）得出最终结果。
**顺序扩展**：模型迭代生成答案，并利用批评者（可能是模型本身）的反馈在后续尝试中改进答案。

这些方法在八个具有挑战性的基准数据集上进行了测试，涵盖了广泛受益于逐步解决问题的任务：数学和STEM推理（AIME、Omni-MATH、GPQA）、日历规划（BA-Calendar）、NP难问题（3SAT、TSP）、导航（Maze）和空间推理（SpatialMap）。一些基准数据集包括难度级别不同的问题，使我们能够更细致地了解扩展方法如何随着问题变得困难而变化。“Omni-MATH、TSP、3SAT和BA-Calendar的难度标签可用性使我们可以分析推理时间扩展下准确性和标记使用如何随难度变化，这是一个仍需深入探索的角度，”研究人员在详细描述其发现的论文中写道。

研究人员通过分析准确性与计算成本（即生成的标记数）来评估LLM推理的帕累托前沿。这有助于识别模型实现其结果的效率。推理时间扩展帕累托前沿

信用：arXiv

他们还引入了“传统到推理差距”指标，该指标比较传统模型的最佳可能性能（使用理想的“最佳N”选择）与推理模型的平均性能，估计通过更好的训练或验证技术可实现的潜在收益。

更多的计算并不总是答案
这项研究提供了几个关键见解，挑战了关于推理时间扩展的常见假设：

**收益差异显著**：虽然经过推理调整的模型在这类任务上通常优于传统模型，但具体领域的任务改善程度差异很大。随着问题复杂度的增加，收益往往减少。例如，数学问题上的性能提升并不总能同等转化为科学推理或规划任务中的改进。

**标记效率低下普遍存在**：研究人员观察到即使在达到相似准确率的模型之间，标记消耗也存在高变异性。例如，在AIME 2025数学基准测试中，DeepSeek-R1使用的标记数量超过Claude 3.7 Sonnet的五倍以上，以获得大致相同的平均准确率。

**更多的标记并不意味着更高的准确率**：与直观的想法相反，即更长的推理链意味着更好的推理，研究表明这并不总是正确的。“令人惊讶的是，我们还观察到相对于同一模型，较长的生成有时可能是模型挣扎的标志，而不是改进的反映，”论文指出。“同样地，当比较不同的推理模型时，较高的标记使用并不总是与更高的准确率相关联。这些发现促使我们需要更目标明确且更具成本效益的扩展方法。”

**成本非确定性**：也许对企业用户来说最令人担忧的是，针对相同问题向同一模型重复查询可能导致高度变化的标记使用。这意味着运行查询的成本可能会显著波动，即使模型始终提供正确的答案。响应长度的变化（尖峰显示较小的方差）

信用：arXiv

**验证机制的潜力**：当用“完美验证器”模拟时，所有模型和基准测试的扩展性能均一致提高。

**传统模型有时可以匹配推理模型**：通过大幅增加推理调用次数（在某些实验中最多增加50倍），传统模型如GPT-4o有时可以接近专用推理模型的性能水平，特别是在较不复杂的任务上。然而，在高度复杂的设置中，这些收益迅速减少，表明蛮力扩展有其局限性。在某些任务上，GPT-4o的精度随着并行和顺序扩展继续提高。

信用：arXiv

对企业的启示
这些发现对开发人员和企业采用LLM具有重要意义。特别是“成本非确定性”这一问题尤为突出，使得预算规划变得困难。正如研究人员所指出的，“理想情况下，开发者和用户希望模型的每个实例的标记使用标准偏差较低，以便预测成本。”

“我们在[研究]中所做的分析可能对开发人员有用，作为工具来选择对于相同提示或不同提示而言波动较小的模型，”微软研究院高级首席研究经理贝斯米拉·努希告诉VentureBeat。“理想情况下，人们会选择对正确输入具有低标准偏差的模型。”

峰值蓝色的一致性模型在给定任务中始终生成相同数量的标记。

信用：arXiv

该研究还提供了关于模型准确率与响应长度之间相关性的良好见解。例如，以下图表显示，超过约11,000个标记长度的数学查询几乎不可能是正确的，这些生成应该在这一点停止或重新开始带有顺序反馈。然而，努希指出，允许这些事后缓解措施的模型在正确和错误样本之间也有更清晰的分离。“最终，模型构建者的责任也是思考如何减少准确率和成本的非确定性，我们预计随着方法变得更加成熟，这将发生很多变化，”努希说。“除了成本非确定性，准确率非确定性也适用。”

另一个重要的发现是一致的性能提升来自完美的验证器，这突显了一个未来工作的重要领域：构建强大且广泛应用的验证机制。“更强的验证器的可用性可以带来不同类型的影响，”努希说，比如改进推理的基础训练方法。“如果高效使用，这些也可以缩短推理痕迹。”

强大的验证器还可以成为企业代理人工智能解决方案的核心部分。许多企业利益相关者已经拥有这样的验证器，可能需要重新调整用于更代理的解决方案，如SAT求解器、物流有效性检查器等。

“未来的问题是如何将现有技术与AI驱动的界面相结合，以及连接两者的语言是什么，”努希说。“连接两者的需求源于用户不会总是以正式的方式提出查询，他们会想要使用自然语言界面并期望以类似格式或最终行动（例如提议会议邀请）的形式得到解决方案。”

VB每日的商业用例
每日洞察

如果你想给老板留下深刻印象，VB每日可以帮到你。我们将告诉你公司如何使用生成式人工智能，从监管变化到实际部署，以便你能分享见解以获得最大回报。立即订阅

阅读我们的隐私政策

感谢订阅。

查看更多VB新闻通讯

这里。

发生错误。

(以上内容均由Ai生成)