当 AI 推理出错时:Microsoft Research 显示令牌越多,问题就越多

发布时间:2025年4月16日    来源:szf
当 AI 推理出错时:Microsoft Research 显示令牌越多,问题就越多

快速阅读: 《VentureBeat 公司》消息,研究显示,大型语言模型通过推理时间扩展提升复杂推理能力的效果因模型、任务和问题难度而异。增加计算量不一定带来更好或更高效的解决方案。测试发现,不同模型在标记效率和成本稳定性上存在显著差异,这对企业应用高级AI推理有重要启示。

订阅我们的每日和周报,获取行业领先的AI报道的最新动态和独家内容。大型语言模型(LLMs)通过“推理时间扩展”技术在复杂推理方面的能力日益增强。然而,微软研究院的一项新研究表明,这些扩展方法的有效性并非普遍适用。性能提升在不同模型、任务和问题复杂度之间存在显著差异。核心发现是,在推理过程中简单地增加计算量并不能保证更好的或更高效的解决方案。这些发现可以帮助企业更好地理解成本波动和模型可靠性,因为他们希望将高级人工智能推理集成到自己的应用程序中。

测试扩展方法
微软研究院团队对九个最先进的基础模型进行了广泛的实证分析。这包括一些“传统”模型,如GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Pro和Llama 3.1 405B,以及专门通过推理时间扩展进行微调以增强推理能力的模型。这些模型包括OpenAI的o1和o3-mini、Anthropic的Claude 3.7 Sonnet、Google的Gemini 2 Flash Thinking和DeepSeek R1。他们使用三种不同的推理时间扩展方法评估了这些模型:

**标准思维链(CoT)**:基本方法,提示模型逐步回答问题。
**并行扩展**:模型为相同的问题生成多个独立的答案,并使用聚合器(如多数投票或选择评分最高的答案)得出最终结果。
**顺序扩展**:模型迭代生成答案,并利用批评者(可能是模型本身)的反馈在后续尝试中改进答案。

这些方法在八个具有挑战性的基准数据集上进行了测试,涵盖了广泛受益于逐步解决问题的任务:数学和STEM推理(AIME、Omni-MATH、GPQA)、日历规划(BA-Calendar)、NP难问题(3SAT、TSP)、导航(Maze)和空间推理(SpatialMap)。一些基准数据集包括难度级别不同的问题,使我们能够更细致地了解扩展方法如何随着问题变得困难而变化。“Omni-MATH、TSP、3SAT和BA-Calendar的难度标签可用性使我们可以分析推理时间扩展下准确性和标记使用如何随难度变化,这是一个仍需深入探索的角度,”研究人员在详细描述其发现的论文中写道。

研究人员通过分析准确性与计算成本(即生成的标记数)来评估LLM推理的帕累托前沿。这有助于识别模型实现其结果的效率。推理时间扩展帕累托前沿

信用:arXiv

他们还引入了“传统到推理差距”指标,该指标比较传统模型的最佳可能性能(使用理想的“最佳N”选择)与推理模型的平均性能,估计通过更好的训练或验证技术可实现的潜在收益。

更多的计算并不总是答案
这项研究提供了几个关键见解,挑战了关于推理时间扩展的常见假设:

**收益差异显著**:虽然经过推理调整的模型在这类任务上通常优于传统模型,但具体领域的任务改善程度差异很大。随着问题复杂度的增加,收益往往减少。例如,数学问题上的性能提升并不总能同等转化为科学推理或规划任务中的改进。

**标记效率低下普遍存在**:研究人员观察到即使在达到相似准确率的模型之间,标记消耗也存在高变异性。例如,在AIME 2025数学基准测试中,DeepSeek-R1使用的标记数量超过Claude 3.7 Sonnet的五倍以上,以获得大致相同的平均准确率。

**更多的标记并不意味着更高的准确率**:与直观的想法相反,即更长的推理链意味着更好的推理,研究表明这并不总是正确的。“令人惊讶的是,我们还观察到相对于同一模型,较长的生成有时可能是模型挣扎的标志,而不是改进的反映,”论文指出。“同样地,当比较不同的推理模型时,较高的标记使用并不总是与更高的准确率相关联。这些发现促使我们需要更目标明确且更具成本效益的扩展方法。”

**成本非确定性**:也许对企业用户来说最令人担忧的是,针对相同问题向同一模型重复查询可能导致高度变化的标记使用。这意味着运行查询的成本可能会显著波动,即使模型始终提供正确的答案。响应长度的变化(尖峰显示较小的方差)

信用:arXiv

**验证机制的潜力**:当用“完美验证器”模拟时,所有模型和基准测试的扩展性能均一致提高。

**传统模型有时可以匹配推理模型**:通过大幅增加推理调用次数(在某些实验中最多增加50倍),传统模型如GPT-4o有时可以接近专用推理模型的性能水平,特别是在较不复杂的任务上。然而,在高度复杂的设置中,这些收益迅速减少,表明蛮力扩展有其局限性。在某些任务上,GPT-4o的精度随着并行和顺序扩展继续提高。

信用:arXiv

对企业的启示
这些发现对开发人员和企业采用LLM具有重要意义。特别是“成本非确定性”这一问题尤为突出,使得预算规划变得困难。正如研究人员所指出的,“理想情况下,开发者和用户希望模型的每个实例的标记使用标准偏差较低,以便预测成本。”

“我们在[研究]中所做的分析可能对开发人员有用,作为工具来选择对于相同提示或不同提示而言波动较小的模型,”微软研究院高级首席研究经理贝斯米拉·努希告诉VentureBeat。“理想情况下,人们会选择对正确输入具有低标准偏差的模型。”

峰值蓝色的一致性模型在给定任务中始终生成相同数量的标记。

信用:arXiv

该研究还提供了关于模型准确率与响应长度之间相关性的良好见解。例如,以下图表显示,超过约11,000个标记长度的数学查询几乎不可能是正确的,这些生成应该在这一点停止或重新开始带有顺序反馈。然而,努希指出,允许这些事后缓解措施的模型在正确和错误样本之间也有更清晰的分离。“最终,模型构建者的责任也是思考如何减少准确率和成本的非确定性,我们预计随着方法变得更加成熟,这将发生很多变化,”努希说。“除了成本非确定性,准确率非确定性也适用。”

另一个重要的发现是一致的性能提升来自完美的验证器,这突显了一个未来工作的重要领域:构建强大且广泛应用的验证机制。“更强的验证器的可用性可以带来不同类型的影响,”努希说,比如改进推理的基础训练方法。“如果高效使用,这些也可以缩短推理痕迹。”

强大的验证器还可以成为企业代理人工智能解决方案的核心部分。许多企业利益相关者已经拥有这样的验证器,可能需要重新调整用于更代理的解决方案,如SAT求解器、物流有效性检查器等。

“未来的问题是如何将现有技术与AI驱动的界面相结合,以及连接两者的语言是什么,”努希说。“连接两者的需求源于用户不会总是以正式的方式提出查询,他们会想要使用自然语言界面并期望以类似格式或最终行动(例如提议会议邀请)的形式得到解决方案。”

VB每日的商业用例
每日洞察

如果你想给老板留下深刻印象,VB每日可以帮到你。我们将告诉你公司如何使用生成式人工智能,从监管变化到实际部署,以便你能分享见解以获得最大回报。立即订阅

阅读我们的隐私政策

感谢订阅。

查看更多VB新闻通讯

这里。

发生错误。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日