新研究揭示了为什么模拟推理 AI 模型还没有达到他们的要求。
快速阅读: 据《Ars Technica》称,基于Transformer的AI模型擅长模式匹配,但在深层数学推理上表现欠佳。研究显示,仅扩展现有架构难以弥补差距。一些研究者正探索结合符号推理等替代方法来改善AI推理能力。
从根本上说,所有基于Transformer的AI模型都是模式匹配机器。它们通过借用训练数据中实例的推理能力来完成任务。这解释了奥林匹克研究中出现的奇怪现象:这些模型在逐步步骤与训练数据中模式对齐的标准问题上表现出色,但在面对需要更深层次数学洞察力的新颖证明挑战时却崩溃了。这种改进可能源于多个较小预测任务中的统计概率提升,而非一次大的预测飞跃。即便如此,正如我们在Gemini 2.5 Pro的结果中看到的那样,随着结构化推理(SR)模型的能力增强,并能在潜在空间中建立更深的多维连接,它们可能会随着时间的推移逐渐缩小这一“推理”差距。未来的训练技术或模型架构或许能够教会这些模型所有需要的推理模式,以达到与最优秀人类思维相当的深度推理掌握。但目前这仍然是推测性的。
接下来,即使是在潜在改进的顺序上,该研究的当前发现表明,仅仅扩展现有的SR模型架构和训练方法可能不足以弥合到真正数学推理之间的差距。这些限制并非孤立存在:在另一项最近的研究(由Gary Marcus在其博客文章中提到的关于“证明还是吹嘘”论文的研究)中,宾夕法尼亚州立大学的Hamed Mahdavi及其合作者(包括纽约城市大学、纽约大学和Autodesk等机构)评估了大型语言模型在类似高级数学挑战上的表现,得出了关于这些限制的一致结论。
鉴于这些已证明的不足之处,一些研究人员正在探索改善AI推理的替代方法。这些方法包括整合符号推理引擎、开发更好的证明验证技术以及使用自我一致性检查。DeepMind的AlphaGeometry提供了一个例子,它将神经网络与符号AI中常见的正式方法相结合。尽管这样的“神经符号系统”可能会失败,但其结构可以防止它们编造出错误的证明——这直接解决了在SR模型评估中观察到的关键失败模式之一。
(以上内容均由Ai生成)