数学测试?没问题:NVIDIA 团队使用推理模型为 Kaggle Win 评分
快速阅读: 《NVIDIA 官方博客》消息,英伟达团队以“NemoSkills”名义参加卡格数学竞赛,通过创新方法在五小时内解答34道奥数题夺冠。他们使用微调基础模型结合知识蒸馏技术,并采用早期停止等优化手段,成功构建泛化能力强的模型。团队计划分享技术报告与模型,部分奖金捐给慈善组织。
AI数学奥林匹克最新比赛的最后几天对英伟达团队而言是一场跨国接力赛。每天晚上,美国东西海岸的两名队员会向卡格(数据科学与机器学习的线上奥运会)提交一个人工智能推理模型。随后他们会焦急地等待五小时,查看该模型在解答包含50道复杂数学问题的样本集时的表现如何。看到结果后,美国队便将接力棒传递给亚美尼亚、芬兰、德国和北爱尔兰的队友,他们会在当日测试、调整并优化不同模型版本。“每晚我都会对自己的分数感到失望,但醒来后看到欧洲队友传来的好消息时,我的希望就会重新燃起,”资深应用科学家伊戈尔·吉特曼说道,“我们会再次尝试。”尽管团队在比赛后期对公共数据集的表现感到失望,但人工智能模型的真实考验在于它对未见过数据的泛化能力。正是在这个方面,他们的推理模型登上了排行榜首位——在五小时内使用四块英伟达L4 GPU集群正确解答了50道奥林匹克数学题中的34道。“最终我们得到了令人惊叹的结果,”北爱尔兰团队成员达拉赫·汉利表示,他是一位卡格大师及高级大型语言模型(LLM)技术专家。
构建胜利方程式
英伟达团队以“NemoSkills”的名义参赛,这暗含了他们对NeMo-Skills管道集合的使用,该集合用于加速LLM训练、评估与推理。七位成员各自贡献了不同的专业领域知识,涵盖LLM训练、模型蒸馏及推理优化。对于卡格挑战赛,超过2200支参赛队伍提交了旨在五小时内解答50道数学题(涵盖代数、几何、组合数学与数论等国家级奥林匹克水平的复杂问题)的人工智能模型。该团队获胜的模型结合了自然语言推理与Python代码执行。
为了在卡格提供的小型英伟达L4 GPU集群上完成这一推理挑战,NemoSkills团队不得不发挥创造力。他们的获胜模型使用了Qwen2.5-14B-Base,这是一种具备链式思维推理能力的基础模型,团队通过数百万个合成生成的数学问题解决方案对其进行了微调。这些合成解决方案主要由两个更大的推理模型——DeepSeek-R1和QwQ-32B——生成,并通过一种知识蒸馏的形式传授给团队的基础模型。最终结果是一种更小、更快且擅长长时间思考的模型,能够利用自然语言推理与Python代码执行处理复杂问题。他们的获胜模型使用了Qwen2.5-14B-Base,这是一种具备链式思维推理能力的基础模型,团队通过数百万个合成生成的数学问题解决方案对其进行了微调。为了进一步提升性能,团队的解决方案会并行处理多个长时间思考的回答,然后确定最终答案。为了优化这一过程并满足比赛的时间限制,团队还采用了创新的早期停止技术。例如,一个推理模型可能会被设置为对一道数学问题进行12次不同的解答,然后选择最常见的答案。借助NeMo-Skills与英伟达TensorRT-LLM的异步处理能力,如果模型已经四次以上收敛到正确的答案,团队可以提前监控并退出推理。TensorRT-LLM还使团队能够利用FP8量化,这是一种压缩方法,比常用的FP16格式快1.5倍。苹果公司开发的推测性解码技术ReDrafter进一步加快了1.8倍的速度。最终模型在比赛的未见最终数据集上的表现甚至优于公共数据集的表现——表明团队成功构建了一个可泛化的模型,并避免了过度拟合其LLM到样本数据。
“即便没有卡格竞赛,我们仍然会致力于改进数学推理模型,”吉特曼说道,“但卡格给了我们机会去基准测试并发现我们的模型对第三方数据集的泛化能力有多好。”
分享成果
团队即将发布一份技术报告,详细说明他们在获胜方案中使用的技巧——并计划在Hugging Face上分享他们的数据集与一系列模型。他们在比赛期间做出的改进与优化已经被整合到GitHub上可用的NeMo-Skills管道中。关键技术、数据与见解也被用于训练刚刚发布的英伟达Llama Nemotron Ultra模型。“在整个合作过程中,我们使用了英伟达软件栈中的各种工具,”英伟达卡格大师之一克里斯托夫·亨克尔说道,“通过与我们的LLM研究与发展团队密切合作,我们可以将从比赛中学到的东西日常改进并推入英伟达的开源库。”在比赛获胜后,亨克尔回到了卡格世界冠军的位置,在平台超过2300万用户中排名第一。另一位队友,芬兰的伊万·索罗金,获得了仅由全球350多人持有的卡格大师称号。作为第一名,该小组还赢得了262,144美元的奖金,他们将其捐赠给英伟达基金会以支持慈善组织。全体成员——伊戈尔·吉特曼、达拉赫·汉利、克里斯托夫·亨克尔、伊万·莫什科夫、本尼迪克特·施弗勒、伊万·索罗金和舒巴姆·托什尼瓦尔——请观看下方视频:
上图中的数学题目来自2025年美国邀请数学考试。可在《问题解决艺术》维基查阅完整题目与解答。
(以上内容均由Ai生成)