数学测试?没问题:NVIDIA 团队使用推理模型为 Kaggle Win 评分

发布时间:2025年4月16日    来源:szf
数学测试?没问题:NVIDIA 团队使用推理模型为 Kaggle Win 评分

快速阅读: 《NVIDIA 官方博客》消息,英伟达团队以“NemoSkills”名义参加卡格数学竞赛,通过创新方法在五小时内解答34道奥数题夺冠。他们使用微调基础模型结合知识蒸馏技术,并采用早期停止等优化手段,成功构建泛化能力强的模型。团队计划分享技术报告与模型,部分奖金捐给慈善组织。

AI数学奥林匹克最新比赛的最后几天对英伟达团队而言是一场跨国接力赛。每天晚上,美国东西海岸的两名队员会向卡格(数据科学与机器学习的线上奥运会)提交一个人工智能推理模型。随后他们会焦急地等待五小时,查看该模型在解答包含50道复杂数学问题的样本集时的表现如何。看到结果后,美国队便将接力棒传递给亚美尼亚、芬兰、德国和北爱尔兰的队友,他们会在当日测试、调整并优化不同模型版本。“每晚我都会对自己的分数感到失望,但醒来后看到欧洲队友传来的好消息时,我的希望就会重新燃起,”资深应用科学家伊戈尔·吉特曼说道,“我们会再次尝试。”尽管团队在比赛后期对公共数据集的表现感到失望,但人工智能模型的真实考验在于它对未见过数据的泛化能力。正是在这个方面,他们的推理模型登上了排行榜首位——在五小时内使用四块英伟达L4 GPU集群正确解答了50道奥林匹克数学题中的34道。“最终我们得到了令人惊叹的结果,”北爱尔兰团队成员达拉赫·汉利表示,他是一位卡格大师及高级大型语言模型(LLM)技术专家。

构建胜利方程式

英伟达团队以“NemoSkills”的名义参赛,这暗含了他们对NeMo-Skills管道集合的使用,该集合用于加速LLM训练、评估与推理。七位成员各自贡献了不同的专业领域知识,涵盖LLM训练、模型蒸馏及推理优化。对于卡格挑战赛,超过2200支参赛队伍提交了旨在五小时内解答50道数学题(涵盖代数、几何、组合数学与数论等国家级奥林匹克水平的复杂问题)的人工智能模型。该团队获胜的模型结合了自然语言推理与Python代码执行。

为了在卡格提供的小型英伟达L4 GPU集群上完成这一推理挑战,NemoSkills团队不得不发挥创造力。他们的获胜模型使用了Qwen2.5-14B-Base,这是一种具备链式思维推理能力的基础模型,团队通过数百万个合成生成的数学问题解决方案对其进行了微调。这些合成解决方案主要由两个更大的推理模型——DeepSeek-R1和QwQ-32B——生成,并通过一种知识蒸馏的形式传授给团队的基础模型。最终结果是一种更小、更快且擅长长时间思考的模型,能够利用自然语言推理与Python代码执行处理复杂问题。他们的获胜模型使用了Qwen2.5-14B-Base,这是一种具备链式思维推理能力的基础模型,团队通过数百万个合成生成的数学问题解决方案对其进行了微调。为了进一步提升性能,团队的解决方案会并行处理多个长时间思考的回答,然后确定最终答案。为了优化这一过程并满足比赛的时间限制,团队还采用了创新的早期停止技术。例如,一个推理模型可能会被设置为对一道数学问题进行12次不同的解答,然后选择最常见的答案。借助NeMo-Skills与英伟达TensorRT-LLM的异步处理能力,如果模型已经四次以上收敛到正确的答案,团队可以提前监控并退出推理。TensorRT-LLM还使团队能够利用FP8量化,这是一种压缩方法,比常用的FP16格式快1.5倍。苹果公司开发的推测性解码技术ReDrafter进一步加快了1.8倍的速度。最终模型在比赛的未见最终数据集上的表现甚至优于公共数据集的表现——表明团队成功构建了一个可泛化的模型,并避免了过度拟合其LLM到样本数据。

“即便没有卡格竞赛,我们仍然会致力于改进数学推理模型,”吉特曼说道,“但卡格给了我们机会去基准测试并发现我们的模型对第三方数据集的泛化能力有多好。”

分享成果

团队即将发布一份技术报告,详细说明他们在获胜方案中使用的技巧——并计划在Hugging Face上分享他们的数据集与一系列模型。他们在比赛期间做出的改进与优化已经被整合到GitHub上可用的NeMo-Skills管道中。关键技术、数据与见解也被用于训练刚刚发布的英伟达Llama Nemotron Ultra模型。“在整个合作过程中,我们使用了英伟达软件栈中的各种工具,”英伟达卡格大师之一克里斯托夫·亨克尔说道,“通过与我们的LLM研究与发展团队密切合作,我们可以将从比赛中学到的东西日常改进并推入英伟达的开源库。”在比赛获胜后,亨克尔回到了卡格世界冠军的位置,在平台超过2300万用户中排名第一。另一位队友,芬兰的伊万·索罗金,获得了仅由全球350多人持有的卡格大师称号。作为第一名,该小组还赢得了262,144美元的奖金,他们将其捐赠给英伟达基金会以支持慈善组织。全体成员——伊戈尔·吉特曼、达拉赫·汉利、克里斯托夫·亨克尔、伊万·莫什科夫、本尼迪克特·施弗勒、伊万·索罗金和舒巴姆·托什尼瓦尔——请观看下方视频:

上图中的数学题目来自2025年美国邀请数学考试。可在《问题解决艺术》维基查阅完整题目与解答。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日