新的开源数学模型 Light-R1-32B 的训练成本仅需 1000 美元,性能优于同等的 DeepSeek

发布时间:2025年3月6日    来源:szf
新的开源数学模型 Light-R1-32B 的训练成本仅需 1000 美元,性能优于同等的 DeepSeek

快速阅读: 据《VentureBeat 公司》最新报道,一个研究团队发布了光谱-R1-32B,这是一个新的人工智能模型,专门用于解决高级数学问题,并在Hugging Face平台上以宽松的Apache 2.0许可发布。该模型在AIME数学考试中表现出色,超越了其他开源模型。它在12块英伟达H800 GPU上仅用六小时完成训练,总成本约1000美元。此外,团队公开了训练数据集、脚本和评估工具,方便企业和研究人员使用和修改。

订阅我们的每日和每周通讯,获取最新的行业领先人工智能资讯和独家内容。了解更多一个研究团队发布了光谱-R1-32B,这是一个新的开源人工智能模型,专门优化用于解决高级数学难题,并在Hugging Face平台上以宽松的Apache 2.0许可发布——免费供企业和研究人员使用、部署、微调或修改,甚至用于商业目的。这个拥有320亿参数(模型设定数量)的模型在第三方基准测试美国邀请数学考试(AIME)上超越了同样大小(甚至更大)的开源模型,如深搜-R1-Distill-Llama-70B和深搜-R1-Distill-Qwen-32B。AIME包含15个为极高水平学生设计的数学题目,人类用户有3小时的时间限制。该模型由梁文、芬锐·肖、辛赫、云科·蔡、齐安、甄宇·段、尹杜、俊臣·刘、立夫·唐、晓薇·吕、浩生·邹、永超·邓、守胜·贾和向正·张开发,在竞争性数学基准测试中超越了之前的开源模型。令人难以置信的是,研究人员在12块英伟达H800 GPU上不到六小时内完成了模型训练,总成本估计为1000美元。这使得光谱-R1-32B成为开发高性能数学专用人工智能模型的一种最便捷和实用的方法。然而,重要的是要记住,该模型是在阿里云的Qwen 2.5-32B-Instruct基础上训练的。除了模型,团队还公开了其训练数据集、训练脚本和评估工具,为构建专注于数学的人工智能模型提供了透明且易于访问的框架。随着光谱-R1-32B的到来,微软等竞争对手也推出了类似的努力,如奥尔卡-数学系列。新的数学王者诞生光谱-R1-32B旨在应对复杂的数学推理任务,特别是在AIME(美国邀请数学考试)基准测试中。它从不具备长链思维(COT)推理能力的Qwen2.5-32B-Instruct模型开始训练。团队应用了基于课程的监督微调(SFT)和直接偏好优化(DPO)来改进其解决问题的能力。在评估时,光谱-R1-32B在AIME24上的得分是76.6,在AIME25上的得分是64.6,分别超过了深搜-R1-Distill-Qwen-32B的72.6和54.9分。这种改进表明,基于课程的训练方法有效提升了数学推理能力,即使是从最初缺乏长COT的模型开始训练也是如此。公平的基准测试为了确保公平的基准测试,团队对常见的推理基准数据进行了净化处理,包括AIME24/25、MATH-500和GPQA钻石,防止数据泄漏。他们还使用DeepScaleR-1.5B-Preview实施了基于难度的响应过滤,最终形成了一个包含76,000个样本的数据集,用于第一阶段的监督微调。第二阶段,更具挑战性的3,000个样本的数据集进一步提高了性能。训练完成后,团队合并了多个版本的光谱-R1-32B,带来了额外的提升。值得注意的是,尽管该模型是数学专用的,但它在科学推理任务(GPQA)上仍保持了强大的泛化能力。企业如何受益光谱-R1-32B在Apache许可证2.0下发布,这是一种宽松的开源许可证,允许免费使用、修改和商业部署,无需衍生作品开源。这使其成为企业、人工智能开发者和软件工程师的一个吸引选项,他们希望将或定制该模型用于专有应用程序。该许可证还包括免版税的全球专利授权,减少了企业的法律风险,同时避免了专利纠纷。公司可以自由地在商业产品中部署光谱-R1-32B,保持对其创新的完全控制,同时受益于开放和透明的人工智能生态系统。对于CEO、CTO和IT领导者来说,Apache 2.0保证了成本效率和供应商独立性,消除了许可费用和对专有人工智能解决方案的限制性依赖。人工智能开发者和工程师获得了灵活性,可以自由地微调、集成和扩展模型,使其适用于专门的数学推理、研究和企业人工智能应用。然而,由于许可证不提供任何担保或责任保障,组织应在部署光谱-R1-32B于关键环境前自行进行安全、合规性和性能评估。低成本训练和优化数学问题求解的透明度研究人员强调,光谱-R1-32B提供了一种经过验证的成本效益高的方法,在专业领域内训练强大的长链思维模型。通过分享他们的方法论、训练数据和代码,他们旨在降低高性能人工智能开发的成本障碍。未来的工作包括探索强化学习(RL)以进一步增强模型的推理能力。每日业务应用场景洞察如果您想给老板留下深刻印象,VB每日新闻可以帮到您。我们为您提供关于公司如何使用生成式人工智能的内部信息,从监管变化到实际部署,以便您可以分享见解以获得最大回报。现在订阅阅读我们的隐私政策感谢订阅。查看更多VB通讯。

(以上内容均由Ai生成)

关键词: 100032BDeepseeklightR1

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日