新的开源数学模型 Light-R1-32B 的训练成本仅需 1000 美元,性能优于同等的 DeepSeek
快速阅读: 据《VentureBeat 公司》最新报道,一个研究团队发布了光谱-R1-32B,这是一个新的人工智能模型,专门用于解决高级数学问题,并在Hugging Face平台上以宽松的Apache 2.0许可发布。该模型在AIME数学考试中表现出色,超越了其他开源模型。它在12块英伟达H800 GPU上仅用六小时完成训练,总成本约1000美元。此外,团队公开了训练数据集、脚本和评估工具,方便企业和研究人员使用和修改。
订阅我们的每日和每周通讯,获取最新的行业领先人工智能资讯和独家内容。了解更多一个研究团队发布了光谱-R1-32B,这是一个新的开源人工智能模型,专门优化用于解决高级数学难题,并在Hugging Face平台上以宽松的Apache 2.0许可发布——免费供企业和研究人员使用、部署、微调或修改,甚至用于商业目的。这个拥有320亿参数(模型设定数量)的模型在第三方基准测试美国邀请数学考试(AIME)上超越了同样大小(甚至更大)的开源模型,如深搜-R1-Distill-Llama-70B和深搜-R1-Distill-Qwen-32B。AIME包含15个为极高水平学生设计的数学题目,人类用户有3小时的时间限制。该模型由梁文、芬锐·肖、辛赫、云科·蔡、齐安、甄宇·段、尹杜、俊臣·刘、立夫·唐、晓薇·吕、浩生·邹、永超·邓、守胜·贾和向正·张开发,在竞争性数学基准测试中超越了之前的开源模型。令人难以置信的是,研究人员在12块英伟达H800 GPU上不到六小时内完成了模型训练,总成本估计为1000美元。这使得光谱-R1-32B成为开发高性能数学专用人工智能模型的一种最便捷和实用的方法。然而,重要的是要记住,该模型是在阿里云的Qwen 2.5-32B-Instruct基础上训练的。除了模型,团队还公开了其训练数据集、训练脚本和评估工具,为构建专注于数学的人工智能模型提供了透明且易于访问的框架。随着光谱-R1-32B的到来,微软等竞争对手也推出了类似的努力,如奥尔卡-数学系列。新的数学王者诞生光谱-R1-32B旨在应对复杂的数学推理任务,特别是在AIME(美国邀请数学考试)基准测试中。它从不具备长链思维(COT)推理能力的Qwen2.5-32B-Instruct模型开始训练。团队应用了基于课程的监督微调(SFT)和直接偏好优化(DPO)来改进其解决问题的能力。在评估时,光谱-R1-32B在AIME24上的得分是76.6,在AIME25上的得分是64.6,分别超过了深搜-R1-Distill-Qwen-32B的72.6和54.9分。这种改进表明,基于课程的训练方法有效提升了数学推理能力,即使是从最初缺乏长COT的模型开始训练也是如此。公平的基准测试为了确保公平的基准测试,团队对常见的推理基准数据进行了净化处理,包括AIME24/25、MATH-500和GPQA钻石,防止数据泄漏。他们还使用DeepScaleR-1.5B-Preview实施了基于难度的响应过滤,最终形成了一个包含76,000个样本的数据集,用于第一阶段的监督微调。第二阶段,更具挑战性的3,000个样本的数据集进一步提高了性能。训练完成后,团队合并了多个版本的光谱-R1-32B,带来了额外的提升。值得注意的是,尽管该模型是数学专用的,但它在科学推理任务(GPQA)上仍保持了强大的泛化能力。企业如何受益光谱-R1-32B在Apache许可证2.0下发布,这是一种宽松的开源许可证,允许免费使用、修改和商业部署,无需衍生作品开源。这使其成为企业、人工智能开发者和软件工程师的一个吸引选项,他们希望将或定制该模型用于专有应用程序。该许可证还包括免版税的全球专利授权,减少了企业的法律风险,同时避免了专利纠纷。公司可以自由地在商业产品中部署光谱-R1-32B,保持对其创新的完全控制,同时受益于开放和透明的人工智能生态系统。对于CEO、CTO和IT领导者来说,Apache 2.0保证了成本效率和供应商独立性,消除了许可费用和对专有人工智能解决方案的限制性依赖。人工智能开发者和工程师获得了灵活性,可以自由地微调、集成和扩展模型,使其适用于专门的数学推理、研究和企业人工智能应用。然而,由于许可证不提供任何担保或责任保障,组织应在部署光谱-R1-32B于关键环境前自行进行安全、合规性和性能评估。低成本训练和优化数学问题求解的透明度研究人员强调,光谱-R1-32B提供了一种经过验证的成本效益高的方法,在专业领域内训练强大的长链思维模型。通过分享他们的方法论、训练数据和代码,他们旨在降低高性能人工智能开发的成本障碍。未来的工作包括探索强化学习(RL)以进一步增强模型的推理能力。每日业务应用场景洞察如果您想给老板留下深刻印象,VB每日新闻可以帮到您。我们为您提供关于公司如何使用生成式人工智能的内部信息,从监管变化到实际部署,以便您可以分享见解以获得最大回报。现在订阅阅读我们的隐私政策感谢订阅。查看更多VB通讯。
(以上内容均由Ai生成)