字节跳动开源POLARIS模型 数学推理能力媲美235B参数模型

发布时间:2025年7月16日    来源:szf
字节跳动开源POLARIS模型 数学推理能力媲美235B参数模型

快速阅读: 据相关媒体报道,字节跳动联合港大、复旦推出POLARIS强化学习方法,提升小模型数学推理能力,性能媲美大模型,支持消费级显卡运行,已开源。

据AIbase – AI新闻资讯报道,近日,字节跳动Seed团队联合香港大学与复旦大学,推出了一种新的强化学习训练方法——POLARIS。该方法通过独特的Scaling RL策略,成功提升了小模型的数学推理能力,达到与超大模型相当的水平,为小模型优化开辟了新途径。

实验表明,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别获得了79.4%和81.2%的高准确率,性能超过了一些更大的闭源模型。特别值得一提的是,POLARIS-4B模型的轻量化设计,使其能够在普通消费级显卡上运行,大大降低了应用门槛。

POLARIS的核心创新在于其训练策略。研究团队发现,通过定制化训练数据和超参数设置,可以显著增强小模型的数学推理能力。具体来说,团队动态调整了训练数据的难度分布,构建了偏重难题的数据集,避免了样本难度过于集中。同时,引入了数据动态更新机制,根据模型在训练过程中的表现实时剔除过易样本,确保训练效果。

在采样控制方面,POLARIS通过精确调节采样温度,平衡了模型性能与生成路径的多样性。研究表明,采样温度对模型性能和路径多样性有显著影响,过高或过低的温度都不利于训练。因此,团队提出了一种控制探索区域的温度初始化方法,并在训练过程中动态调整采样温度,以保持生成内容的多样性。

针对长上下文训练的挑战,POLARIS引入了长度外推技术,通过调整位置编码RoPE,使模型能够处理超出训练时所见的更长序列。这一策略有效弥补了长文本训练中的不足,提高了模型在长文本生成任务上的表现。

此外,POLARIS还采用了多阶段RL训练方法,初期使用较短的上下文窗口进行训练,待模型表现稳定后逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务,提升了训练的稳定性和效果。

目前,POLARIS的训练方法、训练数据、训练代码和实验模型已全部开源。研究团队在多个主流推理评测集上验证了POLARIS的有效性,结果显示,不同规模和家族的模型在应用POLARIS训练方法后,性能均有显著提升。

GitHub主页:https://github.com/ChenxinAn-fdu/POLARIS
Hugging Face主页:https://huggingface.co/POLARIS-Project

(以上内容均由AI生成)

你可能还想读

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

快速阅读: 欧洲广播联盟和BBC报告显示,AI平台传播新闻存严重风险,影响新闻生态,Perplexity和谷歌AI加剧公众信任下降,研究发现来源、准确性和背景问题是主要障碍。 欧洲广播联盟和BBC发布的一份新报告显示,使用生成式人工智能平台 […]

发布时间:2025年10月23日
AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

快速阅读: 特朗普退让提振市场情绪,但股市上涨主因是AI热潮。自2022年11月ChatGPT推出以来,美国标普500指数市值增加21万亿美元。 特朗普倾向于退让提振了市场情绪,但推动股市上涨的主要动力是围绕生成式人工智能(AI)的炒作。在 […]

发布时间:2025年10月23日
北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

快速阅读: 挪威Riff完成1600万美元A轮融资,累计2100万美元,由Northzone领投。Riff提供AI应用开发平台,支持多行业,旨在提升商业效果和项目成功率,新资金将用于市场扩展。 总部位于奥斯陆的Riff(原名Databutt […]

发布时间:2025年10月23日
Meta裁减AI部门约600岗位,加速技术竞赛

Meta裁减AI部门约600岗位,加速技术竞赛

快速阅读: Meta Platforms 从超级智能实验室裁减约600个职位,以加速AI技术发展。AI首席Alexandr Wang通知裁员,旨在加快决策,增加员工责任。Meta继续为TBD实验室招聘,该团队聚集高薪AI人才。 据报道,Me […]

发布时间:2025年10月23日
渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

快速阅读: Gartner预测,至2026年80%企业将部署生成式AI,但安全与数据基础设施挑战成障碍。研究显示,近半数企业因安全顾虑暂缓云迁移,超半数数据无备份,70%企业过去一年遭遇网络攻击,平均损失五周生产力。VARs在协助企业克服安 […]

发布时间:2025年10月23日
英政府推出AI工具,大幅提高咨询反馈分析效率

英政府推出AI工具,大幅提高咨询反馈分析效率

快速阅读: 英国政府宣布加速人工智能发展,采用“汉弗莱”系列中的Consult工具,每年可节省75,000个人工工作日,该工具处理50,000份咨询回复仅需2小时,效率远超人工。 英国政府宣布,将加速推进人工智能的发展。此前一项研究发现,每 […]

发布时间:2025年10月23日
IBM新Z17主机助力营收大增,AI成增长引擎

IBM新Z17主机助力营收大增,AI成增长引擎

快速阅读: IBM在生成式AI领域赢得95亿美元订单,大型机收入同比增长59%,新Z17机器贡献显著。AI基础设施增长15%,存储成为关键销售点。 克里希纳指出,IBM在生成式AI领域赢得了95亿美元的订单,这是一个显著的成绩。此外,IBM […]

发布时间:2025年10月23日
英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

快速阅读: 特朗普政府正与多家量子计算公司谈判,拟通过联邦资金注资换取股权,涉及IonQ、Rigetti Computing等,每家获至少1000万美元。 感谢IT之家网友 小兴365 的线索投递! IT之家 10 月 23 日消息,据《华 […]

发布时间:2025年10月23日