Thinking Machine推出在线策略蒸馏,小模型训练效率提升百倍

发布时间:2025年10月28日    来源:szf
Thinking Machine推出在线策略蒸馏,小模型训练效率提升百倍

快速阅读: AI团队Thinking Machine发布在线策略蒸馏技术,大幅提升小模型训练效率50至100倍,获前OpenAI CTO转发关注。此技术融合强化与监督学习优势,解决模型“灾难性遗忘”,降低开发成本,推动高效智能解决方案发展。

近日,AI新锐团队Thinking Machine发布了一种突破性的训练方法——在线策略蒸馏(On-Policy Distillation),使得小模型在特定任务上的训练效率提升了50至100倍。这一成果一经发布,立即得到了前OpenAI首席技术官Mira Murati的转发,引起了学术界和工业界的广泛关注。

在线策略蒸馏融合了强化学习与监督学习,开创了“AI教练”新模式。传统AI训练面临两大难题:强化学习使模型能够自主探索,虽然灵活但效率低下;监督微调则直接提供标准答案,虽高效但较为僵化。在线策略蒸馏巧妙地结合了这两者的优势,就像给学生模型配上了“实时教练”。学生模型在自主生成内容时,强大的教师模型会对其每一步输出进行动态评分和指导,通过最小化两者间的KL散度,实现精确且稳定的知识转移。

这种机制不仅克服了传统蒸馏方法“只学结果、不学过程”的问题,还有效防止了模型“走捷径”或过拟合,显著提高了模型的泛化能力。实际测试显示,在数学推理任务中,研究团队仅用了原强化学习方法1/7到1/10的训练步数,就使8B小模型达到了接近32B大模型的性能水平,整体计算成本降低了两个数量级。这意味着,即使资源有限的中小企业或研究团队,也能够高效地训练出与大公司相匹敌的专业模型。

更重要的是,这种方法成功解决了企业AI落地过程中常见的“灾难性遗忘”问题。在一个企业助理实验中,模型在学习新业务知识的同时,还能完好地保留原有的对话和工具调用能力,为需要持续迭代的行业AI系统提供了可行方案。

该研究由Kevin Lu领导,他曾是OpenAI的关键项目负责人,现在作为Thinking Machine的核心成员,将大模型训练的前沿经验应用于高效的小模型生态系统。他的团队认为,在AI日益垂直化和场景化的今天,“小而精”的模型将成为商业应用的主力军,而在线策略蒸馏正是实现这一目标的关键技术。

随着算力瓶颈的日益突出,行业正从追求大模型转向寻求高效的智能化解决方案。Thinking Machine的这一突破,不仅大大降低了AI开发的门槛,也预示着一个高性价比专业模型的新时代即将到来。论文链接:https://thinkingmachines.ai/blog/on-policy-distillation/

(以上内容均由Ai生成)

你可能还想读

华尔街分析师预测英伟达股价将飙升369%

华尔街分析师预测英伟达股价将飙升369%

快速阅读: 据最新消息,I/O基金CEO贝丝·金迪格将英伟达2030年市值预期上调至20万亿美元,理由是其数据中心业务年均36%增长、CUDA软件生态壁垒及向全栈AI供应商转型,叠加全球AI基建投资加速,多重基本面支撑长期估值。 近日,市场 […]

发布时间:2025年12月14日
英国男子用AI生成儿童色情图像获刑

英国男子用AI生成儿童色情图像获刑

快速阅读: 据消息人士透露,英国坎布里亚郡39岁男子利亚姆·莫里斯因利用AI生成53张儿童色情图像被起诉,其中2张属最严重的A类。他曾有性犯罪前科,此次认罪后被判12个月社区令,并须登记为性犯罪者十年。 英国坎布里亚郡一名有性犯罪前科的男子 […]

发布时间:2025年12月14日
AI首次达到人类专家语言分析水平

AI首次达到人类专家语言分析水平

快速阅读: 公开资料显示,研究人员通过30种全新人工语言测试大语言模型o1的音系规则推断能力,发现其能精准识别复杂语音模式,表现远超预期,但尚无法提出原创语言理论,引发学界对模型能力边界与人类语言独特性的深入探讨。 研究人员近期开展了一项音 […]

发布时间:2025年12月14日
卡塔尔崛起为全球人工智能技术枢纽

卡塔尔崛起为全球人工智能技术枢纽

快速阅读: 截至发稿时,卡塔尔正通过举办2025世界人工智能峰会、发布“法纳尔2.0”主权AI平台,并与谷歌云等企业合作,系统推进《2030数字议程》,目标到2030年创造2.6万个ICT岗位并贡献110亿美元经济产值。 卡塔尔正积极打造区 […]

发布时间:2025年12月14日
人脸识别成警务革命但监管滞后

人脸识别成警务革命但监管滞后

快速阅读: 据每日电讯报报道,面部识别技术虽被视为警方破案的重大突破,但其监管远不如DNA比对严格,亟需建立全流程问责机制与独立监督,以保障公民隐私权和程序正义。 英国《每日电讯报》刊文指出,面部识别技术被视为继DNA比对之后警方最重要的破 […]

发布时间:2025年12月14日
英伟达推GPU集群监控工具,无后门可远程查看运行状态

英伟达推GPU集群监控工具,无后门可远程查看运行状态

快速阅读: 据英伟达公司消息,其于12月10日推出面向云服务商的开源GPU集群监控方案,可实时追踪功耗、利用率及异常信号,提升能效与系统稳定性,并强调不包含硬件后门,数据由客户自主管理。 英伟达公司于近日发布官方博文,介绍其正在开发的可视化 […]

发布时间:2025年12月14日
Figure AI录用率仅0.24% 比哈佛还难进

Figure AI录用率仅0.24% 比哈佛还难进

快速阅读: 据Figure AI消息,该公司自2022年成立以来收到17.6万份求职申请,仅录用425人,录用率约0.24%,远低于顶尖高校;CEO坦言人工筛选耗时低效,正考虑开发更智能的简历筛选模型以应对AI与机器人领域激烈的人才竞争。 […]

发布时间:2025年12月14日
华尔街回调 AI交易遇冷静待关键经济数据

华尔街回调 AI交易遇冷静待关键经济数据

快速阅读: 据路透社报道,美股本周收跌,科技股回调拖累纳指创11月以来新低,市场担忧AI盈利前景及就业数据疲软;美联储暗示2026年或进一步降息,投资者聚焦经济能否实现软着陆。 美国股市本周结束前大幅下挫,主要股指回吐部分前期涨幅。此前,美 […]

发布时间:2025年12月14日