Thinking Machine推出在线策略蒸馏,小模型训练效率提升百倍

发布时间:2025年10月28日    来源:szf
Thinking Machine推出在线策略蒸馏,小模型训练效率提升百倍

快速阅读: AI团队Thinking Machine发布在线策略蒸馏技术,大幅提升小模型训练效率50至100倍,获前OpenAI CTO转发关注。此技术融合强化与监督学习优势,解决模型“灾难性遗忘”,降低开发成本,推动高效智能解决方案发展。

近日,AI新锐团队Thinking Machine发布了一种突破性的训练方法——在线策略蒸馏(On-Policy Distillation),使得小模型在特定任务上的训练效率提升了50至100倍。这一成果一经发布,立即得到了前OpenAI首席技术官Mira Murati的转发,引起了学术界和工业界的广泛关注。

在线策略蒸馏融合了强化学习与监督学习,开创了“AI教练”新模式。传统AI训练面临两大难题:强化学习使模型能够自主探索,虽然灵活但效率低下;监督微调则直接提供标准答案,虽高效但较为僵化。在线策略蒸馏巧妙地结合了这两者的优势,就像给学生模型配上了“实时教练”。学生模型在自主生成内容时,强大的教师模型会对其每一步输出进行动态评分和指导,通过最小化两者间的KL散度,实现精确且稳定的知识转移。

这种机制不仅克服了传统蒸馏方法“只学结果、不学过程”的问题,还有效防止了模型“走捷径”或过拟合,显著提高了模型的泛化能力。实际测试显示,在数学推理任务中,研究团队仅用了原强化学习方法1/7到1/10的训练步数,就使8B小模型达到了接近32B大模型的性能水平,整体计算成本降低了两个数量级。这意味着,即使资源有限的中小企业或研究团队,也能够高效地训练出与大公司相匹敌的专业模型。

更重要的是,这种方法成功解决了企业AI落地过程中常见的“灾难性遗忘”问题。在一个企业助理实验中,模型在学习新业务知识的同时,还能完好地保留原有的对话和工具调用能力,为需要持续迭代的行业AI系统提供了可行方案。

该研究由Kevin Lu领导,他曾是OpenAI的关键项目负责人,现在作为Thinking Machine的核心成员,将大模型训练的前沿经验应用于高效的小模型生态系统。他的团队认为,在AI日益垂直化和场景化的今天,“小而精”的模型将成为商业应用的主力军,而在线策略蒸馏正是实现这一目标的关键技术。

随着算力瓶颈的日益突出,行业正从追求大模型转向寻求高效的智能化解决方案。Thinking Machine的这一突破,不仅大大降低了AI开发的门槛,也预示着一个高性价比专业模型的新时代即将到来。论文链接:https://thinkingmachines.ai/blog/on-policy-distillation/

(以上内容均由Ai生成)

你可能还想读

博通重燃AI盈利担忧拖累科技股

博通重燃AI盈利担忧拖累科技股

快速阅读: 据公开信息显示,美国股市周五回落,标普500指数和纳斯达克指数从历史高点回调,因市场担忧AI盈利前景及博通股价大跌,资金转向其他板块。 美国股市周五回落,标普500指数与纳斯达克综合指数均从历史高点回调。市场对人工智能领域盈利前 […]

发布时间:2025年12月15日
特朗普力推AI经济,选民却忧心忡忡

特朗普力推AI经济,选民却忧心忡忡

快速阅读: 据10a Labs旗下Data Center Watch统计,2025年第二季度因地方反对受阻的数据中心项目投资额达980亿美元,创历史新高,反映出AI基建热潮正遭遇基层民生担忧与政治阻力。 美国总统特朗普在2026年大选临近之 […]

发布时间:2025年12月15日
中国建成全球最大AI超算网络

中国建成全球最大AI超算网络

快速阅读: 据业内人士透露,中国正式启用全球规模最大的人工智能分布式计算中心“未来网络试验设施”,覆盖40城、跨度超2000公里,通过高速光缆整合算力,训练千亿参数AI模型的效率大幅提升,整体周期缩短数月,支撑工业、医疗等实时应用,助力国家 […]

发布时间:2025年12月15日
亚马逊下架错误百出的AI剧情回顾

亚马逊下架错误百出的AI剧情回顾

快速阅读: 据多方消息,亚马逊为节省成本使用AI生成剧集回顾视频,却因事实错误引发批评,如将《辐射》核战时间错标为1950年代而非2077年,暴露其在自动化内容中忽视质量把控的问题。 亚马逊近期因使用人工智能生成的短视频替代人工制作内容引发 […]

发布时间:2025年12月15日
博通AI订单强劲提振分析师信心

博通AI订单强劲提振分析师信心

快速阅读: 据官方通报,博通AI业务持续扩张,订单积压达740亿美元,获美银和杰富瑞等机构看好,预计2026至2027财年AI销售额将达500亿至1000亿美元,客户群拓展及新项目放量支撑其长期增长。 博通公司近期发布财报后获得多家分析机构 […]

发布时间:2025年12月15日
AI热潮与互联网泡沫的相似之处

AI热潮与互联网泡沫的相似之处

快速阅读: 据摩根大通消息,当前AI热潮虽引发对泡沫风险的担忧,但与2000年互联网泡沫存在本质差异:主导企业如英伟达、谷歌等具备稳健盈利能力和万亿美元级市值,且市场警惕情绪或成稳定因素。 20世纪90年代中期兴起的互联网热潮推动了全球数字 […]

发布时间:2025年12月15日
特朗普行政令威胁制裁制定“过度”AI法规的州

特朗普行政令威胁制裁制定“过度”AI法规的州

快速阅读: 截至目前,公共公民组织联合主席罗伯特·魏斯曼批评大型科技企业获得政策优待,指出其背离特朗普阵营标榜的联邦主义原则;该行业近年投入超11亿美元用于政治游说,并深度介入政府AI政策制定,魏斯曼呼吁加强监管以维护公共利益。 罗伯特·魏 […]

发布时间:2025年12月15日
时代》致敬AI奠基者

时代》致敬AI奠基者

快速阅读: 据《时代》杂志报道,人工智能获评2025年度人物,因其正深刻改变人类的工作与思考方式;生成式AI推动其从实验室走向大众应用,英伟达跃居全球市值最高公司,专家呼吁在发展的同时关注就业影响与全球治理。 人工智能被《时代》杂志评为20 […]

发布时间:2025年12月15日