Thinking Machine推出在线策略蒸馏，小模型训练效率提升百倍

发布时间：2025年10月28日来源：szf

快速阅读: AI团队Thinking Machine发布在线策略蒸馏技术，大幅提升小模型训练效率50至100倍，获前OpenAI CTO转发关注。此技术融合强化与监督学习优势，解决模型“灾难性遗忘”，降低开发成本，推动高效智能解决方案发展。

近日，AI新锐团队Thinking Machine发布了一种突破性的训练方法——在线策略蒸馏（On-Policy Distillation），使得小模型在特定任务上的训练效率提升了50至100倍。这一成果一经发布，立即得到了前OpenAI首席技术官Mira Murati的转发，引起了学术界和工业界的广泛关注。

在线策略蒸馏融合了强化学习与监督学习，开创了“AI教练”新模式。传统AI训练面临两大难题：强化学习使模型能够自主探索，虽然灵活但效率低下；监督微调则直接提供标准答案，虽高效但较为僵化。在线策略蒸馏巧妙地结合了这两者的优势，就像给学生模型配上了“实时教练”。学生模型在自主生成内容时，强大的教师模型会对其每一步输出进行动态评分和指导，通过最小化两者间的KL散度，实现精确且稳定的知识转移。

这种机制不仅克服了传统蒸馏方法“只学结果、不学过程”的问题，还有效防止了模型“走捷径”或过拟合，显著提高了模型的泛化能力。实际测试显示，在数学推理任务中，研究团队仅用了原强化学习方法1/7到1/10的训练步数，就使8B小模型达到了接近32B大模型的性能水平，整体计算成本降低了两个数量级。这意味着，即使资源有限的中小企业或研究团队，也能够高效地训练出与大公司相匹敌的专业模型。

更重要的是，这种方法成功解决了企业AI落地过程中常见的“灾难性遗忘”问题。在一个企业助理实验中，模型在学习新业务知识的同时，还能完好地保留原有的对话和工具调用能力，为需要持续迭代的行业AI系统提供了可行方案。

该研究由Kevin Lu领导，他曾是OpenAI的关键项目负责人，现在作为Thinking Machine的核心成员，将大模型训练的前沿经验应用于高效的小模型生态系统。他的团队认为，在AI日益垂直化和场景化的今天，“小而精”的模型将成为商业应用的主力军，而在线策略蒸馏正是实现这一目标的关键技术。

随着算力瓶颈的日益突出，行业正从追求大模型转向寻求高效的智能化解决方案。Thinking Machine的这一突破，不仅大大降低了AI开发的门槛，也预示着一个高性价比专业模型的新时代即将到来。论文链接：https://thinkingmachines.ai/blog/on-policy-distillation/

(以上内容均由Ai生成)