Thinking Machine推出在线策略蒸馏,小模型训练效率提升百倍
快速阅读: AI团队Thinking Machine发布在线策略蒸馏技术,大幅提升小模型训练效率50至100倍,获前OpenAI CTO转发关注。此技术融合强化与监督学习优势,解决模型“灾难性遗忘”,降低开发成本,推动高效智能解决方案发展。
近日,AI新锐团队Thinking Machine发布了一种突破性的训练方法——在线策略蒸馏(On-Policy Distillation),使得小模型在特定任务上的训练效率提升了50至100倍。这一成果一经发布,立即得到了前OpenAI首席技术官Mira Murati的转发,引起了学术界和工业界的广泛关注。
在线策略蒸馏融合了强化学习与监督学习,开创了“AI教练”新模式。传统AI训练面临两大难题:强化学习使模型能够自主探索,虽然灵活但效率低下;监督微调则直接提供标准答案,虽高效但较为僵化。在线策略蒸馏巧妙地结合了这两者的优势,就像给学生模型配上了“实时教练”。学生模型在自主生成内容时,强大的教师模型会对其每一步输出进行动态评分和指导,通过最小化两者间的KL散度,实现精确且稳定的知识转移。
这种机制不仅克服了传统蒸馏方法“只学结果、不学过程”的问题,还有效防止了模型“走捷径”或过拟合,显著提高了模型的泛化能力。实际测试显示,在数学推理任务中,研究团队仅用了原强化学习方法1/7到1/10的训练步数,就使8B小模型达到了接近32B大模型的性能水平,整体计算成本降低了两个数量级。这意味着,即使资源有限的中小企业或研究团队,也能够高效地训练出与大公司相匹敌的专业模型。
更重要的是,这种方法成功解决了企业AI落地过程中常见的“灾难性遗忘”问题。在一个企业助理实验中,模型在学习新业务知识的同时,还能完好地保留原有的对话和工具调用能力,为需要持续迭代的行业AI系统提供了可行方案。
该研究由Kevin Lu领导,他曾是OpenAI的关键项目负责人,现在作为Thinking Machine的核心成员,将大模型训练的前沿经验应用于高效的小模型生态系统。他的团队认为,在AI日益垂直化和场景化的今天,“小而精”的模型将成为商业应用的主力军,而在线策略蒸馏正是实现这一目标的关键技术。
随着算力瓶颈的日益突出,行业正从追求大模型转向寻求高效的智能化解决方案。Thinking Machine的这一突破,不仅大大降低了AI开发的门槛,也预示着一个高性价比专业模型的新时代即将到来。论文链接:https://thinkingmachines.ai/blog/on-policy-distillation/
(以上内容均由Ai生成)