Thinking Machine推出在线策略蒸馏,小模型训练效率提升百倍

发布时间:2025年10月28日    来源:szf
Thinking Machine推出在线策略蒸馏,小模型训练效率提升百倍

快速阅读: AI团队Thinking Machine发布在线策略蒸馏技术,大幅提升小模型训练效率50至100倍,获前OpenAI CTO转发关注。此技术融合强化与监督学习优势,解决模型“灾难性遗忘”,降低开发成本,推动高效智能解决方案发展。

近日,AI新锐团队Thinking Machine发布了一种突破性的训练方法——在线策略蒸馏(On-Policy Distillation),使得小模型在特定任务上的训练效率提升了50至100倍。这一成果一经发布,立即得到了前OpenAI首席技术官Mira Murati的转发,引起了学术界和工业界的广泛关注。

在线策略蒸馏融合了强化学习与监督学习,开创了“AI教练”新模式。传统AI训练面临两大难题:强化学习使模型能够自主探索,虽然灵活但效率低下;监督微调则直接提供标准答案,虽高效但较为僵化。在线策略蒸馏巧妙地结合了这两者的优势,就像给学生模型配上了“实时教练”。学生模型在自主生成内容时,强大的教师模型会对其每一步输出进行动态评分和指导,通过最小化两者间的KL散度,实现精确且稳定的知识转移。

这种机制不仅克服了传统蒸馏方法“只学结果、不学过程”的问题,还有效防止了模型“走捷径”或过拟合,显著提高了模型的泛化能力。实际测试显示,在数学推理任务中,研究团队仅用了原强化学习方法1/7到1/10的训练步数,就使8B小模型达到了接近32B大模型的性能水平,整体计算成本降低了两个数量级。这意味着,即使资源有限的中小企业或研究团队,也能够高效地训练出与大公司相匹敌的专业模型。

更重要的是,这种方法成功解决了企业AI落地过程中常见的“灾难性遗忘”问题。在一个企业助理实验中,模型在学习新业务知识的同时,还能完好地保留原有的对话和工具调用能力,为需要持续迭代的行业AI系统提供了可行方案。

该研究由Kevin Lu领导,他曾是OpenAI的关键项目负责人,现在作为Thinking Machine的核心成员,将大模型训练的前沿经验应用于高效的小模型生态系统。他的团队认为,在AI日益垂直化和场景化的今天,“小而精”的模型将成为商业应用的主力军,而在线策略蒸馏正是实现这一目标的关键技术。

随着算力瓶颈的日益突出,行业正从追求大模型转向寻求高效的智能化解决方案。Thinking Machine的这一突破,不仅大大降低了AI开发的门槛,也预示着一个高性价比专业模型的新时代即将到来。论文链接:https://thinkingmachines.ai/blog/on-policy-distillation/

(以上内容均由Ai生成)

你可能还想读

1X发布会说家机器人NEO,人形机器人竞赛升温

1X发布会说家机器人NEO,人形机器人竞赛升温

快速阅读: 中国宇树机器人推出四英尺高G1人形机器人,采用预算策略;国防科技大学与美的集团合作,利用HumanoidExo系统捕捉全身动作,训练机器人更像人类移动。 中国制造商宇树机器人采取预算策略,推出其四英尺高的G1人形机器人。同时,国 […]

发布时间:2025年10月29日
卡里隆NASA式运营中心集成AI,缩短等待时间

卡里隆NASA式运营中心集成AI,缩短等待时间

快速阅读: 卡里隆转移和通信中心(CTac)参照NASA设计,自2011年创建以来,成为医院管理和患者流动的创新典范。CTac监控卡里隆诊所及区域设施,处理转院请求和紧急情况,现引入AI技术提升效率,每年接待超18万急诊患者,处理约1650 […]

发布时间:2025年10月29日
生命时钟预测疾病,AI提前揭示健康风险

生命时钟预测疾病,AI提前揭示健康风险

快速阅读: 科学家开发出覆盖全生命周期的生物钟模型“LifeClock”,能预测疾病风险,区分儿科发育与成人衰老的生物节奏,为精准医疗提供低成本工具。 科学家利用基于变换器的人工智能技术,开发了一种覆盖整个生命周期的生物钟模型,该模型能够预 […]

发布时间:2025年10月29日
参议员提议禁止青少年使用AI聊天机器人

参议员提议禁止青少年使用AI聊天机器人

快速阅读: 新法案要求AI聊天机器人每30分钟披露非人类身份,设防避免冒充人类,并禁止运营危害未成年人的聊天机器人,加强AI安全监管。 根据法案,AI聊天机器人需每30分钟披露一次其非人类身份。法案还要求这些机器人设置防护措施,防止它们声称 […]

发布时间:2025年10月29日
Adobe推出Photoshop AI助手,自动化设计重复任务

Adobe推出Photoshop AI助手,自动化设计重复任务

快速阅读: Adobe推出专为Photoshop设计的新AI助手,助力设计师自动化工作,提供个性化建议和教程。此助手亦将集成至Adobe Express,支持对话式编辑。新功能包括Harmonize、生成填充等,现已上线。Photoshop […]

发布时间:2025年10月29日
微软注资OpenAI重组,估值飙升至5000亿

微软注资OpenAI重组,估值飙升至5000亿

快速阅读: OpenAI与微软达成协议,重组为公共利益公司,微软将持有27%股份,估值1350亿美元。此举结束18个月动荡,增强投资者信心,推动AI发展。 OpenAI 获得了新的生机。周二,该公司宣布与微软达成协议,将重组为一家公共利益公 […]

发布时间:2025年10月29日
英伟达斥资 10 亿美元入股诺基亚,后者股价应声大涨 22%

英伟达斥资 10 亿美元入股诺基亚,后者股价应声大涨 22%

快速阅读: 英伟达向诺基亚投资10亿美元,成为第二大股东。诺基亚股价飙升22%,创近十年新高。双方将合作开发6G技术和人工智能网络,诺基亚将调整5G、6G软件以适配英伟达芯片。 感谢IT之家网友 HH_KK 的线索投递! IT之家 10 月 […]

发布时间:2025年10月29日
亚马逊为“减少官僚作风”将裁员 1.4 万人,同时加大 AI 投入力度

亚马逊为“减少官僚作风”将裁员 1.4 万人,同时加大 AI 投入力度

快速阅读: 亚马逊宣布企业部门裁员14000人,旨在精简管理层、减少官僚作风,加大AI战略投入。此次裁员为2022年来第二大行动,公司计划继续优化结构,提高竞争力。 IT之家 10 月 29 日消息,据外媒 TechCrunch 报道,当地 […]

发布时间:2025年10月29日