8B模型性能媲美32B,成本直降90%,Mira Murati引领AI训练革命

发布时间:2025年10月30日    来源:szf
8B模型性能媲美32B,成本直降90%,Mira Murati引领AI训练革命

快速阅读: 前OpenAI CTO Mira Murati领导的团队开发“在线策略蒸馏”技术,使8B小模型性能接近32B大模型,训练成本降低90%,效率提升50-100倍,推动AI民主化。

当大模型军备竞赛让算力成本高不可攀,前OpenAI首席技术官Mira Murati领衔的Thinking Machines Lab,正用一项名为“在线策略蒸馏”(On-Policy Distillation)的突破性技术,为行业按下“重启键”。

最新 研究显示:仅80亿参数的小模型,经此方法训练后,性能可达32B大模型的70%,而训练成本骤降90%,效率提升50至100倍——这意味着,中小企业甚至个人开发者,也能以极低成本训练出媲美巨头的专用AI。

50-100倍效率跃升:150步干翻1.8万GPU小时 传统强化学习(RL)训练动辄需数万步迭代与海量算力。以数学推理任务AIME’24为例,纯RL方法耗费17,920个GPU小时,准确率仅68%;而采用在线策略蒸馏的Qwen3-8B模型,仅150步训练即达70%准确率,计算开销几乎可忽略。

其核心在于“每token密集反馈”机制:不同于RL仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个token实时评分,提供连续、精准的指导信号。这不仅加速收敛,更有效防止长序列训练中的“策略漂移”,让小模型在有限资源下稳定输出高质量结果。

破解“灾难性遗忘”:学新知识不忘旧本领 AI模型在注入新知识时常“忘本”——实验显示,某模型经内部文档微调后,指令遵循能力从85%暴跌至45%。而在线策略蒸馏通过实时轨迹采样+教师逐步校正,在保留41%新知识的同时,将原有能力迅速恢复至83%,远超传统微调或离线蒸馏。

这一特性使其特别适合企业场景:模型可动态学习业务新规、产品文档,而不丢失基础对话、工具调用等核心能力,真正实现“持续进化”。

四步闭环:简洁架构,普惠落地 该方法实现极为轻量,仅需四步闭环: 部署教师模型(如32B大模型)作为监督源; 学生模型生成响应轨迹; 教师计算每个token的对数概率; 以反向KL散度为损失,优化学生参数。

无需复杂基础设施,兼容现有蒸馏框架,即可实现“廉价而准确”的性能跃迁。论文指出,该技术可无缝扩展至代码生成、多模态推理等任务,为“教师-学生”协同训练开辟新路径。

Mira Murati的“降维打击”:AI民主化的关键钥匙 作为OpenAI前CTO,Murati将大模型训练的实战经验反哺于高效小模型生态。在AI安全与对齐日益重要的今天,在线策略蒸馏不仅提升效率,更通过可控的知识迁移,增强模型行为的可预测性。

行业专家预测,该技术将极大推动开源模型与边缘AI的发展——当8B模型能胜任32B任务,手机、IoT设备乃至本地服务器,都将成为高性能AI的载体。智能,正从“云端垄断”走向“人人可及”。

这场由Murati掀起的训练革命,或许正是AI从“巨头游戏”迈向“普惠工具”的转折点。当小模型也能“聪明”如大模型,真正的智能民主化时代,才刚刚开始。

(以上内容均由Ai生成)

你可能还想读

谷歌母公司财报超预期,云业务和AI投资助力增长

谷歌母公司财报超预期,云业务和AI投资助力增长

快速阅读: 谷歌母公司Alphabet因云服务和AI需求激增,三季度收入达875亿美元超预期,净利润2.87美元。公司将加大AI投资,全年资本支出增至910-930亿美元,推动业务增长。 谷歌母公司Alphabet宣布,由于其云服务和人工智 […]

发布时间:2025年10月31日
美股下跌,Meta和微软因AI投资拖累股价

美股下跌,Meta和微软因AI投资拖累股价

快速阅读: 华尔街三大股指周四下跌,纳斯达克和标普500领跌,Meta和微软因AI支出激增股价下挫。美联储维持鹰派立场,引发市场对未来政策担忧。 华尔街三大股指周四下跌,纳斯达克综合指数和标普500领跌,因Meta和微软股价因人工智能支出激 […]

发布时间:2025年10月31日
AI乐观派与怀疑论者皆有误,中间立场更可信

AI乐观派与怀疑论者皆有误,中间立场更可信

快速阅读: 本月伯克利举行“The Curve”人工智能会议,探讨AGI前景。乐观者认为AI将迅速发展并带来巨大变革,悲观者则指出AI被过度炒作且无实际价值。讨论涉及AI项目成功率低等问题,呼吁理性看待AI发展。 本月早些时候,我参加了一个 […]

发布时间:2025年10月31日
OpenAI更新GPT-5,提升情感支持能力

OpenAI更新GPT-5,提升情感支持能力

快速阅读: OpenAI于10月5日更新GPT-5,增强敏感对话处理能力,自动识别情绪困扰并提供支持。GPT-5即时版为主要受益对象,可在检测到情绪问题时自动接管对话,提供危机资源链接。此外,ChatGPT现可接入企业应用,提供定制化服务。 […]

发布时间:2025年10月31日
谷歌CEO皮查伊兴奋宣布与Reliance合作,印度用户免费享AI服务

谷歌CEO皮查伊兴奋宣布与Reliance合作,印度用户免费享AI服务

快速阅读: 谷歌与信实Jio合作,将为印度用户提供18个月免费的AI Pro计划,包括Gemini 2.5 Pro、2TB存储等,助力印度AI普及和数字化建设。 新德里,10月31日(ANI):谷歌及Alphabet首席执行官桑达尔·皮查伊 […]

发布时间:2025年10月31日
亚马逊加大AI投资,股价大涨

亚马逊加大AI投资,股价大涨

快速阅读: 亚马逊增加509亿美元投资用于AI基础设施建设,新增3.8吉瓦电力支持,推出大规模计算集群。同时,因法律和解及裁员费用,运营收入持平,股价盘后上涨11%。 科技巨头们正在投入巨资建设人工智能计算能力,这些公司坚称,随着全球客户对 […]

发布时间:2025年10月31日
Meta股价大跌,因计划增加AI基础设施支出

Meta股价大跌,因计划增加AI基础设施支出

快速阅读: Meta股价因计划加大AI投资而下跌11%,市场担忧成本增加。尽管Meta的AI广告工具表现良好,但现实实验室持续亏损,影响股价。 在周四收盘时,Meta的股价下跌超过11%,原因是该公司在第三季度财报中告知投资者,计划在今年剩 […]

发布时间:2025年10月31日
OpenAI更新GPT-5,提升情感支持能力

OpenAI更新GPT-5,提升情感支持能力

快速阅读: OpenAI于10月5日更新GPT-5,增强敏感对话处理能力,自动识别用户情绪困扰,引导至即时版模型。更新在心理健康专家指导下完成,旨在缓和对话氛围,提供情感支持。 OpenAI 确认于10月5日发布了更新,使GPT-5能够更好 […]

发布时间:2025年10月31日