8B模型性能媲美32B,成本直降90%,Mira Murati引领AI训练革命

发布时间:2025年10月30日    来源:szf
8B模型性能媲美32B,成本直降90%,Mira Murati引领AI训练革命

快速阅读: 前OpenAI CTO Mira Murati领导的团队开发“在线策略蒸馏”技术,使8B小模型性能接近32B大模型,训练成本降低90%,效率提升50-100倍,推动AI民主化。

当大模型军备竞赛让算力成本高不可攀,前OpenAI首席技术官Mira Murati领衔的Thinking Machines Lab,正用一项名为“在线策略蒸馏”(On-Policy Distillation)的突破性技术,为行业按下“重启键”。

最新 研究显示:仅80亿参数的小模型,经此方法训练后,性能可达32B大模型的70%,而训练成本骤降90%,效率提升50至100倍——这意味着,中小企业甚至个人开发者,也能以极低成本训练出媲美巨头的专用AI。

50-100倍效率跃升:150步干翻1.8万GPU小时 传统强化学习(RL)训练动辄需数万步迭代与海量算力。以数学推理任务AIME’24为例,纯RL方法耗费17,920个GPU小时,准确率仅68%;而采用在线策略蒸馏的Qwen3-8B模型,仅150步训练即达70%准确率,计算开销几乎可忽略。

其核心在于“每token密集反馈”机制:不同于RL仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个token实时评分,提供连续、精准的指导信号。这不仅加速收敛,更有效防止长序列训练中的“策略漂移”,让小模型在有限资源下稳定输出高质量结果。

破解“灾难性遗忘”:学新知识不忘旧本领 AI模型在注入新知识时常“忘本”——实验显示,某模型经内部文档微调后,指令遵循能力从85%暴跌至45%。而在线策略蒸馏通过实时轨迹采样+教师逐步校正,在保留41%新知识的同时,将原有能力迅速恢复至83%,远超传统微调或离线蒸馏。

这一特性使其特别适合企业场景:模型可动态学习业务新规、产品文档,而不丢失基础对话、工具调用等核心能力,真正实现“持续进化”。

四步闭环:简洁架构,普惠落地 该方法实现极为轻量,仅需四步闭环: 部署教师模型(如32B大模型)作为监督源; 学生模型生成响应轨迹; 教师计算每个token的对数概率; 以反向KL散度为损失,优化学生参数。

无需复杂基础设施,兼容现有蒸馏框架,即可实现“廉价而准确”的性能跃迁。论文指出,该技术可无缝扩展至代码生成、多模态推理等任务,为“教师-学生”协同训练开辟新路径。

Mira Murati的“降维打击”:AI民主化的关键钥匙 作为OpenAI前CTO,Murati将大模型训练的实战经验反哺于高效小模型生态。在AI安全与对齐日益重要的今天,在线策略蒸馏不仅提升效率,更通过可控的知识迁移,增强模型行为的可预测性。

行业专家预测,该技术将极大推动开源模型与边缘AI的发展——当8B模型能胜任32B任务,手机、IoT设备乃至本地服务器,都将成为高性能AI的载体。智能,正从“云端垄断”走向“人人可及”。

这场由Murati掀起的训练革命,或许正是AI从“巨头游戏”迈向“普惠工具”的转折点。当小模型也能“聪明”如大模型,真正的智能民主化时代,才刚刚开始。

(以上内容均由Ai生成)

你可能还想读

科技巨头财报夜:Meta巨资押注AI遭市场质疑,Alphabet与微软表现稳健

科技巨头财报夜:Meta巨资押注AI遭市场质疑,Alphabet与微软表现稳健

快速阅读: 纽约盘后交易,Alphabet财报超预期股价上涨,微软稳健财报未达高期待股价微跌,Meta加大AI投资致股价大跌,市值蒸发超1550亿美元。 纽约盘后交易时段的活跃表现揭示了明显的市场偏好。Alphabet轻松超越预期并获得奖励 […]

发布时间:2025年10月31日
律师探讨AI与商业秘密风险

律师探讨AI与商业秘密风险

快速阅读: 主持人Tina和Jennie与律师Michael Parente讨论AI工具在工作中的使用增加带来的法律风险,包括虚假索赔、内部威胁和商业秘密盗窃,特别是在政府合同环境下的挑战。 在本期节目中,主持人Tina和Jennie邀请了 […]

发布时间:2025年10月31日
微软Copilot新功能:安全沙箱助力深度研究

微软Copilot新功能:安全沙箱助力深度研究

快速阅读: 微软365 Copilot更新推出“研究员计算机使用”,利用Windows 11 Pro沙箱技术,提升AI深度研究能力,增强安全性与用户互动,性能显著提升44%。 微软 Copilot 正利用 Windows 11 Pro 的一 […]

发布时间:2025年10月31日
新型AI浏览器技术被用于传播虚假内容,引发信息安全新挑战

新型AI浏览器技术被用于传播虚假内容,引发信息安全新挑战

快速阅读: 新型隐身技术利用AI浏览器如ChatGPT Atlas传递误导信息,通过篡改网页内容影响AI决策,对招聘、商业及声誉管理构成威胁,需加强数据源验证和监控。 一种新的针对代理的隐身技术利用了像OpenAI的ChatGPT Atla […]

发布时间:2025年10月31日
24HR卡车服务推出AI驱动的重型车辆救援平台

24HR卡车服务推出AI驱动的重型车辆救援平台

快速阅读: 24HR Truck Services推出新一代AI支持的路边援助平台,专为保险公司及房车、重型卡车客户提供更快捷、可靠的服务,同时降低成本。 特拉华州威尔明顿,2025年10月30日 — 全国领先的卡车服务公司24HR Tru […]

发布时间:2025年10月31日
研究发现:对ChatGPT粗鲁可提高准确性,但后果堪忧

研究发现:对ChatGPT粗鲁可提高准确性,但后果堪忧

快速阅读: 宾夕法尼亚州立大学研究显示,对AI不礼貌的提示能提高其准确性,但可能损害用户体验和沟通规范,研究强调了人机交互的复杂性。 研究人员表示,对AI下属采取强硬态度可能比礼貌更有效,但这并不意味着长期而言,粗鲁的态度不会带来后果。宾夕 […]

发布时间:2025年10月31日
英伟达与Flex合作打造大规模AI工厂

英伟达与Flex合作打造大规模AI工厂

快速阅读: 英伟达与Flex合作开发高性能、高能效的AI工厂,利用Flex的制造能力和全球布局,开发模块化数据中心系统,满足美国AI基础设施需求,采用英伟达cuOpt优化引擎提升规划和流程效率。 英伟达与制造开发商Flex合作开发大规模AI […]

发布时间:2025年10月31日
谷歌推出Android新AI功能,助力开发者构建智能应用

谷歌推出Android新AI功能,助力开发者构建智能应用

快速阅读: 谷歌安卓部门发布多个人工智能新功能,包括Google Nano微型模型,增强设备端AI能力,支持图像生成和Android Studio“氛围编码”功能更新。新功能提升开发者效率,加强安全性和隐私保护。 谷歌旗下的安卓部门今日宣布 […]

发布时间:2025年10月31日