如果 AI 可以跳过无聊的部分会怎样?Google 研究人员让这一切成为现实

发布时间:2025年2月23日    来源:szf
如果 AI 可以跳过无聊的部分会怎样?Google 研究人员让这一切成为现实

快速阅读: 据《黑客 Noon》最新报道,本研究通过动态分配计算资源,使基于转换器的语言模型更高效。实验结果显示,MoD转换器在训练和自回归评估中表现出色,能够在减少计算量的同时达到甚至超过基线模型的性能。该技术还可与MoE模型结合,进一步提高性能。研究成果已发布在arXiv网站,采用CC BY 4.0许可证。

作者:(1)大卫·拉波索,谷歌深度思维,共同贡献;(2)萨姆·里特,谷歌深度思维;(1)大卫·拉波索,谷歌深度思维,共同贡献;(3)布莱克·理查兹,谷歌深度思维、麦吉尔大学和米拉;(1)大卫·拉波索,谷歌深度思维,共同贡献;(4)蒂莫西·利利克拉普,谷歌深度思维;(1)大卫·拉波索,谷歌深度思维,共同贡献;(5)彼得·康韦·汉弗莱斯,谷歌深度思维;(1)大卫·拉波索,谷歌深度思维,共同贡献;(6)亚当·桑托罗,谷歌深度思维,共同贡献。(1)大卫·拉波索,谷歌深度思维,共同贡献。

编者注:这是关于通过动态分配计算资源使基于转换器的语言模型更高效的研究的第4部分。请继续阅读以下章节。

**链接表**

– 章节
– 引言章节
– 背景章节
– 引言章节
– 实现多深度转换器
– 3.1 定义计算预算
– 3.2 绕过转换器层
– 3.3 路由策略
– 3.4 路由实现
– 3.5 采样和
– 3.6 训练方法章节
– 结果
– 4.1 训练,isoFLOP 对比
– 4.2 自回归评估
– 4.3 多深度与专家混合(MoDE)章节
– 讨论和参考文献

### 结果

#### 4.1 训练,isoFLOP 对比

我们首先训练了具有相对较小FLOP预算(6e18)的模型以确定最优超参数(参见图3)。总体而言,我们发现MoD转换器将基线isoFLOP曲线“向下并向右移动”。也就是说,最优的MoD转换器比最优的基线模型损失更低,并且拥有更多的参数。这一效果的一个幸运结果是,存在较小的MoD模型,虽然它们在特定超参数设置下不是isoFLOP最优的,但在训练过程中却更快地达到或优于最优基线模型的性能。例如,一个有2.2亿参数的MoD(图3中的模型#3)变体稍微优于isoFLOP最优的基线模型(同样是2.2亿参数,图3中的模型#1),但在训练期间快60%以上。关键在于,在等效硬件上运行时,这两个模型变体需要大致相同的时间来完成训练(见图3)。我们测试了每块路由或每隔一块路由,使用从总序列的12.5%到95%的容量。虽然每隔一块路由对于强性能至关重要,但我们发现最激进的容量减少效果最佳(当容量减少至总序列的12.5%,即87.5%的标记绕过了块,性能开始下降)。因此,似乎只要网络有足够的机会进行全容量自注意力和MLP计算,网络就能对显著的容量减少保持稳健。学习路由至关重要,因为使用随机路由(通过从高斯分布中采样的路由器权重上的top-k操作实现)的MoD转换器的表现远逊于基线和常规MoD转换器(见图3)。图4展示了6e18、2e19和1e20总FLOP的isoFLOP分析。FLOP最优的MoD转换器比基线拥有更多参数的趋势在这更大的FLOP预算中继续。值得注意的是,存在一些MoD变体,它们在等效硬件上每秒步数明显快于isoFLOP最优的基线(测量为每秒步数),同时也能获得更低的损失(图4中我们展示的是每次前向传递的归一化FLOP,而非实际的时钟步长时间,但根据我们的实验,两者紧密相关。类似的图表可以生成显示相对的时钟步长时间,基本趋势仍然存在)。逐步速度提升有两个来源。首先,由于一些标记会绕过块,MoD转换器的每个参数的FLOP比率低于基线。因此,对于给定的模型大小,转换器在每次前向传递中需要较少的FLOP。其次,由于isoFLOP最优的MoD转换器既更大又损失更低,存在一些较小的MoD变体,其性能与isoFLOP最优的基线一样好或更好,这些变体由于较小而更快。图4还揭示了另一个重要发现:最优的MoD转换器是在每次前向传递中使用与isoFLOP最优基线相同数量的FLOP。

#### 4.2 自回归评估

我们在自回归抽样期间评估了MoD变体(见图6)。每个模型都在完全相同的保留数据集上进行了测试,包括256000个序列(5亿个标记)。从top-k路由方法切换到基于预测器的路由方法时,我们观察到性能几乎没有下降。正如在训练设置中一样,存在一些MoD变体,它们比isoFLOP最优的基线表现更好,而每次前向传递所需的FLOP更少。这些结果表明,MoD转换器提供的计算节省应该能够超越训练设置。

#### 4.3 多深度与专家混合(MoDE)

MoD技术可以自然地集成到MoE模型中(共同构成MoDE模型),除了普通的转换器。在图7中,我们展示了MoD提供的性能改进与MoE相结合的结果。我们尝试了两种变体:阶段式MoDE,它在自注意力步骤之前将标记绕过或导向块,以及集成式MoDE,它通过在传统MLP专家中整合“空操作”专家来实现MoD路由。前者的优势在于允许标记跳过自注意力步骤,而后者的优势在于简化了路由机制。我们注意到,以集成方式实现MoDE明显优于简单地减少常规MoE模型中专家的容量,并依赖标记丢弃来实现残差路由。我们认为这是因为,在集成式MoDE机制中,标记明确地学会了选择专家周围的残差路径,而不是偏好某个专家但在作为容量减少时被丢弃。

本文可在arxiv网站上获取,采用CC BY 4.0许可证。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日