如果 AI 可以跳过无聊的部分会怎样?Google 研究人员让这一切成为现实
快速阅读: 据《黑客 Noon》最新报道,本研究通过动态分配计算资源,使基于转换器的语言模型更高效。实验结果显示,MoD转换器在训练和自回归评估中表现出色,能够在减少计算量的同时达到甚至超过基线模型的性能。该技术还可与MoE模型结合,进一步提高性能。研究成果已发布在arXiv网站,采用CC BY 4.0许可证。
作者:(1)大卫·拉波索,谷歌深度思维,共同贡献;(2)萨姆·里特,谷歌深度思维;(1)大卫·拉波索,谷歌深度思维,共同贡献;(3)布莱克·理查兹,谷歌深度思维、麦吉尔大学和米拉;(1)大卫·拉波索,谷歌深度思维,共同贡献;(4)蒂莫西·利利克拉普,谷歌深度思维;(1)大卫·拉波索,谷歌深度思维,共同贡献;(5)彼得·康韦·汉弗莱斯,谷歌深度思维;(1)大卫·拉波索,谷歌深度思维,共同贡献;(6)亚当·桑托罗,谷歌深度思维,共同贡献。(1)大卫·拉波索,谷歌深度思维,共同贡献。
编者注:这是关于通过动态分配计算资源使基于转换器的语言模型更高效的研究的第4部分。请继续阅读以下章节。
**链接表**
– 章节
– 引言章节
– 背景章节
– 引言章节
– 实现多深度转换器
– 3.1 定义计算预算
– 3.2 绕过转换器层
– 3.3 路由策略
– 3.4 路由实现
– 3.5 采样和
– 3.6 训练方法章节
– 结果
– 4.1 训练,isoFLOP 对比
– 4.2 自回归评估
– 4.3 多深度与专家混合(MoDE)章节
– 讨论和参考文献
### 结果
#### 4.1 训练,isoFLOP 对比
我们首先训练了具有相对较小FLOP预算(6e18)的模型以确定最优超参数(参见图3)。总体而言,我们发现MoD转换器将基线isoFLOP曲线“向下并向右移动”。也就是说,最优的MoD转换器比最优的基线模型损失更低,并且拥有更多的参数。这一效果的一个幸运结果是,存在较小的MoD模型,虽然它们在特定超参数设置下不是isoFLOP最优的,但在训练过程中却更快地达到或优于最优基线模型的性能。例如,一个有2.2亿参数的MoD(图3中的模型#3)变体稍微优于isoFLOP最优的基线模型(同样是2.2亿参数,图3中的模型#1),但在训练期间快60%以上。关键在于,在等效硬件上运行时,这两个模型变体需要大致相同的时间来完成训练(见图3)。我们测试了每块路由或每隔一块路由,使用从总序列的12.5%到95%的容量。虽然每隔一块路由对于强性能至关重要,但我们发现最激进的容量减少效果最佳(当容量减少至总序列的12.5%,即87.5%的标记绕过了块,性能开始下降)。因此,似乎只要网络有足够的机会进行全容量自注意力和MLP计算,网络就能对显著的容量减少保持稳健。学习路由至关重要,因为使用随机路由(通过从高斯分布中采样的路由器权重上的top-k操作实现)的MoD转换器的表现远逊于基线和常规MoD转换器(见图3)。图4展示了6e18、2e19和1e20总FLOP的isoFLOP分析。FLOP最优的MoD转换器比基线拥有更多参数的趋势在这更大的FLOP预算中继续。值得注意的是,存在一些MoD变体,它们在等效硬件上每秒步数明显快于isoFLOP最优的基线(测量为每秒步数),同时也能获得更低的损失(图4中我们展示的是每次前向传递的归一化FLOP,而非实际的时钟步长时间,但根据我们的实验,两者紧密相关。类似的图表可以生成显示相对的时钟步长时间,基本趋势仍然存在)。逐步速度提升有两个来源。首先,由于一些标记会绕过块,MoD转换器的每个参数的FLOP比率低于基线。因此,对于给定的模型大小,转换器在每次前向传递中需要较少的FLOP。其次,由于isoFLOP最优的MoD转换器既更大又损失更低,存在一些较小的MoD变体,其性能与isoFLOP最优的基线一样好或更好,这些变体由于较小而更快。图4还揭示了另一个重要发现:最优的MoD转换器是在每次前向传递中使用与isoFLOP最优基线相同数量的FLOP。
#### 4.2 自回归评估
我们在自回归抽样期间评估了MoD变体(见图6)。每个模型都在完全相同的保留数据集上进行了测试,包括256000个序列(5亿个标记)。从top-k路由方法切换到基于预测器的路由方法时,我们观察到性能几乎没有下降。正如在训练设置中一样,存在一些MoD变体,它们比isoFLOP最优的基线表现更好,而每次前向传递所需的FLOP更少。这些结果表明,MoD转换器提供的计算节省应该能够超越训练设置。
#### 4.3 多深度与专家混合(MoDE)
MoD技术可以自然地集成到MoE模型中(共同构成MoDE模型),除了普通的转换器。在图7中,我们展示了MoD提供的性能改进与MoE相结合的结果。我们尝试了两种变体:阶段式MoDE,它在自注意力步骤之前将标记绕过或导向块,以及集成式MoDE,它通过在传统MLP专家中整合“空操作”专家来实现MoD路由。前者的优势在于允许标记跳过自注意力步骤,而后者的优势在于简化了路由机制。我们注意到,以集成方式实现MoDE明显优于简单地减少常规MoE模型中专家的容量,并依赖标记丢弃来实现残差路由。我们认为这是因为,在集成式MoDE机制中,标记明确地学会了选择专家周围的残差路径,而不是偏好某个专家但在作为容量减少时被丢弃。
本文可在arxiv网站上获取,采用CC BY 4.0许可证。
(以上内容均由Ai生成)