AI 模型正在学习确定自己想法的优先级，而且效果非常有效

快速阅读: 据《黑客 Noon》称，本文研究了通过动态分配计算资源以提高基于变压器的语言模型效率。研究显示，使用学习到的路由决策可以有效减少浮点运算，且在训练期间成功应用了top-k路由方案。该方法在自回归采样时无需未来信息，通过简单的辅助分类器即可实现。这一发现为改进MoD变压器提供了新思路，有助于显著增加预测的上下文长度。

—
This study explores dynamic resource allocation to improve the efficiency of transformer-based language models. It shows that using learned routing decisions can effectively reduce floating-point operations, with successful application of top-k routing during training. This method does not require future information for autoregressive sampling, achieving results through a simple auxiliary classifier. The findings offer new insights for improving MoD transformers, potentially increasing the context length for predictions.

作者：(1) 大卫·拉波索，谷歌DeepMind，共同第一作者；(2) 萨姆·里特，谷歌DeepMind；(1) 大卫·拉波索，谷歌DeepMind，共同第一作者；(3) 布莱克·理查兹，谷歌DeepMind，同时与麦吉尔大学和Mila合作；(4) 蒂莫西·利利克拉普，谷歌DeepMind；(5) 彼得·康韦·汉弗莱斯，谷歌DeepMind；(4) 蒂莫西·利利克拉普，谷歌DeepMind；(6) 亚当·桑托罗，谷歌DeepMind，共同第一作者。

编者注：这是关于通过动态分配计算资源来提高基于变压器的语言模型效率的研究的第五部分也是最后一部分。请继续阅读以下内容。

链接表
引言
背景
实现深度混合变压器
3.1. 定义计算预算
3.2. 绕过变压器块
3.3. 路由方案
3.4. 路由实现
3.3. 路由方案
3.5. 抽样和 3.6. 训练方法
结果
4.1. 训练，isoFLOP比较
4.2. 自回归评估
4.3. 深度和专家混合（MoDE）
讨论与参考文献

5. 讨论

尽管MoD变压器每前向传递所需的浮点运算较少，但不能无差别地减少浮点运算。关键在于使用学习到的路由决策，类似于混合专家变压器中的做法，来判断标记是否应参与自注意力和后续的MLP（需要浮点运算），或者不参与（节省浮点运算）。然后，我们可以利用任何节省下来的浮点运算，例如，使模型更大或训练时间更长。

我们的结果显示，实际上在普通的变压器模型中浮点运算可能被低效地使用，并且可能存在更高效的使用方式。学习的路由机制有时是非因果的；也就是说，未来的信息被用来决定给定标记的路由决策。这对于top-k路由机制通常是正确的，因为它们省去了辅助平衡损失的需要。然而，top-k路由机制在训练后的自回归采样中存在困难，在那里无法使用未来标记身份的信息来决定路由决策。

在这项工作中，我们展示了可以在训练期间成功使用top-k路由方案，但在后期自回归采样时不需要它。一个简单的辅助分类器或路由器上的辅助损失就足以学习top-k路由决策，使其能够在自回归采样期间模仿top-k决策，且性能降级最小或没有。

直观上，一个标记可能会学会绕过某些块，因为该步骤的预测较为简单，因此不需要太多的计算。然而，这显然不是网络所学的全部。如果一个标记在一个特定的块中不参与自注意力，则稍后的标记也无法对其进行关注。因此，标记是否决定路由会影响当前步骤的预测和未来的预测，通过因果自注意力，网络如何平衡这些影响是由它们对整体语言建模目标的影响指导的。

这一发现为MoD变体提供了新的思路，即解耦查询、键和值的路由。例如，也许一个标记在给定的自注意力计算中更愿意成为查询，而不是键。人们可以想象将这个想法进一步扩展到“长期记忆”领域：也许有些标记作为键非常有价值，即使它们在出现时并不一定作为查询也是如此。学习的路由可能是决定哪些标记可能成为这样的机制，也许将它们引导到一个在未来的自注意力中可用的长期记忆缓冲区。

这种方法的优势在于标记在“记忆编码”时刻只需决定一次，是否在未来被检索。这可能是显著增加用于预测的上下文长度的一个步骤，比每次对未来步骤执行基于内容的整个内存缓冲区查找更计算高效，可能是大幅增加用于做出预测的上下文长度的一个步骤。

参考文献：

K. 乔和Y. 苯吉奥。深度学习中条件计算的能力与计算比率呈指数增长，2014年。

M. 德格汉尼，S. 戈乌兹，O. 维尼亚尔斯，J. 乌斯科雷特和Ł. 凯撒。通用Transformer。arXiv预印本arXiv:1807.03819，2018年。

M. 胡拜亚德，J. 顾，E. 格雷夫和M. 奥利。深度自适应Transformer。CoRR，abs/1910.10073，2019年。

M. 德格汉尼，S. 戈乌兹，O. 维尼亚尔斯，J. 乌斯科雷特和Ł. 凯撒。通用Transformer。arXiv预印本arXiv:1807.03819，2018年。

W. 费杜斯，B. 沙福和N. 沙泽尔。切换Transformer：通过简单而有效的稀疏性扩展至万亿参数模型，2022年。

A. 格雷夫斯。递归神经网络的自适应计算时间。CoRR，abs/1603.08983，2016年。

M. 郭，J. 艾因斯利，D. 乌瑟斯，S. 奥南农，J. 尼，Y.-H. 宋和Y. 杨。LongT5：高效文本到文本Transformer用于长序列，2022年。

M. 古普塔和P. 阿格拉瓦尔。深度学习文本模型压缩：一项调查，2021年。

J. 何，C. 周，X. 马，T. 贝格-柯克帕特里克和G. 内比格。参数高效迁移学习的统一视角。arXiv预印本arXiv:2110.04366，2021年。

Y. 耶尔尼特，E. 格雷夫，A. 朱林和T. 米科洛夫。递归神经网络中的变量计算，2017年。

T. 雷，J. 白，S. 布拉马，J. 艾因斯利，K. 李，Y. 周，N. 杜，V. Y. 赵，Y. 吴，B. 李，Y. 张和M.-W. 昌。条件适配器：参数高效迁移学习并具有快速推理，2023年。

D. 列皮欣，H. 李，Y. 许，D. 陈，O. 菲拉特，Y. 黄，M. 克里昆，N. 沙泽尔和Z. 陈。GShard：使用条件计算和自动分片扩展巨型模型，2020年。

Z. 刘，Z. 徐，H.-J. 王，T. 达雷尔和E. 谢尔哈默。任何时间密集预测与置信度自适应。arXiv预印本arXiv:2104.00749，2021年。

T. 施特劳斯，A. 费施，J. 古普塔，M. 德格汉尼，D. 巴赫里，V. Q. 陈，Y. 泰和D. 梅茨勒。自信自适应语言建模，2022年。

N. 沙泽尔，A. 米尔霍塞尼，K. 马扎里兹，A. 戴维斯，Q. 乐，G. 辛顿和J. 迪恩。超大规模神经网络：稀疏门控混合专家层。arXiv预印本arXiv:1701.06538，2017年。

A. 西莫林和B. 克拉布。多少层及为何？关于变换器中模型深度的分析。在计算语言学协会第59届年会和第11届国际自然语言处理联合会议学生研究研讨会论文集，第221-228页，在线，2021年8月。计算语言学协会。doi: 10.18653/v1/2021.acl-srw.23。URL https://aclanthology.org/2021.acl-srw.23。

Y. 泰，M. 德格汉尼，D. 巴赫里和D. 梅茨勒。高效的Transformer：一项调查。CoRR，abs/2009.06732，2020年。URL https://arxiv.org/abs/2009.06732。

X. 王，F. 余，Z. 窦和J. E. 加西亚。在卷积网络中学习动态路由，2017年。URL http://arxiv.org/abs/1711.09485。

B. 沙福，I. 贝洛，S. 库马尔，N. 杜，Y. 黄，J. 迪恩，N. 沙泽尔和W. 费杜斯。ST-MoE：设计稳定且可转移的稀疏专家模型，2022年。

本文可在arXiv上获取，根据CC BY 4.0许可证授权。

(以上内容均由Ai生成)