新的 AI 方法让模型决定要考虑什么

快速阅读: 《黑客 Noon》消息，本文是关于通过动态分配计算资源使基于转换器的语言模型更高效的详细研究的第二部分。作者团队来自谷歌深思维，研究了深度混合转换器及其路由方案，旨在提高转换器模型的效率。该文还探讨了条件计算方法，特别是专家混合层（MoE）的应用。研究结果表明，这种深度混合方法能有效提升模型效率。文中内容可在arxiv上根据CC BY 4.0许可证获取。

作者：（1）大卫·拉波索，谷歌深思维，共同第一作者；（2）萨姆·里特，谷歌深思维；（1）大卫·拉波索，谷歌深思维，共同第一作者；（3）布莱克·理查兹，谷歌深思维、麦吉尔大学和米拉；（1）大卫·拉波索，谷歌深思维，共同第一作者；（4）蒂莫西·利利克拉普，谷歌深思维；（1）大卫·拉波索，谷歌深思维，共同第一作者；（5）彼得·康韦·汉弗莱斯，谷歌深思维；（1）大卫·拉波索，谷歌深思维，共同第一作者；（6）亚当·桑托罗，谷歌深思维，共同第一作者。

（1）大卫·拉波索，谷歌深思维，共同第一作者。

编者注：这是关于通过动态分配计算资源使基于转换器的语言模型更高效的详细研究的第二部分。请继续阅读下面的内容。

链接表
简介
背景
实现深度混合转换器
章节3.1 定义计算预算
3.2 绕过转换器模块
3.3 路由方案
3.4 路由实施
3.3 路由方案
3.5 抽样与训练方法
结果
4.1 训练，isoFLOP比较
4.2 自回归评估
4.3 深度与专家混合（MoDE）
讨论与参考文献

2. 背景
转换器模型已成为实际人工智能革命的主力军，带来了前所未有的能力，代价是昂贵的训练运行和服务程序。这引发了对提高转换器模型效率的巨大兴趣（古普塔和阿加瓦尔，2021年；泰等，2020年）。一种有前景的方法是条件计算，通过学习机制确定何时以及如何消耗计算。这一术语由本吉奥（2013年）引入，并在接下来的几年中进一步探讨（本吉奥等，2016年，2013年；乔和本吉奥，2014年；格雷夫斯，2016年；詹尼特等，2017年；王等，2017年）。大量近期工作开发了用于转换器的条件计算方法。其中一些工作集中在提前退出，即学习何时结束给定标记的计算，允许该标记在退出决策后跳过任何剩余的转换器层（埃尔巴亚德等，2019年；刘等，2021年；施图泽等，2022年）。在MoD中，不同于提前退出方法，一个标记可以跳过中间层，然后通过自注意力机制与已通过所有中间层的标记进行交互更新。我们推测这可能是一个有用的属性。其他工作开发了迭代转换器层的方法，使用共享权重进行自适应步数（德哈尼亚等，2018年；西穆林和克劳布，2021年）。博利亚等（2023年）开发了一种方法，在对训练好的视觉转换器进行推理时选择要合并的标记，值得注意的是这种方法无需学习。雷等（2023年）通过利用适配器方法（何等，2021年）来利用条件计算，在微调设置中学习跳过冻结的预训练权重块，转而只运行一个小的微调适配器。CoLT5（艾因斯利等，2023年）使用条件路由选择给定标记是否通过每个前馈层的重或轻路径。此外，它们使用相同的路由机制选择标记是否关注所有其他标记或仅少数几个，如郭等（2022年）所述。与MoD类似，CoLT5使用软top-k进行路由决策。然而，CoLT5专注于编码器-解码器框架，因此需要应对高效顺序解码的问题。相比之下，我们的当前工作与MoD专注于解码器模式，因此我们提出了一种预测型路由器以实现转换器中条件计算的高效推理。条件计算的一个成功形式是由沙泽尔等（2017年）提出的专家混合层（MoE）。最初在LSTM背景下开发，后续工作展示了MoE在转换器中的引人注目的实证结果（费杜斯等，2022年；列皮金等，2020年；佐普等，2022年）。与其他试图节省或增加额外计算的条件计算方法不同，MoE模型使用条件逻辑将标记路由到多个专家网络之一，同时保持总体计算量不变。我们的深度混合方法可以看作是使用了MoE模型的路由逻辑，但不同于多个专家，MoD部署了一个可动态跳过的单一专家。本文可在arxiv上根据CC BY 4.0许可证获取。

(以上内容均由Ai生成)