AI 模型正在学习确定自己想法的优先级,而且效果非常有效

发布时间:2025年2月23日    来源:szf
AI 模型正在学习确定自己想法的优先级,而且效果非常有效

快速阅读: 据《黑客 Noon》称,本文研究了通过动态分配计算资源以提高基于变压器的语言模型效率。研究显示,使用学习到的路由决策可以有效减少浮点运算,且在训练期间成功应用了top-k路由方案。该方法在自回归采样时无需未来信息,通过简单的辅助分类器即可实现。这一发现为改进MoD变压器提供了新思路,有助于显著增加预测的上下文长度。


This study explores dynamic resource allocation to improve the efficiency of transformer-based language models. It shows that using learned routing decisions can effectively reduce floating-point operations, with successful application of top-k routing during training. This method does not require future information for autoregressive sampling, achieving results through a simple auxiliary classifier. The findings offer new insights for improving MoD transformers, potentially increasing the context length for predictions.

作者:(1) 大卫·拉波索,谷歌DeepMind,共同第一作者;(2) 萨姆·里特,谷歌DeepMind;(1) 大卫·拉波索,谷歌DeepMind,共同第一作者;(3) 布莱克·理查兹,谷歌DeepMind,同时与麦吉尔大学和Mila合作;(4) 蒂莫西·利利克拉普,谷歌DeepMind;(5) 彼得·康韦·汉弗莱斯,谷歌DeepMind;(4) 蒂莫西·利利克拉普,谷歌DeepMind;(6) 亚当·桑托罗,谷歌DeepMind,共同第一作者。

编者注:这是关于通过动态分配计算资源来提高基于变压器的语言模型效率的研究的第五部分也是最后一部分。请继续阅读以下内容。

链接表
引言
背景
实现深度混合变压器
3.1. 定义计算预算
3.2. 绕过变压器块
3.3. 路由方案
3.4. 路由实现
3.3. 路由方案
3.5. 抽样和 3.6. 训练方法
结果
4.1. 训练,isoFLOP比较
4.2. 自回归评估
4.3. 深度和专家混合(MoDE)
讨论与参考文献

5. 讨论

尽管MoD变压器每前向传递所需的浮点运算较少,但不能无差别地减少浮点运算。关键在于使用学习到的路由决策,类似于混合专家变压器中的做法,来判断标记是否应参与自注意力和后续的MLP(需要浮点运算),或者不参与(节省浮点运算)。然后,我们可以利用任何节省下来的浮点运算,例如,使模型更大或训练时间更长。

我们的结果显示,实际上在普通的变压器模型中浮点运算可能被低效地使用,并且可能存在更高效的使用方式。学习的路由机制有时是非因果的;也就是说,未来的信息被用来决定给定标记的路由决策。这对于top-k路由机制通常是正确的,因为它们省去了辅助平衡损失的需要。然而,top-k路由机制在训练后的自回归采样中存在困难,在那里无法使用未来标记身份的信息来决定路由决策。

在这项工作中,我们展示了可以在训练期间成功使用top-k路由方案,但在后期自回归采样时不需要它。一个简单的辅助分类器或路由器上的辅助损失就足以学习top-k路由决策,使其能够在自回归采样期间模仿top-k决策,且性能降级最小或没有。

直观上,一个标记可能会学会绕过某些块,因为该步骤的预测较为简单,因此不需要太多的计算。然而,这显然不是网络所学的全部。如果一个标记在一个特定的块中不参与自注意力,则稍后的标记也无法对其进行关注。因此,标记是否决定路由会影响当前步骤的预测和未来的预测,通过因果自注意力,网络如何平衡这些影响是由它们对整体语言建模目标的影响指导的。

这一发现为MoD变体提供了新的思路,即解耦查询、键和值的路由。例如,也许一个标记在给定的自注意力计算中更愿意成为查询,而不是键。人们可以想象将这个想法进一步扩展到“长期记忆”领域:也许有些标记作为键非常有价值,即使它们在出现时并不一定作为查询也是如此。学习的路由可能是决定哪些标记可能成为这样的机制,也许将它们引导到一个在未来的自注意力中可用的长期记忆缓冲区。

这种方法的优势在于标记在“记忆编码”时刻只需决定一次,是否在未来被检索。这可能是显著增加用于预测的上下文长度的一个步骤,比每次对未来步骤执行基于内容的整个内存缓冲区查找更计算高效,可能是大幅增加用于做出预测的上下文长度的一个步骤。

参考文献:

K. 乔和Y. 苯吉奥。深度学习中条件计算的能力与计算比率呈指数增长,2014年。

M. 德格汉尼,S. 戈乌兹,O. 维尼亚尔斯,J. 乌斯科雷特和Ł. 凯撒。通用Transformer。arXiv预印本arXiv:1807.03819,2018年。

M. 胡拜亚德,J. 顾,E. 格雷夫和M. 奥利。深度自适应Transformer。CoRR,abs/1910.10073,2019年。

M. 德格汉尼,S. 戈乌兹,O. 维尼亚尔斯,J. 乌斯科雷特和Ł. 凯撒。通用Transformer。arXiv预印本arXiv:1807.03819,2018年。

W. 费杜斯,B. 沙福和N. 沙泽尔。切换Transformer:通过简单而有效的稀疏性扩展至万亿参数模型,2022年。

A. 格雷夫斯。递归神经网络的自适应计算时间。CoRR,abs/1603.08983,2016年。

M. 郭,J. 艾因斯利,D. 乌瑟斯,S. 奥南农,J. 尼,Y.-H. 宋和Y. 杨。LongT5:高效文本到文本Transformer用于长序列,2022年。

M. 古普塔和P. 阿格拉瓦尔。深度学习文本模型压缩:一项调查,2021年。

J. 何,C. 周,X. 马,T. 贝格-柯克帕特里克和G. 内比格。参数高效迁移学习的统一视角。arXiv预印本arXiv:2110.04366,2021年。

Y. 耶尔尼特,E. 格雷夫,A. 朱林和T. 米科洛夫。递归神经网络中的变量计算,2017年。

T. 雷,J. 白,S. 布拉马,J. 艾因斯利,K. 李,Y. 周,N. 杜,V. Y. 赵,Y. 吴,B. 李,Y. 张和M.-W. 昌。条件适配器:参数高效迁移学习并具有快速推理,2023年。

D. 列皮欣,H. 李,Y. 许,D. 陈,O. 菲拉特,Y. 黄,M. 克里昆,N. 沙泽尔和Z. 陈。GShard:使用条件计算和自动分片扩展巨型模型,2020年。

T. 雷,J. 白,S. 布拉马,J. 艾因斯利,K. 李,Y. 周,N. 杜,V. Y. 赵,Y. 吴,B. 李,Y. 张和M.-W. 昌。条件适配器:参数高效迁移学习并具有快速推理,2023年。

Z. 刘,Z. 徐,H.-J. 王,T. 达雷尔和E. 谢尔哈默。任何时间密集预测与置信度自适应。arXiv预印本arXiv:2104.00749,2021年。

T. 施特劳斯,A. 费施,J. 古普塔,M. 德格汉尼,D. 巴赫里,V. Q. 陈,Y. 泰和D. 梅茨勒。自信自适应语言建模,2022年。

N. 沙泽尔,A. 米尔霍塞尼,K. 马扎里兹,A. 戴维斯,Q. 乐,G. 辛顿和J. 迪恩。超大规模神经网络:稀疏门控混合专家层。arXiv预印本arXiv:1701.06538,2017年。

A. 西莫林和B. 克拉布。多少层及为何?关于变换器中模型深度的分析。在计算语言学协会第59届年会和第11届国际自然语言处理联合会议学生研究研讨会论文集,第221-228页,在线,2021年8月。计算语言学协会。doi: 10.18653/v1/2021.acl-srw.23。URL https://aclanthology.org/2021.acl-srw.23。

Y. 泰,M. 德格汉尼,D. 巴赫里和D. 梅茨勒。高效的Transformer:一项调查。CoRR,abs/2009.06732,2020年。URL https://arxiv.org/abs/2009.06732。

X. 王,F. 余,Z. 窦和J. E. 加西亚。在卷积网络中学习动态路由,2017年。URL http://arxiv.org/abs/1711.09485。

B. 沙福,I. 贝洛,S. 库马尔,N. 杜,Y. 黄,J. 迪恩,N. 沙泽尔和W. 费杜斯。ST-MoE:设计稳定且可转移的稀疏专家模型,2022年。

本文可在arXiv上获取,根据CC BY 4.0许可证授权。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日