新的 AI 方法让模型决定要考虑什么

发布时间:2025年2月23日    来源:szf
新的 AI 方法让模型决定要考虑什么

快速阅读: 《黑客 Noon》消息,本文是关于通过动态分配计算资源使基于转换器的语言模型更高效的详细研究的第二部分。作者团队来自谷歌深思维,研究了深度混合转换器及其路由方案,旨在提高转换器模型的效率。该文还探讨了条件计算方法,特别是专家混合层(MoE)的应用。研究结果表明,这种深度混合方法能有效提升模型效率。文中内容可在arxiv上根据CC BY 4.0许可证获取。

作者:(1)大卫·拉波索,谷歌深思维,共同第一作者;(2)萨姆·里特,谷歌深思维;(1)大卫·拉波索,谷歌深思维,共同第一作者;(3)布莱克·理查兹,谷歌深思维、麦吉尔大学和米拉;(1)大卫·拉波索,谷歌深思维,共同第一作者;(4)蒂莫西·利利克拉普,谷歌深思维;(1)大卫·拉波索,谷歌深思维,共同第一作者;(5)彼得·康韦·汉弗莱斯,谷歌深思维;(1)大卫·拉波索,谷歌深思维,共同第一作者;(6)亚当·桑托罗,谷歌深思维,共同第一作者。

(1)大卫·拉波索,谷歌深思维,共同第一作者。

编者注:这是关于通过动态分配计算资源使基于转换器的语言模型更高效的详细研究的第二部分。请继续阅读下面的内容。

链接表
简介
背景
实现深度混合转换器
章节3.1 定义计算预算
3.2 绕过转换器模块
3.3 路由方案
3.4 路由实施
3.3 路由方案
3.5 抽样与训练方法
结果
4.1 训练,isoFLOP比较
4.2 自回归评估
4.3 深度与专家混合(MoDE)
讨论与参考文献

2. 背景
转换器模型已成为实际人工智能革命的主力军,带来了前所未有的能力,代价是昂贵的训练运行和服务程序。这引发了对提高转换器模型效率的巨大兴趣(古普塔和阿加瓦尔,2021年;泰等,2020年)。一种有前景的方法是条件计算,通过学习机制确定何时以及如何消耗计算。这一术语由本吉奥(2013年)引入,并在接下来的几年中进一步探讨(本吉奥等,2016年,2013年;乔和本吉奥,2014年;格雷夫斯,2016年;詹尼特等,2017年;王等,2017年)。大量近期工作开发了用于转换器的条件计算方法。其中一些工作集中在提前退出,即学习何时结束给定标记的计算,允许该标记在退出决策后跳过任何剩余的转换器层(埃尔巴亚德等,2019年;刘等,2021年;施图泽等,2022年)。在MoD中,不同于提前退出方法,一个标记可以跳过中间层,然后通过自注意力机制与已通过所有中间层的标记进行交互更新。我们推测这可能是一个有用的属性。其他工作开发了迭代转换器层的方法,使用共享权重进行自适应步数(德哈尼亚等,2018年;西穆林和克劳布,2021年)。博利亚等(2023年)开发了一种方法,在对训练好的视觉转换器进行推理时选择要合并的标记,值得注意的是这种方法无需学习。雷等(2023年)通过利用适配器方法(何等,2021年)来利用条件计算,在微调设置中学习跳过冻结的预训练权重块,转而只运行一个小的微调适配器。CoLT5(艾因斯利等,2023年)使用条件路由选择给定标记是否通过每个前馈层的重或轻路径。此外,它们使用相同的路由机制选择标记是否关注所有其他标记或仅少数几个,如郭等(2022年)所述。与MoD类似,CoLT5使用软top-k进行路由决策。然而,CoLT5专注于编码器-解码器框架,因此需要应对高效顺序解码的问题。相比之下,我们的当前工作与MoD专注于解码器模式,因此我们提出了一种预测型路由器以实现转换器中条件计算的高效推理。条件计算的一个成功形式是由沙泽尔等(2017年)提出的专家混合层(MoE)。最初在LSTM背景下开发,后续工作展示了MoE在转换器中的引人注目的实证结果(费杜斯等,2022年;列皮金等,2020年;佐普等,2022年)。与其他试图节省或增加额外计算的条件计算方法不同,MoE模型使用条件逻辑将标记路由到多个专家网络之一,同时保持总体计算量不变。我们的深度混合方法可以看作是使用了MoE模型的路由逻辑,但不同于多个专家,MoD部署了一个可动态跳过的单一专家。本文可在arxiv上根据CC BY 4.0许可证获取。

(以上内容均由Ai生成)

关键词: Ai方法模型

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日