这种聪明的 AI 黑客可以将处理成本降低一半

发布时间:2025年2月23日    来源:szf
这种聪明的 AI 黑客可以将处理成本降低一半

快速阅读: 据《黑客 Noon》最新报道,本文介绍了一种新的Transformer模型,称为“MoE转换器”,通过限制序列中参与计算的令牌数量,结合路由器动态选择令牌参与计算,以实现更高效的计算。实验表明,该模型在保持性能的同时,显著减少了计算量,特别是在自回归抽样时引入辅助损失解决了非因果性问题。

作者:大卫·拉波索,谷歌DeepMind,共同一作;萨姆·里特,谷歌DeepMind;布莱克·理查兹,谷歌DeepMind 和麦吉尔大学及Mila;蒂莫西·利利克拉普,谷歌DeepMind;彼得·康韦·汉弗莱斯,谷歌DeepMind;亚当·桑托罗,谷歌DeepMind,共同一作。

我们的高层次策略如下:
– 设定一个静态计算预算,该预算小于等效普通转换器的计算量,通过限制序列中参与块计算(即自注意力和随后的MLP)的令牌数量来实现。例如,虽然一个普通的转换器可能允许序列中的所有令牌参与自注意力,但我们可以将数量限制为序列中令牌的50%。参见第三节.1。
– 使用每个块的路由器为每个令牌发出一个标量权重,这个权重表达了路由器对令牌参与块计算或绕过它的偏好。参见第三节.2。
– 确定每条序列、每个块的前\(k\)个标量权重,以选择那些将参与块计算的令牌。由于恰好有\(k\)个令牌将参与块的计算,计算图和张量大小在整个训练过程中保持不变;只是令牌的参与是动态的和上下文敏感的,由路由器决定。参见第三节.3。
– 使用每个块的路由器为每个令牌发出一个标量权重,这个权重表达了路由器对令牌参与块计算或绕过它的偏好。参见第三节.2。
我们接着在第三节.5讨论了采样时的一些复杂情况。

**3.1 定义计算预算**

为了强制执行每次前向传递的总计算预算,我们利用了容量的概念,它定义了给定计算的输入所包含的令牌总数(例如,参与自注意力的令牌,在MoE转换器中的某个专家等)。例如,每个普通转换器块中的自注意力和MLP具有容量\(T\)——序列和批次中令牌的总数。而MoE转换器则使用每个专家MLP的容量小于\(T\),以便更均匀地分配每个专家的总计算量。但是,由于它们在每个块中使用多个专家,因此它们的总容量大约等于一个普通转换器的容量。通常,对于使用条件计算的转换器来说,决定总浮点运算次数的是令牌容量,而不是任何路由决策的结果。这是因为静态图实现考虑到了最坏的情况;例如,即使只有相对较少的令牌最终路由到某个计算,其输入也会被填充到其容量,或者如果超过容量,则会从计算中丢弃令牌。我们可以通过降低计算的容量来实现比普通转换器每次前向传递使用更小的计算预算的目标。然而,随意使用更小的计算预算会导致性能下降。我们假设某些令牌可能不需要像其他令牌那样多的处理,这些令牌可以通过学习来识别。因此,如果网络学会选择正确的令牌来填满其容量,那么它可能会保持其性能。在下面我们将描述可以用于此目的的路由方案。

**3.2 绕过转换器块的路由**

我们考虑一种设置,即将令牌路由到两条计算路径之一:(1)自注意力和MLP块,以及(2)残差连接。后者计算成本低廉,并且块的输出完全由其输入值决定。前者路径计算成本高昂。直观上,每次前向传递的总浮点运算次数(以及完成前向传递所需的时间)会随我们缩小块容量的程度成比例减少。然而,下游性能也会受到我们缩小块容量程度的影响,以及我们实施的路由算法的影响。在极端情况下,如果我们保持每个块的容量为\(T\)并将每个令牌路由到(而不是绕过)每个块,则我们恢复了一个普通转换器。而在另一个极端,如果我们设置每个块的容量为0并将所有令牌绕过每个块,则我们得到一个非常快速的模型,该模型不涉及转换器的大部分参数,并且无疑会有较差的下游性能。我们假设在这两个极端之间存在一个最优模型,它比普通转换器更快,并且表现得一样好,甚至更好,同时步进速度更快。

**3.3 路由方案**

简单地说,可以利用随机性来路由令牌,类似于层或块的“丢弃”。我们将这种路由方案作为对照组,并将展示它相对于普通转换器显著表现不佳。我们假设学习路由更为可取。直观上,网络应该能够学习哪些令牌需要更多的或更少的处理。如果我们正确地认为转换器经常花费比实际需要更多的计算来做预测,那么这是一个经验问题,即我们能多激进地缩小每个块的容量,从而能多激进地绕过多少令牌。

**3.4. 路由实现**

作为高级直觉的提醒,每个令牌都会经过路由器处理以产生一个标量权重,然后使用前\(k\)个权重来选择将通过变压器块(包括自注意力和随后的MLP)的令牌身份。值得注意的是,我们将函数\(f\)的输出与路由器权重相乘。这使得路由器权重沿着“梯度路径”,从而使其在整个语言建模任务过程中受到梯度下降的影响(我们在那些令牌绕过块计算时,也在计算路径中试验过包含路由器权重,但似乎只在那些不绕过块计算的令牌的计算路径中包含路由器权重就足够了,并且实现起来更简单)。

**3.5. 抽样**

虽然专家选择路由有许多优点,但它有一个显著的问题:前\(k\)操作是非因果的。这意味着给定令牌的路由权重是否属于序列中的前\(k\)个取决于其后令牌的路由权重值,而在自回归抽样时,我们无法访问这些信息。我们测试了两种方法来解决这个问题。第一种方法引入了一个简单的辅助损失,该损失在经验上影响主要的语言建模目标约0.2-0.3%,但允许我们从模型中自回归抽样。我们使用了一个二元交叉熵损失,其中路由器的输出作为logits,这些logits的前\(k\)个选择提供了目标(即,如果一个令牌是前\(k\)个,则为1,否则为0)。直观上,这种损失使路由器输出的sigmoid值集中在0.5左右;被选为前\(k\)个的令牌被施压产生大于0.5的路由器输出,而不在前\(k\)个的令牌被施压产生小于0.5的路由器输出。第二种方法引入了一个小型辅助MLP预测器(类似于第二个路由器),它接收与路由器相同的输入(带有停止梯度),但其输出是对该令牌是否会成为序列中的前\(k\)个的预测。这种方法不影响语言建模目标,并且在实际应用中不会显著影响步速。配备了这些新方法,我们可以通过对路由器的输出选择是否将令牌路由到或绕过块来进行自回归抽样,这不依赖于任何来自未来令牌的信息。我们提供了实验证据,证明这是一个相对容易的辅助任务,能快速达到99%的准确率。

**3.6. 训练方法**

所有模型都使用相同的基线超参数配置(例如,余弦调度等于训练步骤的1倍,128批次大小,2048序列长度),除了在isoFLOP分析期间为了生成不同大小的模型而改变层数、头数和嵌入尺寸。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日