是什么让 AI 更智能?语言模型训练内幕

发布时间:2025年3月16日    来源:szf
是什么让 AI 更智能?语言模型训练内幕

快速阅读: 据《黑客 Noon》称,本文探讨了一种选择性状态空间模型(SSM),通过引入选择机制优化模型结构与性能。研究在多种任务上评估了模型表现,包括语言、DNA和音频建模,并分析了不同架构和训练方法的影响。文章提供了详细的实验细节及消融研究,强调扩展状态维度的重要性。研究已发布于arXiv,遵循CC BY 4.0许可。

摘要与引言
2 选择性状态空间模型
3 选择性状态空间模型与
2 选择性状态空间模型
3.1 动机:选择作为压缩手段
3.2 利用选择改进SSMs
3.3 选择性SSMs的有效实现
3.2 利用选择改进SSMs
3.4 简化版SSM架构
3.2 利用选择改进SSMs
3.5 选择机制的特性
3.6 模型的其他细节
4 实验评估
4.1 合成任务
4.2 语言建模
4.3 DNA建模
4.4 音频建模与生成
4.5 速度与内存基准测试
4.6 模型消融研究
5 讨论
6 结论、致谢与参考文献

A 讨论:选择机制
B 相关工作
B.1 S4变体与衍生品
B.2 SSM架构
B.3 与RNN的关系
B.4 线性注意力
B.5 长上下文模型

C 选择性SSMs的机制
D 针对选择性SSMs的硬件感知算法
E 实验细节与附加结果
E.1 合成任务
E.2 语言建模
E.3 DNA建模
E.4 音频细节
E.5 效率基准
E.2 语言建模
E.2.1 规模定律细节

所有模型均在The Pile上进行了训练。
模型大小。
表12指定了我们用于规模定律的模型大小。这直接取自GPT3规范(Brown等,2020),仅有非常小的修改。首先,我们将1.3B模型的批量大小从1M tokens更改为0.5M tokens,因为我们没有使用足够的并行化来需要更大的批量大小。其次,我们将训练步数和总令牌数量大致调整为匹配Chinchilla规模定律(Hoffmann等,2022),该定律规定训练令牌应按比例增加到模型大小。

训练配方。
所有模型均使用AdamW优化器,
• 梯度裁剪值为1.0
• 权重衰减为0.1
• 没有dropout
• 带余弦衰减的线性学习率预热
默认情况下,峰值学习率为GPT3规范。

我们给几个模型一个“改进配方”,灵感来自PaLM(Chowdhery等,2023)和LLaMa(Touvron等,2023)等流行大型语言模型所采用的更改。这些包括:
架构与训练细节。
我们的模型是:
• Transformer:基于GPT3的标准Transformer(表12)。
• Transformer++:具有改进架构的Transformer,即旋转位置编码(Su等,2021)和SwiGLU MLP(Shazeer,2020),以及上述改进的训练配方。
• Hyena:在标准MLP块之间插入Hyena块(用由MLP参数化的全局卷积替换S4的H3块)。MLP块的扩展因子为2而不是4,并且层数相应地增加了1.5倍以保持参数计数。
• H3++:H3架构的一些修改,包括(i)使用相同的“薄”Hyena维度(ii)上述改进的训练配方(iii)线性注意力头维度为8。
• RWKV:B. Peng等(2023)的默认RWKV模型,包括其修改后的MLP块。我们也尽可能多地使用了其指定的训练配方,例如在某些参数上将学习率提高2倍或3倍。
• RetNet:Y. Sun等(2023)的默认RetNet模型。我们还给了它上述改进的训练配方。
• Mamba:标准Mamba架构,带有改进的训练配方。

E.2.2 其他规模定律消融研究
我们在图4(左)中2k上下文长度规模定律的相同协议下对架构进行额外消融。
Mamba架构:
交错块。我们测试了与Mamba块结合的不同架构块的效果。我们重点关注Mamba块只是标准SwiGLU块加上额外添加的路径这一观点。这导致了两个自然的消融:
• 如果Mamba块与标准MLP块交错,而不是同质堆叠?这也可被解释为取Mamba并移除一半的SSM。
• 如果Mamba块与MHA(多头注意力)块交错?这也可被解释为取一个具有SwiGLU MLP的Transformer(即我们所说的Transformer++)并简单地向MLP块添加SSM。

图9(右)显示了这些变体与原始(同质)Mamba架构相比的结果。有趣的是,这两种变化影响都不大。Mamba-MLP架构略差一点,但仍优于除Transformer++之外的所有模型。Mamba-MHA架构略好一点,在考虑到许多最近的工作发现结合(LTI)SSM与注意力可以带来显著改进的情况下有些令人惊讶(Dao、Fu、Saab等,2023;Fathi等,2023;Fathullah等,2023;Saon、Gupta和Cui,2023;Zuo等,2022)。

• 如果Mamba块与MHA(多头注意力)块交错?这也可被解释为取一个具有SwiGLU MLP的Transformer(即我们所说的Transformer++)并简单地向MLP块添加SSM。

H3架构:
训练配方。接下来我们消融Hyena和H3++模型之间的差异,我们的最弱和最强模型(不包括Transformer++和Mamba),特别是为了隔离训练配方的影响。
• Hyena:具有原始架构和GPT3训练配方的Hyena块(与图4相同)。
• Hyena+:相同的架构但使用上述改进的训练配方。
• Hyena:具有原始架构和GPT3训练配方的Hyena块(与图4相同)。
• H3+:与Hyena+相同的架构,但用S4D卷积核替换了Hyena卷积核。
• H3++:与H3+相同,但线性注意力头维度为8。这增加了SSM递归内部的计算,但不增加参数。

我们的一般惯例是,“Model+”代表基础模型加上改进的训练配方,“Model++”也允许进行架构更改。

图9(右)显示了以下内容:
• 改进的训练配方带来了很大的提升,这是主图4中的许多模型所使用的(RetNet、H3++、Transformer++、Mamba)。
• 内部LTI SSM的选择无关紧要(例如Hyena与S4),这与本文中的发现一致。
• 头维度扩展提高了性能,这与我们的主要主题之一一致,即扩展状态维度可以提高SSM的性能(第3节)。

E.2.3 下游评估细节
此预训练过程与规模定律协议相同,但延长至300B tokens。对于1.3B模型,我们使用1M tokens的批量大小以符合GPT3规格。我们报告Pile验证集上的困惑度,并仅将此指标与其他在同一数据集上训练且使用相同标记器的模型进行比较,特别是Pythia和RWKV。

对于下游评估,我们使用EleutherAI的LM评估工具箱(L. Gao、Tow等,2021),这是该领域大多数工作的做法。我们在以下衡量常识推理的任务/数据集上进行评估:
• LAMBADA(Paperno等,2016)。
• HellaSwag(Zellers等,2019)。
• PIQA(Bisk等,2020)。
• ARC挑战(P. Clark等,2018)。
• ARC-easy:ARC挑战的一个简单子集。
• ARC挑战(P. Clark等,2018)。
• WinoGrande(Sakaguchi等,2021)。

我们报告LAMBADA、WinoGrande、PIQA和ARC-easy的准确率,以及HellaSwag和ARC挑战的序列长度归一化准确率(因为对于这些任务,几乎所有模型的归一化准确率都更高)。

本文可在arxiv上获得
根据CC BY 4.0条款授权。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日