模拟芯片加速AI训练,能耗降低千倍
快速阅读: 北京大学钟孙团队开发模拟芯片,专攻矩阵方程,提升计算精度与能效,有望解决AI模型训练中的能耗问题,性能超越现有数字芯片。
模拟计算机在解决用于训练人工智能模型的关键方程时,比数字计算机更加节能。随着人工智能热潮导致数据中心能源消耗不断增加,模拟计算机可能成为一种潜在解决方案。
笔记本电脑、智能手机等常见设备属于数字计算机,因为它们以一系列二进制数字(0或1)的形式存储和处理数据,可以编程解决各种问题。相比之下,模拟计算机通常专为解决某一特定问题设计。它们使用可连续变化的量,如电阻,而非离散的0和1来存储和处理数据。
研究人员发现,模拟计算机在速度和能效方面表现出色,但在精度上曾不如数字计算机。现在,北京大学的钟孙及其团队开发了一对协同工作的模拟芯片,能够准确解决矩阵方程——这是传输数据、运行大型科学模拟或训练AI模型的基础部分。
第一片芯片快速输出低精度的矩阵计算结果,而第二片芯片则运行迭代精炼算法,分析第一片芯片的误差率,从而提高准确性。钟孙表示,第一片芯片的误差率为约1%,但经过第二片芯片三次循环处理后,误差率降至0.0000001%——这与标准的数字计算精度相当。
目前,研究团队已制造出能解16×16矩阵(即256个变量)的芯片,适用于某些小规模问题。然而,钟孙承认,要解决当今大型AI模型的问题,则需要更大规模的电路,可能达到百万x百万级别。
模拟芯片的一大优势在于,矩阵尺寸增大并不会增加计算时间,而数字芯片在矩阵尺寸增加时性能会呈指数级下降。这意味着,32×32矩阵芯片的吞吐量将超过用于训练AI的高端Nvidia H100 GPU。理论上,进一步扩展可以使吞吐量达到数字芯片的1000倍,同时能耗降低100倍。不过,钟孙也指出,实际任务可能超出其电路极其狭窄的能力范围,导致增益较小。
“这只是速度上的比较,对于实际应用来说,问题可能会有所不同。”钟孙说,“我们的芯片只能进行矩阵运算。如果矩阵运算是整个计算任务的主要部分,那么它将显著加速这一过程,但如果不是,速度提升将有限。”
伦敦国王学院的詹姆斯·米伦认为,矩阵计算是训练AI模型的关键过程,模拟计算提供了潜在的加速途径。“现代世界建立在数字计算机之上。这些惊人的机器是通用计算机,意味着它们可以计算任何事情,但并非所有事情都能高效或快速地计算。”米伦说,“模拟计算机针对特定任务进行了优化,在这方面可以非常快且高效。这项工作利用模拟计算芯片加速了一个称为矩阵求逆的过程,这是训练某些AI模型的关键步骤。更高效的完成这一过程有助于减少我们日益依赖的人工智能的巨大能源需求。”
相关论文发表于《自然电子学》期刊,DOI: 10.1038/s41928-025-01477-0。主题包括:计算/人工智能。
(以上内容均由Ai生成)