事实证明,始终使用 100% 的 AI 大脑并不是运行模型的最有效方式
快速阅读: 据《The Register》称,混合专家架构与压缩技术助力AI降本增效。通过MoE架构和剪枝、量化技术,大型语言模型可在减少内存需求的同时保持性能,适用于算力受限地区。英伟达、英特尔等公司积极布局相关技术,推动AI普及与应用。
专题:混合专家架构与压缩技术助力AI降本增效
在过去几年中,人工智能领域的一个显著趋势便是“更大的模型往往更聪明”,但随之而来的是更高的运行难度。这一趋势在某些地区尤为突出,比如中国,由于难以获取美国最尖端的AI芯片,导致发展受到限制。
即便在全球其他地方,构建者们也开始转向混合专家(MoE)架构以及新兴的压缩技术,以减少运行大型语言模型(LLMs)所需的计算资源。自从ChatGPT掀起生成式AI热潮以来,已经过去近三个年头,人们似乎终于开始重视这些系统的运行成本了。
需要澄清的是,我们早已见识过MoE模型,例如Mistral AI的Mixtral,但直到最近一年左右,这项技术才真正开始流行起来。在过去几个月里,微软、谷歌、IBM、Meta、DeepSeek和阿里巴巴等公司相继推出了基于某种混合专家(MoE)架构的新一代开源权重LLMs。
原因很简单:这种架构比传统的“密集”模型架构要高效得多。
突破内存瓶颈
该概念最初出现在1990年代初的一篇名为《自适应局部专家混合》的论文中。核心理念是,不是训练一个覆盖所有内容的大模型,而是将工作分配给多个较小的子模型或“专家”。理论上,每个专家都可以针对特定领域的任务进行优化,如编码、数学或写作。遗憾的是,很少有模型开发者详细披露他们MoE模型中的各个专家,且具体数量因模型而异。关键在于,在任何特定时刻,只有模型的一小部分处于活动状态。
例如,DeepSeek的V3模型包含256个路由专家和一个共享专家。但在每次生成一个标记时,只有八个路由专家加上一个共享专家会被激活。
正因为如此,MoE模型的质量未必能始终媲美同等规模的密集模型。以阿里巴巴的Qwen3-30B-A3B MoE模型为例,在阿里巴巴自身的基准测试中,它始终落后于密集型的Qwen3-32B模型。
然而,质量上的损失相对于通过MoE架构获得的效率提升而言相对较小。较少的活跃参数意味着实现特定性能所需的内存带宽不再直接取决于存储模型权重所需的容量。
换句话说,MoE模型可能依旧需要大量内存,但不必全部都是超快或超昂贵的HBM。
为了说明这一点,我们可以对比Meta最大的“密集”模型Llama 3.1 405B与Llama 4 Maverick的需求,后者几乎同样庞大,但采用了具有170亿活跃参数的MoE架构。
批量大小、浮点性能和键值缓存等因素都会影响实际性能,但我们至少可以通过将模型在给定精度下的大小(对于8位模型来说是每参数1字节)乘以批量大小为一的目标每秒标记数来大致估算出模型的最小带宽需求。
要运行Llama 3.1 405B的8位量化版本——稍后会更详细讨论量化——你需要超过405 GB的vRAM和至少20 TB/s的内存带宽才能以每秒50个标记的速度生成文本。
作为参考,直到最近售价高达30万美元的Nvidia HGX H100系统拥有640 GB的HBM3和大约26.8 TB/s的总带宽。如果你想要运行完整的16位模型,那么你至少需要两个这样的系统。
相比之下,Llama 4 Maverick虽然占用相同的内存,但只需要不到1 TB/s的带宽就能达到同样的性能。这是因为只有170亿参数的模型专家被用来生成输出。
这意味着在同一硬件上,Llama 4 Maverick应该比Llama 3.1 405B快一个数量级。
另一方面,如果性能不是主要考量因素,现在你可以用更便宜但较慢的GDDR6、GDDR7甚至Intel最新Xeon处理器中的DDR来运行许多这些模型。
Nvidia本周在Computex上发布的全新RTX Pro服务器正是为此设计的。这些系统中的八个RTX Pro 6000 GPU每个都配备了96 GB的GDDR7内存——与现代游戏卡中发现的那种相同。
这些系统总共提供了多达768 GB的vRAM和12.8 TB/s的总带宽——足以支持每秒处理数百个标记的Llama 4 Maverick运行。
Nvidia尚未公布价格,但工作站版这些显卡目前零售价约为8500美元,我们不会对它们以低于HGX H100过去价格一半的价格出售感到惊讶。
话虽如此,MoE并不会终结HBM堆叠GPU的时代。我们认为,我们不会看到Llama 4 Behemoth——假设它最终发布——能够在少于一整架GPU的情况下运行。
尽管它的活跃参数大约是Llama 3.1 405B的一半,但它总共有2万亿个。目前市面上没有任何一款常规GPU服务器能够容纳完整的16位模型及必然超过百万级别的上下文窗口。CPU是否终于迎来了属于它们的AI时刻?
根据您的应用场景,这对高算力加速器进口受限的地区可能会很有帮助。
早在四月份,英特尔展示了配备完整8800 MT/s MCRDIMM内存的双插座Xeon 6平台,在Llama 4 Maverick中实现了每秒240个Token的吞吐量,平均输出延迟小于每个Token 100毫秒。
简而言之,Xeon平台能让大约24个并发用户每秒至少处理10个Token。
英特尔未公布单用户(批处理1)的性能数据,我们不能责怪他们,因为在现实世界中这不是一个非常相关的指标,但粗略估算下来,其最高可能达到每秒100个Token左右。
话虽如此,除非您没有任何更好的选择,或者有非常具体的需求,基于CPU的推理经济性依然高度依赖具体应用场景。
减少权重:剪枝和量化
MoE架构确实能有效减少运行大型模型所需的内存带宽,但它无法减少存储模型权重所需的内存总量。正如之前所述,即便是在8位精度下,Llama 4 Maverick仍需超过400GB内存才能运行,与激活参数数量无关。
然而,新兴的剪枝技术和量化技术若经过一定优化,可将这一需求减半而不影响质量。
这家GPU巨头已发布多个Meta Llama 3模型的剪枝版本,这些版本去除了冗余或价值较低的权重。
此外,它还在2022年率先支持了8位浮点数据类型,并在2024年Blackwell架构推出时再次支持了4位浮点数据类型。与此同时,AMD预计将在下个月推出首批支持原生FP4的芯片。
虽然不是严格必要,但这些数据类型的硬件支持通常能降低遭遇计算瓶颈的概率,特别是在大规模服务时。
同时,我们也看到多家公司推出了八位乃至四位量化版本的模型,其中包括Meta、微软、阿里巴巴等。
我们曾深入分析过量化技术,简单来说,它涉及将模型权重从其原生精度(通常是BF16)压缩到FP8或INT4,这有效将模型所需内存带宽和容量需求减半甚至四分之一,但会带来一定质量损失。
通常情况下,从16位降至8位带来的质量损失不易察觉,一些模型构建者,包括DeepSeek,已经开始从一开始就以FP8精度进行训练。但再减少四个比特,质量损失将变得较为显著。因此,许多后训练量化方法(如GGUF)并非均匀压缩所有权重,而是让部分权重保持较高精度以限制损失。
我们曾深入分析过量化技术,简单来说,它涉及将模型权重从其原生精度(通常是BF16)压缩到FP8或INT4,这有效将模型所需内存带宽和容量需求减半甚至四分之一,但会带来一定质量损失。
AI目前尚无法取代自由职业程序员,但这一天终将到来。
估计AI的能源使用量非常困难——但这份报告尝试进行了估算。
英伟达开放了高速NVLink互连技术,供定制CPU和ASIC使用。
英特尔押注你会堆叠廉价GPU以避免花大价钱购买英伟达的专业显卡。
上个月,谷歌展示了利用量化感知训练(QAT)将Gemma 3模型压缩至原尺寸四分之一,同时保持接近原生BF16的质量。
QAT通过在训练过程中模拟低精度操作来工作。通过在未经验证的模型上应用该技术约5000步,谷歌称转换为INT4后,困惑度降幅达54%。
另一种基于QAT的量化方法名为Bitnet,旨在进一步压缩,将模型压缩到仅1.58位,即大约十分之一的大小。
将MoE与4位量化相结合,特别是如果您受制于Blackwell Ultra高昂成本,或因美国贸易政策导致HBM比黄金更贵的话,您真的可以大展身手。
对于其他人来说,任一技术均可显著降低运行更大、更强模型的设备和运营成本,假设您能找到适合它们的任务。
如果找不到,至少您可以自我安慰,您并非唯一面临这种情况的人。近期IBM针对2000名CEO开展的调查显示,仅有四分之一的AI部署兑现了投资回报承诺。
(以上内容均由Ai生成)