事实证明,始终使用 100% 的 AI 大脑并不是运行模型的最有效方式

发布时间:2025年5月26日    来源:szf
事实证明,始终使用 100% 的 AI 大脑并不是运行模型的最有效方式

快速阅读: 据《The Register》称,混合专家架构与压缩技术助力AI降本增效。通过MoE架构和剪枝、量化技术,大型语言模型可在减少内存需求的同时保持性能,适用于算力受限地区。英伟达、英特尔等公司积极布局相关技术,推动AI普及与应用。

专题:混合专家架构与压缩技术助力AI降本增效

在过去几年中,人工智能领域的一个显著趋势便是“更大的模型往往更聪明”,但随之而来的是更高的运行难度。这一趋势在某些地区尤为突出,比如中国,由于难以获取美国最尖端的AI芯片,导致发展受到限制。

即便在全球其他地方,构建者们也开始转向混合专家(MoE)架构以及新兴的压缩技术,以减少运行大型语言模型(LLMs)所需的计算资源。自从ChatGPT掀起生成式AI热潮以来,已经过去近三个年头,人们似乎终于开始重视这些系统的运行成本了。

需要澄清的是,我们早已见识过MoE模型,例如Mistral AI的Mixtral,但直到最近一年左右,这项技术才真正开始流行起来。在过去几个月里,微软、谷歌、IBM、Meta、DeepSeek和阿里巴巴等公司相继推出了基于某种混合专家(MoE)架构的新一代开源权重LLMs。

原因很简单:这种架构比传统的“密集”模型架构要高效得多。

突破内存瓶颈

该概念最初出现在1990年代初的一篇名为《自适应局部专家混合》的论文中。核心理念是,不是训练一个覆盖所有内容的大模型,而是将工作分配给多个较小的子模型或“专家”。理论上,每个专家都可以针对特定领域的任务进行优化,如编码、数学或写作。遗憾的是,很少有模型开发者详细披露他们MoE模型中的各个专家,且具体数量因模型而异。关键在于,在任何特定时刻,只有模型的一小部分处于活动状态。

例如,DeepSeek的V3模型包含256个路由专家和一个共享专家。但在每次生成一个标记时,只有八个路由专家加上一个共享专家会被激活。

正因为如此,MoE模型的质量未必能始终媲美同等规模的密集模型。以阿里巴巴的Qwen3-30B-A3B MoE模型为例,在阿里巴巴自身的基准测试中,它始终落后于密集型的Qwen3-32B模型。

然而,质量上的损失相对于通过MoE架构获得的效率提升而言相对较小。较少的活跃参数意味着实现特定性能所需的内存带宽不再直接取决于存储模型权重所需的容量。

换句话说,MoE模型可能依旧需要大量内存,但不必全部都是超快或超昂贵的HBM。

为了说明这一点,我们可以对比Meta最大的“密集”模型Llama 3.1 405B与Llama 4 Maverick的需求,后者几乎同样庞大,但采用了具有170亿活跃参数的MoE架构。

批量大小、浮点性能和键值缓存等因素都会影响实际性能,但我们至少可以通过将模型在给定精度下的大小(对于8位模型来说是每参数1字节)乘以批量大小为一的目标每秒标记数来大致估算出模型的最小带宽需求。

要运行Llama 3.1 405B的8位量化版本——稍后会更详细讨论量化——你需要超过405 GB的vRAM和至少20 TB/s的内存带宽才能以每秒50个标记的速度生成文本。

作为参考,直到最近售价高达30万美元的Nvidia HGX H100系统拥有640 GB的HBM3和大约26.8 TB/s的总带宽。如果你想要运行完整的16位模型,那么你至少需要两个这样的系统。

相比之下,Llama 4 Maverick虽然占用相同的内存,但只需要不到1 TB/s的带宽就能达到同样的性能。这是因为只有170亿参数的模型专家被用来生成输出。

这意味着在同一硬件上,Llama 4 Maverick应该比Llama 3.1 405B快一个数量级。

另一方面,如果性能不是主要考量因素,现在你可以用更便宜但较慢的GDDR6、GDDR7甚至Intel最新Xeon处理器中的DDR来运行许多这些模型。

Nvidia本周在Computex上发布的全新RTX Pro服务器正是为此设计的。这些系统中的八个RTX Pro 6000 GPU每个都配备了96 GB的GDDR7内存——与现代游戏卡中发现的那种相同。

这些系统总共提供了多达768 GB的vRAM和12.8 TB/s的总带宽——足以支持每秒处理数百个标记的Llama 4 Maverick运行。

Nvidia尚未公布价格,但工作站版这些显卡目前零售价约为8500美元,我们不会对它们以低于HGX H100过去价格一半的价格出售感到惊讶。

话虽如此,MoE并不会终结HBM堆叠GPU的时代。我们认为,我们不会看到Llama 4 Behemoth——假设它最终发布——能够在少于一整架GPU的情况下运行。

尽管它的活跃参数大约是Llama 3.1 405B的一半,但它总共有2万亿个。目前市面上没有任何一款常规GPU服务器能够容纳完整的16位模型及必然超过百万级别的上下文窗口。CPU是否终于迎来了属于它们的AI时刻?

根据您的应用场景,这对高算力加速器进口受限的地区可能会很有帮助。

早在四月份,英特尔展示了配备完整8800 MT/s MCRDIMM内存的双插座Xeon 6平台,在Llama 4 Maverick中实现了每秒240个Token的吞吐量,平均输出延迟小于每个Token 100毫秒。

简而言之,Xeon平台能让大约24个并发用户每秒至少处理10个Token。

英特尔未公布单用户(批处理1)的性能数据,我们不能责怪他们,因为在现实世界中这不是一个非常相关的指标,但粗略估算下来,其最高可能达到每秒100个Token左右。

话虽如此,除非您没有任何更好的选择,或者有非常具体的需求,基于CPU的推理经济性依然高度依赖具体应用场景。

减少权重:剪枝和量化

MoE架构确实能有效减少运行大型模型所需的内存带宽,但它无法减少存储模型权重所需的内存总量。正如之前所述,即便是在8位精度下,Llama 4 Maverick仍需超过400GB内存才能运行,与激活参数数量无关。

然而,新兴的剪枝技术和量化技术若经过一定优化,可将这一需求减半而不影响质量。

这家GPU巨头已发布多个Meta Llama 3模型的剪枝版本,这些版本去除了冗余或价值较低的权重。

此外,它还在2022年率先支持了8位浮点数据类型,并在2024年Blackwell架构推出时再次支持了4位浮点数据类型。与此同时,AMD预计将在下个月推出首批支持原生FP4的芯片。

虽然不是严格必要,但这些数据类型的硬件支持通常能降低遭遇计算瓶颈的概率,特别是在大规模服务时。

同时,我们也看到多家公司推出了八位乃至四位量化版本的模型,其中包括Meta、微软、阿里巴巴等。

我们曾深入分析过量化技术,简单来说,它涉及将模型权重从其原生精度(通常是BF16)压缩到FP8或INT4,这有效将模型所需内存带宽和容量需求减半甚至四分之一,但会带来一定质量损失。

通常情况下,从16位降至8位带来的质量损失不易察觉,一些模型构建者,包括DeepSeek,已经开始从一开始就以FP8精度进行训练。但再减少四个比特,质量损失将变得较为显著。因此,许多后训练量化方法(如GGUF)并非均匀压缩所有权重,而是让部分权重保持较高精度以限制损失。

我们曾深入分析过量化技术,简单来说,它涉及将模型权重从其原生精度(通常是BF16)压缩到FP8或INT4,这有效将模型所需内存带宽和容量需求减半甚至四分之一,但会带来一定质量损失。

AI目前尚无法取代自由职业程序员,但这一天终将到来。

估计AI的能源使用量非常困难——但这份报告尝试进行了估算。

英伟达开放了高速NVLink互连技术,供定制CPU和ASIC使用。

英特尔押注你会堆叠廉价GPU以避免花大价钱购买英伟达的专业显卡。

上个月,谷歌展示了利用量化感知训练(QAT)将Gemma 3模型压缩至原尺寸四分之一,同时保持接近原生BF16的质量。

QAT通过在训练过程中模拟低精度操作来工作。通过在未经验证的模型上应用该技术约5000步,谷歌称转换为INT4后,困惑度降幅达54%。

另一种基于QAT的量化方法名为Bitnet,旨在进一步压缩,将模型压缩到仅1.58位,即大约十分之一的大小。

将MoE与4位量化相结合,特别是如果您受制于Blackwell Ultra高昂成本,或因美国贸易政策导致HBM比黄金更贵的话,您真的可以大展身手。

对于其他人来说,任一技术均可显著降低运行更大、更强模型的设备和运营成本,假设您能找到适合它们的任务。

如果找不到,至少您可以自我安慰,您并非唯一面临这种情况的人。近期IBM针对2000名CEO开展的调查显示,仅有四分之一的AI部署兑现了投资回报承诺。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日