AI推理CPU当道，Arm驱动高效引擎

电子发烧友网报道（文/黄晶晶）AI的训练和推理共同铸就了其无与伦比的处理能力。在AI训练方面，GPU因其出色的并行计算能力赢得了业界的青睐，成为了当前AI大模型最热门的芯片；而在AI推理方面，具备卓越通用性和灵活性的CPU本应发挥关键作用，但其重要性却常常被忽视。
“对于那些希望将大语言模型（LLM）集成到产品和服务中的企业和开发者来说，CPU通常是首选”。Arm中国区业务全球副总裁邹挺在接受采访时表示。为了适应AI推理的应用落地，CPU有针对性的优化必不可少，ArmNeoverse平台通过增加如SVE2指令集使得AI推理具有更好的性能和效率。
Arm中国区业务全球副总裁邹挺
CPU对于AI推理的重要性
CPU长期以来广泛应用于传统的AI和机器学习任务，其通用性和灵活性使其在部署AI推理时更具优势。邹挺表示，在AI场景落地初期，专用AI处理器的开发周期较长，因此，高能效CPU自然成为了推理的核心；随着AI技术的深入发展和应用场景的多样化，定制化专用AI加速器应运而生。在这一过程中，高能效的CPU不仅作为核心控制单元，还与GPU、NPU、FPGA、ASIC等异构单元协同工作，管理和调度系统资源，成为AI推理的”灵魂捕手”。
相比于单纯依赖GPU的高成本和高功耗，CPU在推理过程中具有更高的能效比。CPU的设计更适合处理多任务负载，并且无需复杂的冷却和电力解决方案。这使得CPU在大规模部署中能够以更低的成本运行，特别是在资源受限的环境中，其低功耗的特性尤为显著。这对于那些需要长期、稳定运行的AI应用来说，是一个可持续且经济高效的选择。
ArmNeoverse平台集成SVE2技术，对AI计算至关重要
ArmNeoverseCPU在AI推理中展现了其独特优势，这一点要从其技术底层开始剖析。
邹挺分析，Armv9架构已经引入ArmNeoverse平台，在Armv9架构中Arm集成SVE2（可扩展向量扩展）指令集。SVE2作为一种可扩展的向量处理技术，允许处理器同时执行多个数据元素操作，从而提供了更高效的向量计算和AI硬件加速。
SVE2在AI推理中的一个关键应用是矩阵运算。矩阵乘法是许多AI任务中的常见计算，而SVE2向量指令可以同时处理多个数据元素，使矩阵乘法能够以向量化的方式进行，从而提高了计算效率。
例如，SVE2中的FMMLA指令可以实现FP32格式下的矩阵乘法，BFMMLA指令能够在BF16格式下进行高效运算，而UMMLA、SMMLA等指令则优化了INT8格式下的矩阵运算。通过这些指令和硬件加速功能，AI推理在Arm架构上能够实现更高效的矩阵运算和更优的能效比。
这种技术不仅提升了AI推理中矢量运算的效率，尤其是在深度学习和自然语言处理（NLP）等核心任务上，加快了推理速度，并在能效表现上进行了优化。通过SVE2的支持，ArmNeoverseCPU可以在边缘计算和资源受限的环境中高效运行，从而减少对GPU和其他硬件资源的依赖。
基于ArmNeoverse的CPU显著提升推理性能
亚马逊云服务（AWS）、微软、Google和甲骨文(Oracle)等全球最大的AI头部云服务提供商们都通过ArmNeoverse进行通用计算和基于CPU的AI推理与训练。ArmNeoverse不仅为这些头部云服务商提供了定制芯片的灵活性，还优化了严苛的工作负载，确保在每瓦功率的使用上实现更高的计算效率。
例如，基于Arm架构的AWSGraviton，与其他同行业产品相比，AmazonSagemaker的AI推理性能提高了25%，Web应用程序提高了30%，数据库提高了40%，效率则提升了60%。基于Arm架构的GoogleCloudAxion，与传统架构相比，其性能和能效分别提高了50%和60%，可为基于CPU的AI推理和训练、YouTube、Google地球等服务提供支持。
基于ArmNeoverseN2架构的阿里云倚天710，在运行Llama3和Qwen1.5等业内标准大语言模型时展现了极高的灵活性和扩展性。通过与Arm软件团队的紧密合作，阿里云对llama.cpp中的int4和int8GEMM内核进行了优化，特别是利用了SMMLA指令来提高计算效率。在ecs.g8y.16xlarge实例上（配置64个vCPU和256GB内存），多次实验结果显示，每秒处理的词元数量增加了2.7倍。此外，词元生成的吞吐量在处理更大批次数据时最多提高了1.9倍。词元生成的延迟对于交互式LLM部署非常关键。实验表明，阿里云倚天710在单次操作和批量处理场景下均能保持100毫秒以内的延迟目标，这符合人们每秒5-10个单词的典型阅读速度。因此，这一架构非常适合常规体量的LLM部署。
与其他服务器CPU的对比中，阿里云倚天710的优势显著。在与IntelIcelake和SapphireRapids的对比中，倚天710在提示词处理性能上提升了3.2倍，词元生成性能则提升了2.2倍。这表明，倚天710不仅在处理性能上有明显优势，其成本效益也极具吸引力，成为了LLM推理应用中的理想选择。
小模型的推理优化
越来越多的企业将开发重心转向小语言模型（SmallLanguageModels,SLM）或小型LLM，小模型尤其是在处理对话、翻译、摘要、分类等任务时，效率更高且耗能更少。与需要高昂的基础设施成本和复杂漫长的开发部署周期的大语言模型相比，这些模型在训练过程中消耗的电力也相对较低，适合更灵活、可定制的应用场景。
邹挺分析，在提升模型效率方面，量化技术是一个重要的优化手段。通过将神经网络的权重降低到更低的精度，量化技术显著减少了模型的内存和计算需求。比如，将16位浮点数压缩为4位整数，可以大幅降低内存占用和计算成本，同时对精度的影响微乎其微。
以Llama2模型为例，原本拥有70亿参数的模型在量化后，从13.5GB缩减至3.9GB；130亿参数的版本从26.1GB缩减至7.3GB；而700亿参数模型则从138GB减少至40.7GB。这些优化显著提升了模型的运行速度，同时降低了在CPU上运行的成本。
结合高效的ArmCPU技术，这些优化让轻量级模型可以直接在移动设备上运行，不仅提升了性能，还实现了数据隐私保护和用户体验的优化。
他进一步表示，在针对FunASR语音识别模型的优化方面，Arm充分利用了Armv9架构中的SVE2指令、BF16数据类型等特性，并引入了动态量化技术，使得FunASR模型在ArmNeoverse服务器上实现了高效运行。FunASR是阿里巴巴达摩院开发的开源大模型，基于Paraformer架构，具备语音识别、语音端点检测、标点恢复、语言模型、说话人验证和分离等多种功能。
SVE2指令集在Arm架构处理器中，对INT8数据的并行处理非常高效，一次指令周期可以完成16个INT8的乘累加操作。因此，在对模型执行效率有更高要求的场景下，可以采用INT8动态量化来提升效率。此外，INT8和BF16的数据格式组合也进一步优化了模型计算效率，在保持精度的前提下，实现了1.5倍的效率提升。这样的优化确保了FunASR等大模型在Arm架构上的高效运行，使其能够在特定领域AI应用中发挥重要作用。
不断优化AI推理的性能与能耗
当前全球数据中心每年消耗约460太瓦时的电力，随着AI技术和应用的快速发展，这一数字预计在2030年将增长至当前的三倍。目前，数据中心中约有85%的AI负载用于推理任务，这些任务涵盖了众多应用和设备。
ArmNeoverse的架构不仅提升了云端计算的性能和能效，还为大规模云服务提供商和数据中心优化了TCO。例如，基于ArmNeoverse平台的AWSGraviton3在AI推理过程中节约了50%的成本。
据悉，Arm在Neoverse的产品线目前有V、N、E三个平台系列，其中NeoverseV与NeoverseN又进一步推出计算子系统CSS产品，为想快速推出产品，掌握人工智能机遇的合作伙伴，缩减产品开发时间，加速产品上市进程。
迄今为止，合作伙伴基于Arm架构的芯片出货量已达到3,000亿颗，这一庞大的市场基础使Arm能够支持各种AI技术领域的发展，并成为推动AI创新的重要平台。AI推理正从集中在云端扩展到更多的边缘应用，以实现更广泛的覆盖和更高效的响应。
邹挺说道:”从移动设备到AI领域，高性能和出色能效始终是Arm的DNA。Arm将继续推动AI的技术变革，带来更高效、更可持续的计算解决方案，确保我们的技术能够支持合作伙伴在AI时代的多样化需求，同时推动AI技术在更多领域的广泛落地和普及。”
声明：本文由电子发烧友原创，转载请注明以上来源。如需入群交流，请添加微信elecfans999，投稿爆料采访需求，请发邮箱huangjingjing@elecfans.com。
更多热点文章阅读
点击关注星标我们
将我们设为星标，不错过每一次更新！
喜欢就奖励一个”在看”吧！

AI推理CPU当道，Arm驱动高效引擎

你可能还想读

欧美最顶尖的5家云厂商，都在押注什么？

台积电表忠心的速度有点快

AI行业存在泡沫吗？

外媒：台积电停供大陆7纳米AI芯片

李彦宏：智能体是AI应用的最主流形态 即将迎来爆发点

AI闯关双十一：受伤的还是人类

NPU：真需求？假创新？

是时候重新认识To B圈的「双11」了

李彦宏：智能体是AI应用的最主流形态即将迎来爆发点