Arm推Lumex芯片，CPU加速AI性能提升

快速阅读: 英国芯片设计公司Arm推出最新移动平台Lumex，采用3纳米工艺，CPU性能提升15%，GPU性能提升20%，功耗减少15%，支持AI加速和光线追踪，预计今年晚些时候上市。

英国芯片设计公司Arm近日揭开了其最新移动平台的面纱，该平台包括新的CPU和GPU设计，以及重新架构的互连和内存管理逻辑，所有这些都针对即将到来的AI智能手机浪潮进行了优化。过去几年，Arm一直在向更加集成的解决方案转型，而今年推出的Lumex计算子系统（CSS）则是这一理念的最新进化。与每一代产品一样，Arm设法在其设计中进一步提升了性能和能效，宣称CPU性能平均提升15%，GPU性能提升20%，同时节省了15%的功耗。

Lumex的重点在于Arm在CPU集群中引入的可扩展矩阵扩展（SME2），这是该公司推荐的AI加速首选路径，还包括系统级的整体优化，以提高能够运行AI模型设备的可扩展性。Arm高级CPU总监Stefan Rosinger表示，SME2将AI加速能力提高了“一个数量级”，对于移动设备而言，这意味着它消耗更少的电力且计算速度更快。据Arm透露，预计搭载Lumex的智能手机和其他设备将于今年晚些时候或明年初上市。该平台旨在采用3纳米制造工艺，Arm预计其授权生产的芯片运行频率将达到4GHz以上。

在Lumex CPU集群中，所有核心均被命名为C1，其中最高性能的核心设计被称为C1-Ultra。目前大多数智能手机芯片都采用了多种核心类型的组合，高性能核心用于处理高负荷工作，而节能型核心则负责其他任务，这源自多年前的big.LITTLE架构。Lumex为芯片设计者提供了四种核心类型选择，依次是C1-Ultra、C1-Premium、C1-Pro和C1-Nano。Arm认为，旗舰手机可能会采用两颗C1-Ultra核心搭配六颗C1-Pro核心的配置，而次旗舰级别的芯片可能会使用两颗C1-Premium核心加六颗C1-Pro核心，主流市场则可能采用四颗Pro核心和四颗Nano核心的组合。

在GPU方面，Lumex平台配备了Mali G1，这些GPU同样分为Mali G1-Ultra、Mali G1-Premium和Mali G1-Pro三个级别，区别主要在于着色器核心的数量，Pro级有1到5个，Premium级有6到9个，Ultra级则有10个或更多。Mali G1-Ultra还配备了Arm重新设计的光线追踪单元（RTU），据称比去年的Immortalis-G925性能提高了40%，并且游戏画质更高。新GPU设计还支持半精度（FP16）矩阵乘法，据称可以加速游戏内AI处理，同时降低内存带宽需求并减少功耗。

尽管Arm已经展示了明年将为手机GPU带来的神经加速硬件，但今年Lumex中的Mali G1-Ultra并不包含这部分功能。Lumex完整的计算子系统还包括一个新的专用系统互连（SI）和系统内存管理单元（SMMU），旨在应对在智能手机上运行AI模型所带来的需求。系统互连采用了Arm所谓的通道化架构，可以为不同的流量提供服务质量（QoS）优先级，而系统SMMU则通过优化将延迟减少了高达75%。

当然，不仅仅是硬件方面的工作。Arm表示，他们一直在幕后努力确保各种开发者框架支持其最新平台的优化。其KleidiAI库已与PyTorch、Llama、LiteRT和ONNX等框架集成，以实现SME2加速时运行AI工作负载的支持。Arm人工智能和开发者平台研究员Geraint North认为，AI处理应保持在CPU上，因为“它是移动市场上唯一可以保证存在于每一部手机中的计算单元”。他解释说，当转向GPU和神经处理单元（NPUs）时，不同厂商可能会选择不同的GPU和NPUs，导致需要为不同型号的手机做不同的工作。这是一个合理的观点，但并非所有人都认同这一点。分析机构Gartner明确定义了一款具有内置神经引擎或神经处理单元（NPU）的GenAI智能手机，这种设备能够运行小型语言模型。Gartner预测，无论是高端智能手机还是价格低于350美元的基本智能手机都将具备这一特征，只有“实用型智能手机”可能不具备NPU能力。

高通无疑将从中受益，其智能手机芯片集成了NPU，并在去年的MWC展会上展示了在安卓手机上运行的70亿参数大语言模型。据Arm预计，到今年年底，它将占据数据中心市场的50%份额。Arm正计划向端到端硅解决方案推进，以加强其在服务器市场的地位，但目前还无法从x86架构手中夺走主导权。此外，Arm放弃了取消高通关键芯片授权的尝试。

TECHnalysis Research的总裁兼首席分析师Bob O’Donnell表示，鉴于当前市场状况，Arm的战略是合理的。“首先，由于存在多种不同的NPU架构且缺乏标准化，很少有软件开发者真正利用NPUs进行AI应用开发。相反，他们通常选择CPU和GPU。借助Arm最新的SME2指令和逻辑，这将有助于加速这些功能。”他告诉《The Register》，“其次，许多Arm的合作伙伴选择通过自己的NPU设计来实现差异化，而Arm再提供另一种NPU选项可能会加剧这种混乱。希望我们能尽快看到一些标准化的方法来利用不同的NPU架构，这样NPUs才能被更频繁地使用，但我担心这可能还需要几年时间。”

Arm的芯片授权方现在必须做出选择——Arm在CPU中采用SME2的方法是否会更受欢迎，还是智能手机制造商和消费者更倾向于内置NPU？®

获取我们的技术资源

更多关于

发表评论

爆料给我们

发送新闻

(以上内容均由Ai生成)