Arm推Lumex芯片,CPU加速AI性能提升
快速阅读: 英国芯片设计公司Arm推出最新移动平台Lumex,采用3纳米工艺,CPU性能提升15%,GPU性能提升20%,功耗减少15%,支持AI加速和光线追踪,预计今年晚些时候上市。
英国芯片设计公司Arm近日揭开了其最新移动平台的面纱,该平台包括新的CPU和GPU设计,以及重新架构的互连和内存管理逻辑,所有这些都针对即将到来的AI智能手机浪潮进行了优化。过去几年,Arm一直在向更加集成的解决方案转型,而今年推出的Lumex计算子系统(CSS)则是这一理念的最新进化。与每一代产品一样,Arm设法在其设计中进一步提升了性能和能效,宣称CPU性能平均提升15%,GPU性能提升20%,同时节省了15%的功耗。
Lumex的重点在于Arm在CPU集群中引入的可扩展矩阵扩展(SME2),这是该公司推荐的AI加速首选路径,还包括系统级的整体优化,以提高能够运行AI模型设备的可扩展性。Arm高级CPU总监Stefan Rosinger表示,SME2将AI加速能力提高了“一个数量级”,对于移动设备而言,这意味着它消耗更少的电力且计算速度更快。据Arm透露,预计搭载Lumex的智能手机和其他设备将于今年晚些时候或明年初上市。该平台旨在采用3纳米制造工艺,Arm预计其授权生产的芯片运行频率将达到4GHz以上。
在Lumex CPU集群中,所有核心均被命名为C1,其中最高性能的核心设计被称为C1-Ultra。目前大多数智能手机芯片都采用了多种核心类型的组合,高性能核心用于处理高负荷工作,而节能型核心则负责其他任务,这源自多年前的big.LITTLE架构。Lumex为芯片设计者提供了四种核心类型选择,依次是C1-Ultra、C1-Premium、C1-Pro和C1-Nano。Arm认为,旗舰手机可能会采用两颗C1-Ultra核心搭配六颗C1-Pro核心的配置,而次旗舰级别的芯片可能会使用两颗C1-Premium核心加六颗C1-Pro核心,主流市场则可能采用四颗Pro核心和四颗Nano核心的组合。
在GPU方面,Lumex平台配备了Mali G1,这些GPU同样分为Mali G1-Ultra、Mali G1-Premium和Mali G1-Pro三个级别,区别主要在于着色器核心的数量,Pro级有1到5个,Premium级有6到9个,Ultra级则有10个或更多。Mali G1-Ultra还配备了Arm重新设计的光线追踪单元(RTU),据称比去年的Immortalis-G925性能提高了40%,并且游戏画质更高。新GPU设计还支持半精度(FP16)矩阵乘法,据称可以加速游戏内AI处理,同时降低内存带宽需求并减少功耗。
尽管Arm已经展示了明年将为手机GPU带来的神经加速硬件,但今年Lumex中的Mali G1-Ultra并不包含这部分功能。Lumex完整的计算子系统还包括一个新的专用系统互连(SI)和系统内存管理单元(SMMU),旨在应对在智能手机上运行AI模型所带来的需求。系统互连采用了Arm所谓的通道化架构,可以为不同的流量提供服务质量(QoS)优先级,而系统SMMU则通过优化将延迟减少了高达75%。
当然,不仅仅是硬件方面的工作。Arm表示,他们一直在幕后努力确保各种开发者框架支持其最新平台的优化。其KleidiAI库已与PyTorch、Llama、LiteRT和ONNX等框架集成,以实现SME2加速时运行AI工作负载的支持。Arm人工智能和开发者平台研究员Geraint North认为,AI处理应保持在CPU上,因为“它是移动市场上唯一可以保证存在于每一部手机中的计算单元”。他解释说,当转向GPU和神经处理单元(NPUs)时,不同厂商可能会选择不同的GPU和NPUs,导致需要为不同型号的手机做不同的工作。这是一个合理的观点,但并非所有人都认同这一点。分析机构Gartner明确定义了一款具有内置神经引擎或神经处理单元(NPU)的GenAI智能手机,这种设备能够运行小型语言模型。Gartner预测,无论是高端智能手机还是价格低于350美元的基本智能手机都将具备这一特征,只有“实用型智能手机”可能不具备NPU能力。
高通无疑将从中受益,其智能手机芯片集成了NPU,并在去年的MWC展会上展示了在安卓手机上运行的70亿参数大语言模型。据Arm预计,到今年年底,它将占据数据中心市场的50%份额。Arm正计划向端到端硅解决方案推进,以加强其在服务器市场的地位,但目前还无法从x86架构手中夺走主导权。此外,Arm放弃了取消高通关键芯片授权的尝试。
TECHnalysis Research的总裁兼首席分析师Bob O’Donnell表示,鉴于当前市场状况,Arm的战略是合理的。“首先,由于存在多种不同的NPU架构且缺乏标准化,很少有软件开发者真正利用NPUs进行AI应用开发。相反,他们通常选择CPU和GPU。借助Arm最新的SME2指令和逻辑,这将有助于加速这些功能。”他告诉《The Register》,“其次,许多Arm的合作伙伴选择通过自己的NPU设计来实现差异化,而Arm再提供另一种NPU选项可能会加剧这种混乱。希望我们能尽快看到一些标准化的方法来利用不同的NPU架构,这样NPUs才能被更频繁地使用,但我担心这可能还需要几年时间。”
Arm的芯片授权方现在必须做出选择——Arm在CPU中采用SME2的方法是否会更受欢迎,还是智能手机制造商和消费者更倾向于内置NPU?®
获取我们的技术资源
分享
更多关于
分享
发表评论
爆料给我们
发送新闻
(以上内容均由Ai生成)