华为全面开源CUDA版本,加速计算领域再进一步
快速阅读: 7月11日,华为宣布开源昇腾AI GPU的CANN软件工具包,支持用户自主挖掘昇腾GPU潜力,加速开发者创新。同日,Raja Koduri创立Oxmiq Labs,专注开发GPU硬件和软件IP,挑战英伟达CUDA生态系统。
最新消息,华为宣布为其昇腾AI GPU 开源 CANN 软件工具包。在昇腾计算产业发展峰会上,华为轮值董事长徐直军发表主题演讲,强调华为 AI 战略的核心在于算力,并表示将坚持昇腾硬件变现。在此背景下,华为宣布 CANN 架构全面开源开放,Mind 系列应用使能套件及工具链也同步开源,支持用户自主深度挖掘昇腾 GPU 的潜力,加速开发者的创新步伐,让昇腾更易用、更好用。
CANN 是一种神经网络计算架构,提供多层编程接口,帮助用户构建针对华为昇腾的 AI 应用程序。作为一个由多种技能栈和算子加速库组成的软件生态系统,CANN 类似于华为版本的 CUDA,为 GPU 提供相同的接口。
巧合的是,同一天,一家由传奇 GPU 架构师创办的公司浮出水面。该公司不开发消费级 GPU,而是专注于类似 CUDA 的软件生态系统。这表明,挑战英伟达 CUDA 生态系统的玩家越来越多。
过去,开发者因 CUDA 封闭生态系统而受限。CUDA 几乎不支持其他第三方硬件,导致开发者只能使用英伟达的 GPU。这种封闭性构成了英伟达的核心壁垒。一旦开发者希望迁移到其他产品,就需要重写代码,使用生态相对不成熟的替代库,同时失去英伟达庞大的技术社区支持。此前,一些项目试图通过转换层将 CUDA 功能引入其他 GPU 供应商,但因英伟达的阻挠大多未能成功。自 2024 年 CUDA 11.6 版本起,使用转换层被禁止。
目前,CANN 已经升级到 8.0 版本,提供社区版和商业版两个版本。社区版提供新功能的早期体验,商业版则为企业用户提供稳定的定制版本。两个版本均已更新至 8.2.RC1,新增适配 12 款操作系统。与 CANN 配套的还有华为自研的深度学习框架 MindSpore,类似于 PyTorch,这些工具共同构成华为的 AI 软硬件解决方案。CANN 已支持 PyTorch、MindSpore、TensorFlow、飞桨、ONNX、计图、OpenCV 和 OpenMMLab 等多个深度学习框架和第三方库。会上,与会代表和华为共同发起了《CANN 开源开放生态共建倡议》。
与此同时,传奇 GPU 架构师 Raja Koduri 宣布创立 GPU 初创公司 Oxmiq Labs。他曾效力于 AMD、苹果和英特尔,担任过英特尔加速计算系统和图形业务的执行副总裁。Oxmiq Labs 专注于开发 GPU 硬件和软件 IP,并将其授权给各方。该公司不开发消费级 GPU,而是提供一个垂直集成平台,结合 GPU 硬件 IP 和功能齐全的软件堆栈,以满足 AI、图形和多模态工作负载的需求。
在硬件方面,Oxmiq 提供基于 RISC-V 指令集架构的 GPU IP 核 OxCore,该核集成了标量、矢量和张量计算引擎,支持近内存和内存计算功能。此外,Oxmiq 还提供基于芯片集的系统级芯片构建器 OxQuilt,使客户能够根据特定工作负载需求,快速且经济高效地创建集成计算集群桥接器、内存集群桥接器和互连集群桥接器模块的 SoC。
Oxmiq 的软件业务更为核心,其软件包可以兼容第三方硬件,支持在各种硬件平台上部署 AI 和图形工作负载。软件堆栈的核心是 OXCapsule,用于管理工作负载分配、资源平衡和硬件抽象。OXPython 是该堆栈的一个重要组件,它可以将 CUDA 为中心的工作负载转换为 Oxmiq 的运行时,使基于 Python 的 CUDA 应用程序在非英伟达硬件上无需修改即可运行,无需重新编译。尽管 OXPython 最初将在 Tenstorrent 的 Wormhole 和 Blackhole AI 加速器上发布,但其设计本质上独立于 Oxmiq 硬件。
无论最终结果如何,竞争的号角已经吹响,最终受益的还是开发者。
(以上内容均由Ai生成)