英伟达发布CUDA 13.1,引入Tile IR革新GPU编程

发布时间:2025年12月7日    来源:szf
英伟达发布CUDA 13.1,引入Tile IR革新GPU编程

快速阅读: 英伟达发布CUDA 13.1,引入CUDA Tile新编程方式,简化AI与加速计算开发,提高代码兼容性和执行效率,支持多代GPU架构。

12月7日,IT之家报道,英伟达本周四发布了全新的CUDA 13.1,这是自2006年CUDA平台推出以来最大规模的功能扩展更新。英伟达介绍,此次更新的重点在于引入了一种名为CUDA Tile的新GPU编程方式,旨在让更广泛的开发者群体能够更轻松地运用强大的AI与加速计算能力。

NVIDIA CUDA Tile引入了一套用于基于Tile(数据块)的并行编程的虚拟指令集,其目的是让开发者能够更高层次地编写算法,同时隐藏如张量核心等专用硬件的实现细节。为何要在GPU上引入Tile编程?英伟达指出,CUDA向开发者展示的是单指令多线程硬件与编程模型,这要求开发者能够以最大灵活性和精确度控制代码的执行方式。然而,编写高性能代码,尤其是在多种GPU架构上都能表现出色的代码,可能需要付出巨大努力。尽管有许多辅助开发者挖掘性能的函数库,如NVIDIA CUDA-X和NVIDIA CUTLASS,但CUDA Tile提供了一种比SIMT更高层次的GPU编程新范式。

随着计算负载,特别是在AI领域的演变,张量已成为基本数据类型。NVIDIA开发了专门操作张量的专用硬件,例如NVIDIA张量核心(TC)和张量内存加速器(TMA),这些已经成为每一代GPU架构的重要组成部分。随着硬件的日益复杂,需要更多的软件来帮助驾驭这些能力。CUDA Tile抽象了张量核心及其编程模型,确保使用CUDA Tile编写的代码能够兼容当前及未来的张量核心架构。

基于Tile的编程允许开发者通过指定数据块(即Tile),定义在这些Tile上执行的计算来编写算法。这样一来,开发者无需详细设定算法的执行方式,而是让编译器和运行时自动处理这些细节。

CUDA Tile IR:Tile编程的基础。CUDA Tile的核心是CUDA Tile IR(中间表示)。Tile IR引入了一套虚拟指令集,使得可以通过Tile操作的方式对本机硬件进行编程。开发者可以编写更高级别的代码,在多代GPU上高效执行,仅需最小的改动。虽然NVIDIA Parallel Thread Execution (PTX)保证了SIMT程序的可移植性,但CUDA Tile IR通过增加对基于Tile的程序的原生支持,扩展了CUDA平台。开发者专注于将数据并行程序划分为Tile和Tile块,而CUDA Tile IR负责处理到线程、内存层次结构和张量核心等硬件资源的映射。

通过提高抽象级别,CUDA Tile IR使用户能够为NVIDIA硬件构建更高级别的硬件专用编译器、框架和领域专用语言。对于Tile编程而言,CUDA Tile IR的作用类似于SIMT编程中的PTX。值得注意的是,这不是强制性的选择。GPU上的Tile编程只是编写GPU代码的一种可选方法,开发者不必在SIMT和Tile编程之间做出选择(两者可以共存)。当需要SIMT时,开发者可以像往常一样编写内核;当希望利用张量核心进行操作时,则可以编写Tile内核。

CUDA Tile如何融入软件栈?英伟达表示,CUDA Tile IR位于大多数程序员与Tile编程交互的层面之下。除非正在编写编译器或函数库,否则很可能不需要关注CUDA Tile IR的具体软件细节。大多数开发者将通过类似NVIDIA cuTile Python这样的软件与CUDA Tile编程进行交互——这是一个使用CUDA Tile IR作为后端的NVIDIA Python实现。对于希望构建自己的领域专用语言编译器或函数库的开发者,CUDA Tile IR将是他们交互的层面。其文档和规范提供了关于CUDA Tile IR编程抽象、语法和语义的信息。如果正在开发的工具/编译器/函数库目前以PTX为目标,那么可以调整软件,使其也能以CUDA Tile IR为目标。

参考地址:https://developer.nvidia.com/cuda/tile 广告声明:文中含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含此声明。

(以上内容均由Ai生成)

你可能还想读

英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

快速阅读: 12月8日消息,英伟达推出4B参数小模型NVARC,在ARC-AGI2评测中以27.64%准确率超越GPT-5Pro,单任务推理成本仅0.2美元,凭借零预训练策略和合成数据实现高效低成本部署。 近日,英伟达研发的4B参数小模型N […]

发布时间:2025年12月8日
Meta收购Limitless加码AI可穿戴设备

Meta收购Limitless加码AI可穿戴设备

快速阅读: 据最新消息,Meta收购AI可穿戴设备公司Limitless,后者以无屏幕智能吊坠著称,具备语音交互与实时转录功能;收购后团队并入Meta,专注AI硬件研发,现有产品将停售但提供一年技术支持。 日前,美国科技企业Meta宣布收购 […]

发布时间:2025年12月8日
沐曦股份科创板申购中签率公布

沐曦股份科创板申购中签率公布

快速阅读: 12月8日消息,沐曦集成电路科创板IPO网上申购户数达517.52万户,启动回拨后最终中签率升至0.03348913%,拟募资39.04亿元用于高性能GPU研发及产业化。 12月8日,国产GPU企业沐曦集成电路(上海)股份有限公 […]

发布时间:2025年12月8日
阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

快速阅读: 12月8日消息,阿里巴巴推出通义千问Qwen3-TTS语音合成模型,支持49种音色、10种语言及9种方言,免费开放每月百万字符额度,并在上海120所中小学试点教育应用。 今日,阿里巴巴正式推出通义千问Qwen3系列新成员——Qw […]

发布时间:2025年12月8日
京东云JoyBuilder千卡训练提速3.5倍

京东云JoyBuilder千卡训练提速3.5倍

快速阅读: 12月8日消息,京东云JoyBuilder平台完成关键升级,支持GR00T N1.5千卡训练,兼容LeRobot框架,训练效率提升3.5倍,亿级数据训练从15小时缩短至22分钟。 日前,京东云JoyBuilder模型开发平台完成 […]

发布时间:2025年12月8日
麦肯锡:AI将取代8亿岗位,同时创造新机遇

麦肯锡:AI将取代8亿岗位,同时创造新机遇

快速阅读: 据麦肯锡全球研究院消息,到2030年全球或有8亿岗位被人工智能取代,同时创造1.3亿至2.3亿新岗位,冲击驾驶、物流、医疗、法律等多个行业,专家呼吁加强再培训与政策应对。 日前,人工智能技术快速发展引发全球关注。加州大学伯克利分 […]

发布时间:2025年12月8日
可灵AI上线主体库,角色跨场景“永不变脸”

可灵AI上线主体库,角色跨场景“永不变脸”

快速阅读: 12月8日消息,快手旗下可灵AI发布“主体库”,为O1视频模型新增长期记忆能力,用户上传单图即可跨场景调用一致角色,主体一致性超96%,并推分级服务与2025年多人功能规划。 今日,快手旗下可灵AI正式发布“主体库”(Subje […]

发布时间:2025年12月8日
n1n.ai 重塑大模型API成本与体验

n1n.ai 重塑大模型API成本与体验

快速阅读: 据最新消息,大模型API平台n1n.ai整合近500种开源与闭源模型,价格低至官方十分之一,响应快、稳定性高,已助企业降本超70%并提升用户满意度。 近日,大模型API服务平台n1n.ai凭借高性价比、高稳定性及丰富模型选择,正 […]

发布时间:2025年12月8日