英伟达发布CUDA 13.1,引入Tile IR革新GPU编程

发布时间:2025年12月7日    来源:szf
英伟达发布CUDA 13.1,引入Tile IR革新GPU编程

快速阅读: 英伟达发布CUDA 13.1,引入CUDA Tile新编程方式,简化AI与加速计算开发,提高代码兼容性和执行效率,支持多代GPU架构。

12月7日,IT之家报道,英伟达本周四发布了全新的CUDA 13.1,这是自2006年CUDA平台推出以来最大规模的功能扩展更新。英伟达介绍,此次更新的重点在于引入了一种名为CUDA Tile的新GPU编程方式,旨在让更广泛的开发者群体能够更轻松地运用强大的AI与加速计算能力。

NVIDIA CUDA Tile引入了一套用于基于Tile(数据块)的并行编程的虚拟指令集,其目的是让开发者能够更高层次地编写算法,同时隐藏如张量核心等专用硬件的实现细节。为何要在GPU上引入Tile编程?英伟达指出,CUDA向开发者展示的是单指令多线程硬件与编程模型,这要求开发者能够以最大灵活性和精确度控制代码的执行方式。然而,编写高性能代码,尤其是在多种GPU架构上都能表现出色的代码,可能需要付出巨大努力。尽管有许多辅助开发者挖掘性能的函数库,如NVIDIA CUDA-X和NVIDIA CUTLASS,但CUDA Tile提供了一种比SIMT更高层次的GPU编程新范式。

随着计算负载,特别是在AI领域的演变,张量已成为基本数据类型。NVIDIA开发了专门操作张量的专用硬件,例如NVIDIA张量核心(TC)和张量内存加速器(TMA),这些已经成为每一代GPU架构的重要组成部分。随着硬件的日益复杂,需要更多的软件来帮助驾驭这些能力。CUDA Tile抽象了张量核心及其编程模型,确保使用CUDA Tile编写的代码能够兼容当前及未来的张量核心架构。

基于Tile的编程允许开发者通过指定数据块(即Tile),定义在这些Tile上执行的计算来编写算法。这样一来,开发者无需详细设定算法的执行方式,而是让编译器和运行时自动处理这些细节。

CUDA Tile IR:Tile编程的基础。CUDA Tile的核心是CUDA Tile IR(中间表示)。Tile IR引入了一套虚拟指令集,使得可以通过Tile操作的方式对本机硬件进行编程。开发者可以编写更高级别的代码,在多代GPU上高效执行,仅需最小的改动。虽然NVIDIA Parallel Thread Execution (PTX)保证了SIMT程序的可移植性,但CUDA Tile IR通过增加对基于Tile的程序的原生支持,扩展了CUDA平台。开发者专注于将数据并行程序划分为Tile和Tile块,而CUDA Tile IR负责处理到线程、内存层次结构和张量核心等硬件资源的映射。

通过提高抽象级别,CUDA Tile IR使用户能够为NVIDIA硬件构建更高级别的硬件专用编译器、框架和领域专用语言。对于Tile编程而言,CUDA Tile IR的作用类似于SIMT编程中的PTX。值得注意的是,这不是强制性的选择。GPU上的Tile编程只是编写GPU代码的一种可选方法,开发者不必在SIMT和Tile编程之间做出选择(两者可以共存)。当需要SIMT时,开发者可以像往常一样编写内核;当希望利用张量核心进行操作时,则可以编写Tile内核。

CUDA Tile如何融入软件栈?英伟达表示,CUDA Tile IR位于大多数程序员与Tile编程交互的层面之下。除非正在编写编译器或函数库,否则很可能不需要关注CUDA Tile IR的具体软件细节。大多数开发者将通过类似NVIDIA cuTile Python这样的软件与CUDA Tile编程进行交互——这是一个使用CUDA Tile IR作为后端的NVIDIA Python实现。对于希望构建自己的领域专用语言编译器或函数库的开发者,CUDA Tile IR将是他们交互的层面。其文档和规范提供了关于CUDA Tile IR编程抽象、语法和语义的信息。如果正在开发的工具/编译器/函数库目前以PTX为目标,那么可以调整软件,使其也能以CUDA Tile IR为目标。

参考地址:https://developer.nvidia.com/cuda/tile 广告声明:文中含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含此声明。

(以上内容均由Ai生成)

你可能还想读

三星4nm制程良率突破60%,获超1亿美元AI芯片订单

三星4nm制程良率突破60%,获超1亿美元AI芯片订单

快速阅读: 三星电子4纳米制程良率提升至60%-70%,获美企Tsavorite超1亿美元OPU芯片订单,显示三星在中高端市场重获份额。近期三星还获得中国矿机厂商及特斯拉AI5芯片订单,推进2纳米工艺发展。 12 月 7 日,据韩国媒体《亚 […]

发布时间:2025年12月7日
百度集团:正就分拆昆仑芯进行上市进行评估

百度集团:正就分拆昆仑芯进行上市进行评估

快速阅读: 百度计划分拆昆仑芯科技并筹备上市,预计2026年一季度递交申请,2027年初完成IPO。昆仑芯为百度内部孵化的AI芯片公司,业务增长迅速,2024年营收超10亿元。百度股价受此消息上涨5.01%。 感谢IT之家网友 啊俊 、 D […]

发布时间:2025年12月7日
网红“甲亢哥”直播暴力损毁人形机器人,开发公司起诉索赔

网红“甲亢哥”直播暴力损毁人形机器人,开发公司起诉索赔

快速阅读: 网红IShowSpeed在直播中对人形机器人Rizzbot实施暴力行为,致其严重损坏。Rizzbot开发公司Social Robotics提起诉讼,要求赔偿实际损失和预期利润。 2024年9月,拥有超过5000万粉丝(全平台累计 […]

发布时间:2025年12月7日
AI争议两天内导致PS5、PS4游戏下架

AI争议两天内导致PS5、PS4游戏下架

快速阅读: 顶尖智者预测,未来AI将实现更多功能,各国积极投资,芯片短缺因AI需求激增。目前AI如婴儿,潜力巨大,发展将超越视频游戏等简单应用。 世界顶尖的智者预测,未来人工智能将实现诸多功能,而显然你是正确的!几乎每个国家都在投资人工智能 […]

发布时间:2025年12月7日
谷歌AI迎头赶上,ChatGPT霸主地位受威胁

谷歌AI迎头赶上,ChatGPT霸主地位受威胁

快速阅读: 谷歌在AI搜索转型初期落后于OpenAI的ChatGPT,但通过Gemini等新产品的推出,逐渐缩小差距,目前在应用下载量和用户参与度上展现强劲增长,正努力重回搜索领域主导地位。 谷歌AI标志 NurPhoto via Gett […]

发布时间:2025年12月7日
政府推AI应用打击非法移民

政府推AI应用打击非法移民

快速阅读: 巴基斯坦政府启动AI应用程序试点,打击非法移民,确保被遣返者不再获签。两部长要求严打假旅行社,改革移民系统,提高签证申请透明度。 伊斯兰堡 —— 联邦政府决定启动一项基于人工智能的应用程序试点项目,以遏制非法移民。该决定是在周五 […]

发布时间:2025年12月7日
摩托罗拉解决方案收购Blue Eye,强化AI安全业务

摩托罗拉解决方案收购Blue Eye,强化AI安全业务

快速阅读: 摩托罗拉解决方案公司2025年第三季度财报超预期,宣布收购Blue Eye,强化公共安全与安保技术。此举促进公司向人工智能视频安全领域发展,提升软件和服务收入,应对传统LMR系统压力。 摩托罗拉解决方案公司近期公布的2025年第 […]

发布时间:2025年12月7日
英伟达2026年能否再次成为最佳AI股?

英伟达2026年能否再次成为最佳AI股?

快速阅读: 投资者担忧英伟达优势减弱,但华尔街分析师预期其仍将实现大幅增长。尽管面临谷歌TPUs的竞争威胁,英伟达在AI计算市场的主导地位短期内难以撼动,2026年有望继续保持强劲表现。 本文最初发表于 Fool.com。除非另有说明,文中 […]

发布时间:2025年12月7日