FuriosaAI 旨在通过 TCP 改变 AI 加速器市场
快速阅读: 据《东亚日报》最新报道,FuriosaAI推出第二代AI加速器RNGD,采用TCP技术,相较于Nvidia GPU,其在能效和成本上有显著优势,已在多个企业PoC测试中表现优异,有望推动AI加速器市场革新。
**FuriosaAI欲借助TCP技术革新AI加速器市场**
2025年4月10日10:34
(sh@itdonga.com)
– **引入TCP技术重塑AI加速器市场**
– **2024年推出‘RNGD’,在国际PoC测试中表现优异**
早在2006年,当Nvidia发布其新一代G80系列显卡时,他们推出了名为GPGPU的技术,这项技术允许游戏显卡用作通用计算卡。GPGPU(通用图形处理单元)是一种连接图形管线的技术,使GPU能够执行原本由CPU处理的应用程序计算。支持它的CUDA编程语言创造了一个环境,让开发者可以用GPU执行各种数学运算。NVIDIA的GPU凭借GPGPU技术彻底改变了世界。
当时,Nvidia的首席执行官黄仁勋曾设想显卡不仅用于游戏,还能用于计算。NVIDIA GPU的浮点实现接近电气和电子工程师协会(IEEE)标准。随着可以利用NVIDIA显卡完成的任务范围不断扩大,许多程序开始基于CUDA构建,NVIDIA的GPGPU技术几乎成为了任何需要计算任务的标准。
如今,大约二十年后,GPU已经被应用于每项高性能计算任务。它们大规模并行化数据的能力使其成为加速计算方案的理想选择,广泛应用于科学、金融、人工智能、模拟和数据分析等领域。由于NVIDIA GPU是构建大规模加速计算的基本基础设施,因此其供应经常短缺。
**通用GPU:效率低下的代价**
GPU的最大优势在于其通用性,这也是GPGPU所体现的特点。然而,这也带来了高昂的功耗和昂贵的产品价格。
GPU的最大优势在于适用于所有需要计算处理的任务,今天它们被用于人工智能和机器学习、科学研究和模拟、游戏和图形、云计算等领域。但这也带来了代价。尽管Nvidia的GPU拥有出色的计算性能,但它们更注重峰值性能而非能效。
最初,GPU的设计目标是图形计算。因此,当涉及到AI时,存在与数据处理瓶颈、处理各种类型张量和内存带宽效率低下的相关限制。尽管我们不能否认GPU是目前开发出的最强大的AI加速器,但这是在牺牲能效的情况下,通过应用更多电力和采用更大尺寸的更先进设计实现的。这就是微软开发SMRs(小型模块化反应堆)以在AI开发中供电的主要原因。
**FuriosaAI推出第二代AI加速器RNGD(发音为‘叛逆者’)**
FuriosaAI借鉴传统NPU方法,提出了新概念TCP(张量收缩处理器)。
作为一种GPU替代方案,NPU(神经处理单元)的概念正逐渐兴起。NPU是一种模仿人脑工作方式的处理器,专门用于特定的AI任务,例如深度学习。它不像GPU那样通用,但其架构针对矩阵乘法或卷积进行了优化。此外,它在特定AI任务上具有更高的功率效率,在相同功率下性能更高。在韩国,FuriosaAI的Warboy和Rebellion的Atom是代表产品,而Cerebras、Groq和Tenstorrent也在开拓市场。
FuriosaAI通过TCP(张量收缩处理器)开创了新的可能性。
发表于2024年7月ISCA会议的论文前言
FuriosaAI在2024年6月的国际计算机体系结构研讨会(ISCA)上发表了一篇题为“TCP:一种用于AI工作负载的张量收缩处理器”的论文,介绍了其第二代AI加速器Renegade的核心处理方法和技术历史。ISCA是由电气和电子工程师学会(IEEE)和计算机协会(ACM)组织的世界顶级计算机技术研讨会。
论文中描述的TCP片上系统(SoC)基本架构
FuriosaAI的TCP围绕张量收缩作为其核心计算单元构建。通过最大化数据重用,大幅提升了AI处理性能。张量是一个多维数据结构,张量收缩通过聚合数据减少某些维度,产生较低维度的结果。尽管GPU通常将张量收缩映射为矩阵乘法,但这种方法往往无法充分发挥操作的内在并行性和数据局部性。此外,当处理单元尺寸较小时,数据重用变得有限,GPU难以高效处理形状和维度多样化的张量——最终导致性能不佳。
张量收缩是一种沿特定轴聚合数据以降低多维张量维度的操作
TCP直接处理张量收缩,作为其基础计算原语。通过将张量收缩视为一级原语计算,TCP实现了对多种张量形状和大小的大量并行性和细粒度执行。为了处理从小型操作到高性能计算的各种张量处理,TCP集成了八个处理单元(PEs)。与传统GPU不同,传统GPU在重复访问相同数据时会遇到数据重用受限的问题并常出现瓶颈,而TCP在硬件层面被设计为促进高效的数据重用和传输。
TCP先进的编译器进一步提升了效率,根据部署场景优化张量运算。它将大型计算分解为较小的操作,重新组织它们,然后重组为更大且更适合执行的工作负载。编译器选择适当的硬件指令并将其编译为可执行二进制文件。整个执行过程可以类比为烹饪:从将食谱拆解为切菜或烤肉等步骤开始,然后选择合适的工具,比如刀具和锅具,最后以最高效的方式执行每个步骤。同样地,TCP对AI工作负载进行结构化和优化以实现最大处理效率。在低于H100功耗预算四分之一的情况下提供高达其80%的性能。
规格对比:Nvidia L40s、H100和TCP(RNGD)(来源:FuriosaAI)
FuriosaAI的张量收缩处理器(TCP)的热设计功耗(TDP)仅为180W,显著低于Nvidia的L40s(350W)和H100(700W)。虽然TDP并不直接反映实际功耗,但它体现了冷却需求以及在负载条件下的预期功耗。在内存方面,TCP配备了48GB HBM3,而L40s使用48GB GDDR6,H100则配备80GB HBM3。在原始性能方面,TCP在FP8中达到512 TFLOPS,在INT4中达到1024 TOPS,而L40s达到733 FP8 TFLOPS和733 INT4 TOPS,H100达到1,979 FP8 TFLOPS和1,979 INT8 TOPS。L40s和H100的INT4性能分别被列为733 TOPS和未正式列出,因为峰值INT4值依赖于稀疏优化,而这在典型工作负载中无法保证。
“Llama 3.1场景下TCP与GPU的能效比较”
在每瓦性能方面,TCP显示出明显优势。在运行Llama 3.1 8B参数模型时,TCP每秒生成3,935个标记,比L40s提高了156%的能效,比H100提高了16%。尽管绝对吞吐量仍对Nvidia有利——TCP每秒生成3,935个标记,而H100为13,222——但真正的关键在于成本效益。对于AI服务提供商和数据中心运营商而言,总拥有成本(TCO)——涵盖性能、能效和硬件成本——是最重要的衡量标准。考虑到能效及Nvidia的高昂定价,TCP或许是一个更具吸引力的选择。在更大的模型上,这种优势变得更加明显。对于Llama 3.1 70B模型,TCP实现了大约H100能效的80%,并且比L40s高出1000%以上,吞吐量为957标记/秒,而H100为2,064。尽管绝对吞吐量仍高于H100,但TCP的更高能效带来了显著的TCO优势,特别是在以推理为主且受电力约束的环境中,例如数据中心。
TCP开启了通用NPU的新纪元。传统NPU通常采用固定功能计算单元来优化特定任务,而TCP采用八个处理元件(PEs)以及一个高效传输和重用数据的获取网络。这种架构使TCP能够比传统NPU更灵活地处理张量运算,缩小了与GPU的灵活性差距。
FuriosaAI第二代RNGD板
其意义重大。尽管GPU存在功率效率低和成本高的问题,但由于其通用性,它们在AI行业中占据主导地位。而传统的NPU通常只服务于狭窄的推理用例,定位为补充而非竞争者。然而,TCP通过在不牺牲功率或面积效率的情况下支持更广泛的AI任务,挑战了这一范式。尽管GPU用户可能对切换持观望态度,但FuriosaAI正在积极降低采用门槛——提供用于优化和直接部署模型到TCP的工具。该产品如今以RNGD(发音为‘叛逆者’)的品牌名推出,并于2024年8月首次亮相。
自8月推出以来,RNGD已进入与包括LG和沙特阿美在内的多家全球知名企业开展概念验证(PoC)的阶段。这些试验的早期性能结果显示出令人信服的效率和吞吐量,验证了RNGD的实际竞争力。RNGD现已具备大规模生产评估和部署的能力。凭借垂直整合的软件栈、先进的编译器支持以及经过市场验证的能效,FuriosaAI提供了一种替代传统AI加速器的选项。随着全球对可扩展且可持续AI计算需求的不断增长,FuriosaAI有望引领AI加速器行业的下一波创新浪潮。
——撰稿人:南时贤 (sh@itdonga.com)
(以上内容均由Ai生成)