FuriosaAI 旨在通过 TCP 改变 AI 加速器市场

快速阅读: 据《东亚日报》最新报道，FuriosaAI推出第二代AI加速器RNGD，采用TCP技术，相较于Nvidia GPU，其在能效和成本上有显著优势，已在多个企业PoC测试中表现优异，有望推动AI加速器市场革新。

**FuriosaAI欲借助TCP技术革新AI加速器市场**

2025年4月10日10:34
（sh@itdonga.com）

– **引入TCP技术重塑AI加速器市场**
– **2024年推出‘RNGD’，在国际PoC测试中表现优异**

早在2006年，当Nvidia发布其新一代G80系列显卡时，他们推出了名为GPGPU的技术，这项技术允许游戏显卡用作通用计算卡。GPGPU（通用图形处理单元）是一种连接图形管线的技术，使GPU能够执行原本由CPU处理的应用程序计算。支持它的CUDA编程语言创造了一个环境，让开发者可以用GPU执行各种数学运算。NVIDIA的GPU凭借GPGPU技术彻底改变了世界。

当时，Nvidia的首席执行官黄仁勋曾设想显卡不仅用于游戏，还能用于计算。NVIDIA GPU的浮点实现接近电气和电子工程师协会（IEEE）标准。随着可以利用NVIDIA显卡完成的任务范围不断扩大，许多程序开始基于CUDA构建，NVIDIA的GPGPU技术几乎成为了任何需要计算任务的标准。

如今，大约二十年后，GPU已经被应用于每项高性能计算任务。它们大规模并行化数据的能力使其成为加速计算方案的理想选择，广泛应用于科学、金融、人工智能、模拟和数据分析等领域。由于NVIDIA GPU是构建大规模加速计算的基本基础设施，因此其供应经常短缺。

**通用GPU：效率低下的代价**

GPU的最大优势在于其通用性，这也是GPGPU所体现的特点。然而，这也带来了高昂的功耗和昂贵的产品价格。

GPU的最大优势在于适用于所有需要计算处理的任务，今天它们被用于人工智能和机器学习、科学研究和模拟、游戏和图形、云计算等领域。但这也带来了代价。尽管Nvidia的GPU拥有出色的计算性能，但它们更注重峰值性能而非能效。

最初，GPU的设计目标是图形计算。因此，当涉及到AI时，存在与数据处理瓶颈、处理各种类型张量和内存带宽效率低下的相关限制。尽管我们不能否认GPU是目前开发出的最强大的AI加速器，但这是在牺牲能效的情况下，通过应用更多电力和采用更大尺寸的更先进设计实现的。这就是微软开发SMRs（小型模块化反应堆）以在AI开发中供电的主要原因。

**FuriosaAI推出第二代AI加速器RNGD（发音为‘叛逆者’）**

FuriosaAI借鉴传统NPU方法，提出了新概念TCP（张量收缩处理器）。

作为一种GPU替代方案，NPU（神经处理单元）的概念正逐渐兴起。NPU是一种模仿人脑工作方式的处理器，专门用于特定的AI任务，例如深度学习。它不像GPU那样通用，但其架构针对矩阵乘法或卷积进行了优化。此外，它在特定AI任务上具有更高的功率效率，在相同功率下性能更高。在韩国，FuriosaAI的Warboy和Rebellion的Atom是代表产品，而Cerebras、Groq和Tenstorrent也在开拓市场。

FuriosaAI通过TCP（张量收缩处理器）开创了新的可能性。

发表于2024年7月ISCA会议的论文前言

FuriosaAI在2024年6月的国际计算机体系结构研讨会（ISCA）上发表了一篇题为“TCP：一种用于AI工作负载的张量收缩处理器”的论文，介绍了其第二代AI加速器Renegade的核心处理方法和技术历史。ISCA是由电气和电子工程师学会（IEEE）和计算机协会（ACM）组织的世界顶级计算机技术研讨会。

论文中描述的TCP片上系统（SoC）基本架构

FuriosaAI的TCP围绕张量收缩作为其核心计算单元构建。通过最大化数据重用，大幅提升了AI处理性能。张量是一个多维数据结构，张量收缩通过聚合数据减少某些维度，产生较低维度的结果。尽管GPU通常将张量收缩映射为矩阵乘法，但这种方法往往无法充分发挥操作的内在并行性和数据局部性。此外，当处理单元尺寸较小时，数据重用变得有限，GPU难以高效处理形状和维度多样化的张量——最终导致性能不佳。

张量收缩是一种沿特定轴聚合数据以降低多维张量维度的操作

TCP直接处理张量收缩，作为其基础计算原语。通过将张量收缩视为一级原语计算，TCP实现了对多种张量形状和大小的大量并行性和细粒度执行。为了处理从小型操作到高性能计算的各种张量处理，TCP集成了八个处理单元（PEs）。与传统GPU不同，传统GPU在重复访问相同数据时会遇到数据重用受限的问题并常出现瓶颈，而TCP在硬件层面被设计为促进高效的数据重用和传输。

TCP先进的编译器进一步提升了效率，根据部署场景优化张量运算。它将大型计算分解为较小的操作，重新组织它们，然后重组为更大且更适合执行的工作负载。编译器选择适当的硬件指令并将其编译为可执行二进制文件。整个执行过程可以类比为烹饪：从将食谱拆解为切菜或烤肉等步骤开始，然后选择合适的工具，比如刀具和锅具，最后以最高效的方式执行每个步骤。同样地，TCP对AI工作负载进行结构化和优化以实现最大处理效率。在低于H100功耗预算四分之一的情况下提供高达其80%的性能。

规格对比：Nvidia L40s、H100和TCP（RNGD）（来源：FuriosaAI）

FuriosaAI的张量收缩处理器（TCP）的热设计功耗（TDP）仅为180W，显著低于Nvidia的L40s（350W）和H100（700W）。虽然TDP并不直接反映实际功耗，但它体现了冷却需求以及在负载条件下的预期功耗。在内存方面，TCP配备了48GB HBM3，而L40s使用48GB GDDR6，H100则配备80GB HBM3。在原始性能方面，TCP在FP8中达到512 TFLOPS，在INT4中达到1024 TOPS，而L40s达到733 FP8 TFLOPS和733 INT4 TOPS，H100达到1,979 FP8 TFLOPS和1,979 INT8 TOPS。L40s和H100的INT4性能分别被列为733 TOPS和未正式列出，因为峰值INT4值依赖于稀疏优化，而这在典型工作负载中无法保证。

“Llama 3.1场景下TCP与GPU的能效比较”

在每瓦性能方面，TCP显示出明显优势。在运行Llama 3.1 8B参数模型时，TCP每秒生成3,935个标记，比L40s提高了156%的能效，比H100提高了16%。尽管绝对吞吐量仍对Nvidia有利——TCP每秒生成3,935个标记，而H100为13,222——但真正的关键在于成本效益。对于AI服务提供商和数据中心运营商而言，总拥有成本（TCO）——涵盖性能、能效和硬件成本——是最重要的衡量标准。考虑到能效及Nvidia的高昂定价，TCP或许是一个更具吸引力的选择。在更大的模型上，这种优势变得更加明显。对于Llama 3.1 70B模型，TCP实现了大约H100能效的80%，并且比L40s高出1000%以上，吞吐量为957标记/秒，而H100为2,064。尽管绝对吞吐量仍高于H100，但TCP的更高能效带来了显著的TCO优势，特别是在以推理为主且受电力约束的环境中，例如数据中心。

TCP开启了通用NPU的新纪元。传统NPU通常采用固定功能计算单元来优化特定任务，而TCP采用八个处理元件（PEs）以及一个高效传输和重用数据的获取网络。这种架构使TCP能够比传统NPU更灵活地处理张量运算，缩小了与GPU的灵活性差距。

FuriosaAI第二代RNGD板

其意义重大。尽管GPU存在功率效率低和成本高的问题，但由于其通用性，它们在AI行业中占据主导地位。而传统的NPU通常只服务于狭窄的推理用例，定位为补充而非竞争者。然而，TCP通过在不牺牲功率或面积效率的情况下支持更广泛的AI任务，挑战了这一范式。尽管GPU用户可能对切换持观望态度，但FuriosaAI正在积极降低采用门槛——提供用于优化和直接部署模型到TCP的工具。该产品如今以RNGD（发音为‘叛逆者’）的品牌名推出，并于2024年8月首次亮相。

自8月推出以来，RNGD已进入与包括LG和沙特阿美在内的多家全球知名企业开展概念验证（PoC）的阶段。这些试验的早期性能结果显示出令人信服的效率和吞吐量，验证了RNGD的实际竞争力。RNGD现已具备大规模生产评估和部署的能力。凭借垂直整合的软件栈、先进的编译器支持以及经过市场验证的能效，FuriosaAI提供了一种替代传统AI加速器的选项。随着全球对可扩展且可持续AI计算需求的不断增长，FuriosaAI有望引领AI加速器行业的下一波创新浪潮。

——撰稿人：南时贤 (sh@itdonga.com)

(以上内容均由Ai生成)