FuriosaAI 旨在通过 TCP 改变 AI 加速器市场

发布时间:2025年4月10日    来源:szf
FuriosaAI 旨在通过 TCP 改变 AI 加速器市场

快速阅读: 据《东亚日报》最新报道,FuriosaAI推出第二代AI加速器RNGD,采用TCP技术,相较于Nvidia GPU,其在能效和成本上有显著优势,已在多个企业PoC测试中表现优异,有望推动AI加速器市场革新。

**FuriosaAI欲借助TCP技术革新AI加速器市场**

2025年4月10日10:34
(sh@itdonga.com)

– **引入TCP技术重塑AI加速器市场**
– **2024年推出‘RNGD’,在国际PoC测试中表现优异**

早在2006年,当Nvidia发布其新一代G80系列显卡时,他们推出了名为GPGPU的技术,这项技术允许游戏显卡用作通用计算卡。GPGPU(通用图形处理单元)是一种连接图形管线的技术,使GPU能够执行原本由CPU处理的应用程序计算。支持它的CUDA编程语言创造了一个环境,让开发者可以用GPU执行各种数学运算。NVIDIA的GPU凭借GPGPU技术彻底改变了世界。

当时,Nvidia的首席执行官黄仁勋曾设想显卡不仅用于游戏,还能用于计算。NVIDIA GPU的浮点实现接近电气和电子工程师协会(IEEE)标准。随着可以利用NVIDIA显卡完成的任务范围不断扩大,许多程序开始基于CUDA构建,NVIDIA的GPGPU技术几乎成为了任何需要计算任务的标准。

如今,大约二十年后,GPU已经被应用于每项高性能计算任务。它们大规模并行化数据的能力使其成为加速计算方案的理想选择,广泛应用于科学、金融、人工智能、模拟和数据分析等领域。由于NVIDIA GPU是构建大规模加速计算的基本基础设施,因此其供应经常短缺。

**通用GPU:效率低下的代价**

GPU的最大优势在于其通用性,这也是GPGPU所体现的特点。然而,这也带来了高昂的功耗和昂贵的产品价格。

GPU的最大优势在于适用于所有需要计算处理的任务,今天它们被用于人工智能和机器学习、科学研究和模拟、游戏和图形、云计算等领域。但这也带来了代价。尽管Nvidia的GPU拥有出色的计算性能,但它们更注重峰值性能而非能效。

最初,GPU的设计目标是图形计算。因此,当涉及到AI时,存在与数据处理瓶颈、处理各种类型张量和内存带宽效率低下的相关限制。尽管我们不能否认GPU是目前开发出的最强大的AI加速器,但这是在牺牲能效的情况下,通过应用更多电力和采用更大尺寸的更先进设计实现的。这就是微软开发SMRs(小型模块化反应堆)以在AI开发中供电的主要原因。

**FuriosaAI推出第二代AI加速器RNGD(发音为‘叛逆者’)**

FuriosaAI借鉴传统NPU方法,提出了新概念TCP(张量收缩处理器)。

作为一种GPU替代方案,NPU(神经处理单元)的概念正逐渐兴起。NPU是一种模仿人脑工作方式的处理器,专门用于特定的AI任务,例如深度学习。它不像GPU那样通用,但其架构针对矩阵乘法或卷积进行了优化。此外,它在特定AI任务上具有更高的功率效率,在相同功率下性能更高。在韩国,FuriosaAI的Warboy和Rebellion的Atom是代表产品,而Cerebras、Groq和Tenstorrent也在开拓市场。

FuriosaAI通过TCP(张量收缩处理器)开创了新的可能性。

发表于2024年7月ISCA会议的论文前言

FuriosaAI在2024年6月的国际计算机体系结构研讨会(ISCA)上发表了一篇题为“TCP:一种用于AI工作负载的张量收缩处理器”的论文,介绍了其第二代AI加速器Renegade的核心处理方法和技术历史。ISCA是由电气和电子工程师学会(IEEE)和计算机协会(ACM)组织的世界顶级计算机技术研讨会。

论文中描述的TCP片上系统(SoC)基本架构

FuriosaAI的TCP围绕张量收缩作为其核心计算单元构建。通过最大化数据重用,大幅提升了AI处理性能。张量是一个多维数据结构,张量收缩通过聚合数据减少某些维度,产生较低维度的结果。尽管GPU通常将张量收缩映射为矩阵乘法,但这种方法往往无法充分发挥操作的内在并行性和数据局部性。此外,当处理单元尺寸较小时,数据重用变得有限,GPU难以高效处理形状和维度多样化的张量——最终导致性能不佳。

张量收缩是一种沿特定轴聚合数据以降低多维张量维度的操作

TCP直接处理张量收缩,作为其基础计算原语。通过将张量收缩视为一级原语计算,TCP实现了对多种张量形状和大小的大量并行性和细粒度执行。为了处理从小型操作到高性能计算的各种张量处理,TCP集成了八个处理单元(PEs)。与传统GPU不同,传统GPU在重复访问相同数据时会遇到数据重用受限的问题并常出现瓶颈,而TCP在硬件层面被设计为促进高效的数据重用和传输。

TCP先进的编译器进一步提升了效率,根据部署场景优化张量运算。它将大型计算分解为较小的操作,重新组织它们,然后重组为更大且更适合执行的工作负载。编译器选择适当的硬件指令并将其编译为可执行二进制文件。整个执行过程可以类比为烹饪:从将食谱拆解为切菜或烤肉等步骤开始,然后选择合适的工具,比如刀具和锅具,最后以最高效的方式执行每个步骤。同样地,TCP对AI工作负载进行结构化和优化以实现最大处理效率。在低于H100功耗预算四分之一的情况下提供高达其80%的性能。

规格对比:Nvidia L40s、H100和TCP(RNGD)(来源:FuriosaAI)

FuriosaAI的张量收缩处理器(TCP)的热设计功耗(TDP)仅为180W,显著低于Nvidia的L40s(350W)和H100(700W)。虽然TDP并不直接反映实际功耗,但它体现了冷却需求以及在负载条件下的预期功耗。在内存方面,TCP配备了48GB HBM3,而L40s使用48GB GDDR6,H100则配备80GB HBM3。在原始性能方面,TCP在FP8中达到512 TFLOPS,在INT4中达到1024 TOPS,而L40s达到733 FP8 TFLOPS和733 INT4 TOPS,H100达到1,979 FP8 TFLOPS和1,979 INT8 TOPS。L40s和H100的INT4性能分别被列为733 TOPS和未正式列出,因为峰值INT4值依赖于稀疏优化,而这在典型工作负载中无法保证。

“Llama 3.1场景下TCP与GPU的能效比较”

在每瓦性能方面,TCP显示出明显优势。在运行Llama 3.1 8B参数模型时,TCP每秒生成3,935个标记,比L40s提高了156%的能效,比H100提高了16%。尽管绝对吞吐量仍对Nvidia有利——TCP每秒生成3,935个标记,而H100为13,222——但真正的关键在于成本效益。对于AI服务提供商和数据中心运营商而言,总拥有成本(TCO)——涵盖性能、能效和硬件成本——是最重要的衡量标准。考虑到能效及Nvidia的高昂定价,TCP或许是一个更具吸引力的选择。在更大的模型上,这种优势变得更加明显。对于Llama 3.1 70B模型,TCP实现了大约H100能效的80%,并且比L40s高出1000%以上,吞吐量为957标记/秒,而H100为2,064。尽管绝对吞吐量仍高于H100,但TCP的更高能效带来了显著的TCO优势,特别是在以推理为主且受电力约束的环境中,例如数据中心。

TCP开启了通用NPU的新纪元。传统NPU通常采用固定功能计算单元来优化特定任务,而TCP采用八个处理元件(PEs)以及一个高效传输和重用数据的获取网络。这种架构使TCP能够比传统NPU更灵活地处理张量运算,缩小了与GPU的灵活性差距。

FuriosaAI第二代RNGD板

其意义重大。尽管GPU存在功率效率低和成本高的问题,但由于其通用性,它们在AI行业中占据主导地位。而传统的NPU通常只服务于狭窄的推理用例,定位为补充而非竞争者。然而,TCP通过在不牺牲功率或面积效率的情况下支持更广泛的AI任务,挑战了这一范式。尽管GPU用户可能对切换持观望态度,但FuriosaAI正在积极降低采用门槛——提供用于优化和直接部署模型到TCP的工具。该产品如今以RNGD(发音为‘叛逆者’)的品牌名推出,并于2024年8月首次亮相。

自8月推出以来,RNGD已进入与包括LG和沙特阿美在内的多家全球知名企业开展概念验证(PoC)的阶段。这些试验的早期性能结果显示出令人信服的效率和吞吐量,验证了RNGD的实际竞争力。RNGD现已具备大规模生产评估和部署的能力。凭借垂直整合的软件栈、先进的编译器支持以及经过市场验证的能效,FuriosaAI提供了一种替代传统AI加速器的选项。随着全球对可扩展且可持续AI计算需求的不断增长,FuriosaAI有望引领AI加速器行业的下一波创新浪潮。

——撰稿人:南时贤 (sh@itdonga.com)

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日