Tenstorrent发布静音AI工作站QuietBox,挑战Nvidia传统地位
快速阅读: Tenstorrent推出Blackhole QuietBox,售价11,999美元,搭载四颗液冷Blackhole P150加速器,提供3 petaFLOPS FP8性能,适用于AI开发与部署,性能扩展性佳,但软件栈需进一步优化。
提到AI基础设施时,Tenstorrent可能不是第一个浮现在脑海的名字。然而,与众多寻求风险投资并试图分一杯Nvidia羹的AI芯片初创公司不同,Tenstorrent的芯片已经走出实验室,成为现实产品。如果你希望摆脱常规,尝试一些不同的东西,Tenstorrent的产品和系统对所有人开放。事实上,你可能会惊讶地发现,该公司已经推出了三代基于RISC-V架构的加速器,旨在推动开源社区的发展。
Tenstorrent的理念是提供一种性价比较高的加速器,能够从单张卡扩展到32个芯片系统及更大规模,成本远低于AMD或Nvidia的GPU解决方案。最近,《注册报》有机会体验了该公司迄今为止最强大的系统之一——售价11,999美元的液冷AI工作站“Blackhole QuietBox”。这台重达80磅(约36公斤)的机器实际上是其即将推出的Blackhole Galaxy服务器的简化版,预计明年上市。该工作站设计用于学习架构、移植现有代码库和优化模型内核,以便在生产系统中部署。
由于该机器使用与Tenstorrent Galaxy服务器相同的芯片、内存和互连技术,因此理论上可以无缝扩展到完整系统,而这是大多数当前可用的AI工作站所不具备的特点。当然,你可以将四块RTX 5000 Ada或Radeon Pro AI R970显卡安装到类似配置的工作站中,性能接近QuietBox,但这些系统的性能特征与最终运行代码的GB200机架或MI350盒子大相径庭。这也是Nvidia定期推出如DGX Station等系统的原因之一,这些系统将数据中心级别的CPU和GPU集成到更适合办公室环境的机箱中。不过,我们预计Nvidia下一代基于Blackwell Ultra的DGX Station的价格将是Tenstorrent QuietBox的数倍。
如果你需要一台用于运行小型到中型模型的本地AI推理或微调作业的设备,Tenstorrent的QuietBox可能并不适合你。我们预计这种情况会有所改变,但目前该公司的软件栈尚未成熟到足以满足大多数本地AI爱好者的需要。然而,对于有兴趣探索Tenstorrent硬件架构和软件栈的机器学习软件开发者,或是考虑在其生产环境中部署Tenstorrent芯片的企业,像Blackhole QuietBox这样的系统提供了进入该公司RISC-V加速器生态系统的相对低成本入口。
### 解开TT-QuietBox
Tenstorrent最新的QuietBox将四颗液冷Blackhole ASIC置于你的桌面上——点击放大
Tenstorrent的QuietBox不仅工程设计精美,外观也极具特色。尽管机器运行时几乎无声,但其醒目的蓝色条纹外观却引人注目。Tenstorrent在这方面做得非常出色,打造了一款一眼即可识别的机器。
无论是我们手中的Blackhole版本还是较早的Wormhole版本,QuietBox都采用了定制机箱,散热器布局和前置储液罐让人联想到Lian Li的O11 Dynamic机箱。机箱通过烟囱效应从底部400毫米散热器吸入冷空气,并通过顶部的另一个400毫米散热器排出热气。虽然这听起来有些夸张,但考虑到这1200瓦的加速器、CPU、系统内存和存储设备产生的热量,这样的设计是必要的。
整个机器仅由四个Noctua 200毫米风扇冷却,同时保持了低噪音水平,真正实现了其静音设计的目标。Tenstorrent希望为用户提供一个高性能计算平台,即使放在办公桌上也不会让人感到不适。尽管机器运行时有轻微的嗡嗡声,类似于桌面取暖器,但在测试过程中,加速器温度从未超过70摄氏度,所有1300多瓦的热量都被排入了房间。
我们拆下了侧板,以便更好地展示QuietBox的内部结构——点击放大
两片散热器之间是一块来自ASRock Rack的Epyc服务器主板,提供了与加速器的连接以及两个10千兆以太网接口,用于本地网络访问。Tenstorrent没有选择常见的工作站CPU,如Intel Xeon-W或AMD Threadripper,而是选择了Zen家的Epyc Siena 8124P。这款125瓦的芯片配备了16个Zen4C核心——“C”代表紧凑型——在负载下可提升至3 GHz。
不同于常规的工作站CPU,Tenstorrent选择了16核的AMD Epyc处理器。该CPU由八个64GB DDR5 4800 RDIMM内存条供能(其中一个六通道以双DIMM模式运行),总容量达到512GB,内存带宽超过200GB/s。在CPU冷板下方,是QuietBox的核心亮点:四块Tenstorrent Blackhole P150加速器。这些芯片合计提供超过3 petaFLOPS的密集FP8性能。
QuietBox的核心亮点在于其四块液冷Blackhole P150加速器。以下是TT-Quietbox Blackhole的概览:
价格:11,999美元
CPU:AMD Epyc 8124P(16核/32线程)
内存:512GB DDR5-4800 MT/s
存储:4TB NVMe PCIe 4.0 x4
加速器:4x TT Blackhole P150c
– 480个Tensix核心
– 64个大型RISC-V核心
– 840MB SRAM
– 128GB GDDR6
– 2TB/s内存带宽(聚合)
– 12.8Tbps互连带宽
性能:
– 3 petaFLOPS – FP8(密集)
– 776 teraFLOPS – FP16(密集)
– 1.5 petaFLOPS – 块FP8(密集)
连接性:
– 2x RJ45 10 GbE Intel X710-AT2
– 2x RJ45 1 GbE Intel i210
– 4x USB 3.1 Gen 1(5 Gbps)
– 1x VGA(主板图形)
电源:1650W 80 Plus Platinum
操作系统:Ubuntu 22.04 Jammy Jellyfish
关于Blackhole P150,我们无法从测试系统中拆解出一块P150进行详细分析,因此这里展示的是来自Tenstorrent官网的渲染图。我们在2024年的HotChips会议上详细探讨了Tenstorrent的Blackhole架构,简而言之,每个300瓦的芯片集成了752个“微型”RISC-V处理器核心,构成了芯片的140个Tensix处理器核心(T)、内存(D)、PCIe(P)和以太网(E)控制器。此外,芯片还配备了16个SiFive的Intelligence x280核心,除了处理难以并行化的操作外,还可以运行Linux。理论上,这使得Blackhole能够作为一个独立的计算机运行,但我们未能亲自验证这一点。
Blackhole芯片的Tensix核心总共可以提供约774 teraFLOPS的密集FP8计算能力或387 teraFLOPS的四或八位块浮点数据类型的计算能力。这种计算能力与32GB的GDDR6内存相匹配,后者可提供512GB/s的内存带宽。系统中共有四块这样的芯片,但实际上充分利用这些性能和带宽存在一定的挑战。
对于预算有限的用户,Tenstorrent还提供空气冷却(主动和被动)版本的卡,售价1,399美元。如果只需要一张卡,还可以选择一个更便宜、性能较低的版本,没有芯片间网络和28GB内存,售价999美元。
BlackHole P100 / P150的主要规格如下:
P100a
P150a/b/c
价格:999美元
1,399美元*
Tensix核心数:120
140
核心时钟频率:1.35 GHz
1.35 GHz
大型RISC-V核心数:16
16
SRAM:180 MB
210 MB
内存:28 GB GDDR6
32 GB GDDR6
内存带宽:448 GB/s
512 GB/s
FP8 TFLOPS:644
774
FP16 TFLOPS:166
194
块FP8 TFLOPS:332
387
TDP:300瓦
300瓦
电源:12-2×6针
12-2×6针
互连:无
4x QSFP-DD 800GbE
系统接口:PCIe 5.0 x16
PCIe 5.0 x16
散热:主动
主动(a)/被动(b)/液冷(c)
尺寸:42 mm x 270 mm x 111 mm
42 mm x 270 mm x 111 mm*
* P150c未指定
扩展方面,P150每张卡都配备了四个QSFP-DD插槽,提供800 Gbps的高速连接,用于与其他系统内的卡进行通信。虽然这些端口看起来像以太网,但Tenstorrent警告说它们仅用于芯片间的通信,不能直接连接到交换机。通常情况下,以太网的速度不足以支持扩展网络,但每张P150具有3,200 Gbps的聚合带宽,几乎与Nvidia H100的400 GB/s和450 GB/s互连带宽相当。
对于QuietBox,Tenstorrent建议采用2D-Torus拓扑结构,使用系统附带的八根0.5米直连铜缆连接四张P150。尽管这些电缆价格不菲,每根约200美元,但QSFP-DD插槽意味着卡可以轻松扩展到八张、十六张或更多。如果需要将几个QuietBox连接在一起,这也是完全可行的。
更重要的是,这种架构意味着在P150或QuietBox上开发的任何代码都可以直接应用于更大的集群,通过不同程度的流水线、张量、数据和/或专家并行性来实现。
事实上,如果你仔细观察P150的核心布局,会发现芯片上的14个以太网核心中只有8个处于激活状态。我们推测,未来版本的芯片将支持更大的拓扑结构。例如,Tenstorrent的Blackhole Galaxy将配备32个加速器,排列成4×8的网格。
预计Blackhole Galaxy将提供约25 petaFLOPS的密集FP8性能、1TB的GDDR6内存和16TB/s的总带宽。相比之下,配备八颗GPU的DGX H100提供了不到16 petaFLOPS的密集FP8性能、640GB的HBM3e内存,但其内存带宽达到26.8TB/s。Nvidia的Blackwell和AMD的MI350系列系统则处于另一个水平,价格也相应较高。
然而,这只是一个节点的情况。Tenstorrent的互联密集架构意味着它可以扩展到机架甚至更大规模。在机架级配置中,我们可以设想一个拥有192个加速器的系统。如果增加一些光收发器来扩大覆盖范围,该平台理论上可以跨多个机架和数千个加速器进行扩展。
这正是这家初创公司称Blackhole为无限可扩展的原因所在。实际上,这种架构更接近于Google和Amazon构建TPU和Trainium集群的方式,而非Nvidia硬件所见的情况。
初始设置
设置QuietBox的过程与配置普通桌面或工作站有所不同。
首先,没有传统意义上的显卡。你可以选择通过主板图形接口使用随附的VGA转HDMI适配器,或者通过系统的IPMI接口远程控制它。
还需要按照下图所示连接加速器。
QuietBox的四个P150使用八个800GbE直连电缆(DAC)按上图所示连接 – 图片放大请点击
完成这些步骤后,我们就可以启动系统了。Tenstorrent指出,初次启动可能需要超过10分钟。对于配备大量内存的Epyc系统来说,这是正常的,但对于新手来说可能会感到意外,因此Tenstorrent的警告是必要的。
开箱即用,机器预装了Ubuntu Desktop 22.04 LTS。由于我们知道所有与系统的交互都将通过终端进行,因此我们选择了安装OpenSSH,以便可以通过网络远程访问。
Tenstorrent提供了一个自动化安装脚本,确保所有依赖项都已安装,设备固件完全更新,并且连接各卡的以太网网格功能正常。
大部分情况下,运行脚本只需回答几个“是/否”问题,多数答案都是“是”。不幸的是,在我们的初次设置中,由于最近包名更改导致脚本出错。
这实际上预示了Tenstorrent软件栈后续的问题。
无论如何,经过大约8分钟的重启后,我们运行了Tenstorrent的诊断工具`tt-smi`,并确认所有卡片都被正确检测。
Tenstorrent的系统管理界面`tt-smi`对我们的单芯片Blackhole加速器不太确定 – 图片放大请点击
所有四张卡片如预期般出现,但显然`tt-smi`对我们的Blackhole卡片有些困惑。除了被识别为Tenstorrent的被动冷却P150b部件外,许多TT-SMI字段要么为空,要么缺失。虽然有些令人不安,但这似乎是正常的,无需担心。
模型演示
Blackhole不是GPU。这意味着你不能像平常那样在Ollama或Llama.cpp中启动模型。幸运的是,Tenstorrent的入门指南提供了多个演示,包括一个用于在TT-Inference-Server中运行大型语言模型(LLM)的演示。
这个过程相当简单,得益于几个方便的辅助脚本,它们自动选择了适合硬件的正确模型和标志。
整个过程大约需要45分钟左右。大部分时间都花在下载大约140GB的模型文件以及将其转换为Tenstorrent硬件使用的4位和8位块浮点数据类型上。
最终,我们得到了一个与OpenAI兼容的API端点,可以将其指向前端,如Open WebUI,开始向系统发出指令。
由于大型语言模型推理是这类硬件的主要应用场景之一,看到Tenstorrent将TT-Inference-Server的文档放在显眼位置是令人欣慰的,尽管性能尚未完全达标。
除了LLM服务演示外,Tenstorrent还提供了一个容器化环境,用于演示模型,可以通过运行`tt-metallium-demos`来启动。
消除了下载和处理运行所需依赖项的繁琐过程。通过一番努力,我们成功运行了多种模型,包括ResNet50、BERT、Stable Diffusion 1.4以及Boltz 2结构生物学基础模型,后者用于预测蛋白质结构和结合特性。
除了预期的机器学习演示,如BERT或ResNet,我们还在QuietBox上成功运行了Boltz-2生物分子基础模型。然而,找到这些演示需要在Tenstorrent的TT-Metal GitHub仓库中挖掘。即使找到了,也不确定它们是否能运行,或者是否有文档帮助解决为何无法运行的问题。
我们希望看到更多针对热门生成式人工智能工作负载的教程和指南,比如图像生成、文本和图像分类、目标检测、语音转录和微调等。
新用户不应该为了运行演示而不得不搜索GitHub仓库或解析代码注释。几个简单易用的教程将大大吸引开发人员和学生的兴趣。这也将给Tenstorrent提供展示其硬件优势的机会,因为软件堆栈的整体不成熟,这些优势并不总是显而易见。
Tenstorrent的软件理念
近年来变得越来越明显的是,无论GPU或AI ASIC在纸面上看起来多么优秀,如果没有人能够或愿意编程,这一切都毫无意义。
Tenstorrent采取了多管齐下的方法来应对这一挑战。首先,其软件堆栈完全是开源的。其次,它正在开发类似于Nvidia CUDA的低级API接口和用于运行现有PyTorch、JAX或Onnx模型的高级编译器。
这使得Tenstorrent区别于许多最初可能希望构建如此全面软件堆栈的人工智能芯片初创公司,但最终只提供了一个LLM推理服务器或API服务。
Tenstorrent的软件架构可以形象地比喻为一个多层蛋糕。
在其软件堆栈的最底层是低级内核环境(TT-LLK),这是接近裸机编程的层面。
再往上一层是TT-Metalium(TT-Metal),它提供了用于Tenstorrent硬件的低级API,支持用C或C++编写自定义内核。你可以将TT-Metal视为与Nvidia的CUDA或AMD的HIP同级别的产品。虽然TT-Metal提供了对硬件特性的低级访问,但也带来了新的编程模型。
TT-Metal之上是TT-NN,这是一个库,向用户暴露支持的神经网络操作,无需深入了解底层硬件。这些库支持标准Python和C++,为运行AI模型提供了更高层次的编程环境。
从我们所了解的情况来看,大多数Tenstorrent的模型启用都在TT-Metal和TT-NN层面进行。例如,Tenstorrent的Transformer实现和vLLM都是在TT-NN上运行的。
在这些层级编程的复杂性无疑导致了添加新模型支持所需的时间较长,因为每个模型都需要手动编写自定义内核。
这些挑战并非Tenstorrent独有。这也是近年来PyTorch、TensorFlow和JAX流行的原因之一。它们为加速计算提供了与硬件无关的抽象层。
然而,由于Blackhole与现代GPU截然不同,使用相同的框架意味着Tenstorrent需要一个编译器。
该公司正在开发一个多级中间表示(TT-MLIR)编译器,称为Forge。其理念是,TT-Forge将把PyTorch、JAX或其他模型转换为中间表示形式,然后TT-Metal可以利用这一点为底层硬件编译兼容的内核。
目前,Forge正处于测试阶段,显然处于非常活跃的开发中。如果他们能够成功,TT-MLIR和Forge将消除为支持新模型而手动编写自定义内核的需求。尽管性能可能不如直接针对TT-NN或TT-Metal编译好,但这将大大扩展Tenstorrent的目标市场。
生成式人工智能性能
目前可用的Tenstorrent Blackhole加速器,包括QuietBox,都是开发套件,这使得性能对比变得有些棘手。这套硬件的目的不是直接与Nvidia或AMD的GPU竞争,至少现在还不是,而是让用户能够为Tenstorrent硬件编写软件。
初创公司的软件堆栈状态意味着性能改进几乎每天都在GitHub上更新。就像我们之前看到的AMD ROCm 6.0库一样,软件对推理和训练性能的影响往往比硬件本身更大。在一年半多的时间里,AMD成功将MI300X的推理性能提升了三倍。我们完全有理由期待Tenstorrent随着时间的推移也能带来类似的性能提升。
然而,这意味着我们在这里分享的任何基准测试数据都已经过时。因此,以下数据应被视为截至2025年11月Blackhole P150和QuietBox性能的一个快照,而不是这些加速器能力的最终结论。
### LLM推理性能
对于Blackhole加速器,我们使用了TT-Transformers库和Tenstorrent的vLLM分支进行了LLM性能测试。我们也尝试了TT-Inference-Server,但发现其相对于使用vLLM没有实质性优势。
在大多数LLM推理工作负载中,Tenstorrent通常使用4位或8位块浮点数据类型,类似于OCP的MXFP4和MXFP8或Nvidia的NVFP4,我们之前对此进行了探讨。这些数据类型的实现不幸是非标准的。我们不能简单地从Hugging Face拉取一个NVFP4量化模型并期望它运行。相反,我们需要将更高精度的模型量化以在QuietBox的P150上运行。在AI领域,量化涉及将模型权重从一种精度压缩到另一种,从而缩小模型体积。
Tenstorrent的加速器针对类似OCP和Nvidia所见的块浮点数据类型进行了优化。具体使用的FP8、BF16、BFP8和BFP4组合因模型而异,以平衡性能和准确性。为了保持一致性,我们选择将测试模型(包括Llama 3.1 8B和Llama 3.3 70B)量化到BFP8。在实际应用中,我们建议遵循Tenstorrent的默认设置。
至于为什么使用Llama而非更新、更强大的模型如gpt-oss-20B或120B,原因很简单:在支持的LLM列表中,两个Llama版本似乎是最优的。完整的支持模型列表可以在此处找到。
### 单批次性能
我们的测试首先评估了P150在单张卡、双张卡和四张卡张量并行配置下的单批次性能。张量并行是一种将模型权重和推理工作负载分布在多个加速器上的方法。它通常比管道并行提供更好的扩展性,同时比数据并行更节省内存。
左侧图表显示了解码和预填充性能,分别用蓝色和绿色表示。解码代表硬件生成令牌的速度,而预填充测量处理提示所需的时间。右侧图表展示了推理引擎利用卡片内存带宽效率的百分比。
即使在最佳情况下,P150在运行Llama 3.1 8B时的解码性能也仅为理论值的一半左右。这远低于我们通常在Nvidia或AMD的GPU上看到的60%至80%的内存带宽饱和度。对于较大的70亿参数模型,由于在BFP8下无法在一张或两张卡上运行,QuietBox的扩展性能显著提高,但仍只能达到峰值理论性能的约41%。
### 扩展性测试
有时,加速器在更大的批次大小下表现更好。为了测试这一点,我们让系统处理了一个2,048个令牌的提示,并生成了一个128个令牌的响应,批次大小范围从1到32。在最大的批次大小下,卡需要处理超过64,000个令牌,并生成大约4,096个令牌的响应。
像单批次基准测试一样,我们在单张卡、双张卡和四张卡张量并行配置下进行了这些测试,图表的垂直轴表示总令牌吞吐量,水平轴表示端到端延迟。
即使在更高的批次大小下,性能也远未达到预期。在批次32的情况下,结果显示从一张卡到两张卡,再到四张卡,端到端延迟分别减少了约25%。与此同时,从一张P150到两张卡,总吞吐量增加了36%,从两张卡到四张卡,增加了27%。
我们在在线服务基准测试中观察到了类似的扩展情况。四卡配置能够比单个P150多处理1.78倍的请求,而双卡配置则大致处于中间位置。类似多批次基准测试,该图表展示了不同并发请求数量下的性能特征——点击放大查看。
在每秒四个请求的情况下,运行同样大小模型的QuietBox每小时可以处理超过14,000个请求,同时保持合理的提示处理时间和交互性。虽然性能不错,但还不到我们期望此类硬件性能的一半。
两项测试中相对均匀的间距令人鼓舞,因为它显示出了一致性,但性能却远非如此。我们原本期待更好的扩展性,特别是考虑到这些卡之间有12.8 Tbps的带宽连接。
为了将这些性能数据进行对比,单个P150在我们的测试中几乎与Nvidia DGX Spark表现相同。根据规格参数,Blackhole卡在LLM服务中以FP8精度应该能提供2到3倍于P150的性能。
令人困惑的是,Tenstorrent自己的文档显示,在从八芯片Wormhole QuietBox升级到32芯片Galaxy节点时,其上一代加速器能够实现超线性解码扩展。对于预填充,从八个加速器增加到32个加速器大约减少了三分之二的提示处理时间。这表明缺乏优化可能是阻碍P150和QuietBox发挥全部潜力的原因。
Tenstorrent的性能测试显示,它能够在其上一代Wormhole加速器上实现线性解码扩展——点击放大查看。
理解Blackhole不尽如人意的性能表现
那么,为什么Tenstorrent最新的加速器表现不佳呢?据我们了解,问题在于所有我们测试的模型似乎都使用了为其较旧的Wormhole加速器编写的内核。
这些模型与Blackhole兼容,这意味着它们可以运行,但不能充分利用新芯片显著增加的核心数量。Wormhole拥有80个Tensix核心,但在N150和N300上,实际上只有72个或128个(每个ASIC 64个)被启用。我们推测,为了最大化兼容性,大多数模型都被调校为适合64个Tensix核心。不幸的是,这意味着当在Blackhole上运行为Wormhole编写的内核时,芯片上的140个Tensix核心中有76个处于闲置状态。
缺乏优化的内核也可能是Blackhole生成令牌速度远低于预期的原因。这些内核没有经过调优以利用额外的内存带宽,因此无法充分利用。我们观察到的解码性能表明,这张卡的带宽被人为限制在了288 GB/s,而这恰好是Wormhole所能达到的水平。
如果我们的猜测正确,这对Tenstorrent来说是一个错失的机会。我们知道这是一个先有鸡还是先有蛋的问题。如果没有相应的硬件,你就无法编写内核。但是,即使有一个针对Blackhole优化的模型,也足以展示其架构改进。
相反,我们在测试中发现的加速器看起来只比其前身提供了渐进式的性能提升,同时功耗却增加了近一倍。
总结
凭借Blackhole QuietBox,Tenstorrent打造了一个强大且安静的开发平台,用于其最新一代加速器。而且,这个平台相对来说价格实惠。
从纸面上看,系统中的四个Blackhole P150承诺在计算能力、内存和带宽之间取得良好的平衡,同时实现了其他价格相近的GPU无法做到的扩展性。NVLink在消费者或工作站平台上的日子已经过去,而PCIe的扩展能力有限。通过每颗芯片3.2 Tbps的带宽,Tenstorrent的平台应该能够像其上一代Wormhole卡一样实现线性扩展。
尽管有些人可能会因为机器11,999美元的价格标签而犹豫,但要获得接近这种性能、内存和网络连接的任何东西,至少需要付出同样的代价,甚至更多。
对Tenstorrent而言,更大的问题是,竞争对手平台由于拥有更成熟的软件堆栈,因此更加有用,从而更具价值,即使它们的可扩展性不如Tenstorrent。开源社区——可以说是P150和QuietBox的目标市场——正在帮助解决这个问题,但由于缺乏明确的例子来展示Blackhole架构的潜力,销售起来仍然困难重重。
假设英伟达推出了一款性能提升三倍且内存带宽接近翻倍的新GPU,但要充分利用这些性能却需要重写代码库,而且无法保证所宣称的性能提升确实能够实现。这无疑是一个巨大的挑战。然而,这正是我们目前面对Blackhole的情况。
对于大型语言模型推理这一当今最重要或至少需求最高的工作负载,缺乏优化内核是一个尤其不可原谅的失误,也是Tenstorrent不应浪费时间解决的问题。
即使有一个优化过的模型,比如OpenAI的gpt-oss,也能大大增强信心,并且更重要的是,为Blackhole架构积累发展动力。
关于软件方面,我们也希望看到Tenstorrent更好地整合其文档。目前,该公司的文档分散在多个专用网站上,或埋没在数十个索引不佳的GitHub仓库中。
特别是,我们认为Tenstorrent通过增加“入门指南”的数量和质量会受益匪浅。如果Tenstorrent软件团队的成员需要灵感,可以参考英伟达为DGX Spark提供的文档。
潜在客户了解越多能在Tenstorrent硬件上运行的东西,公司就能更快地为产品积累发展动力,销售加速器和核心知识产权也会更加容易。
基于Tenstorrent的Blackhole架构的生产服务器尚未开始出货,因此这家初创公司仍有时间打磨其软件平台的粗糙边缘。®
赞助:谷歌云上的生成式AI。免费开始。
分享
更多关于
AI
数据中心
RISC-V
类似内容
×
更多关于
AI
数据中心
RISC-V
工作站
更窄的主题
AIOps
DeepSeek
灾难恢复
Gemini
谷歌AI
GPT-3
GPT-4
大语言模型
机器学习
MCubed
神经网络
自然语言处理
开放计算项目
电源效率
检索增强生成
SiFive
软件定义数据中心
星球大战
张量处理单元
TOPS
更广的主题
CPU
个人电脑
RISC
自动驾驶汽车
更多信息
发送新闻线索
发表评论
更多关于
AI
数据中心
RISC-V
类似内容
×
更多关于
AI
数据中心
RISC-V
工作站
更窄的主题
AIOps
DeepSeek
灾难恢复
Gemini
谷歌AI
GPT-3
GPT-4
大语言模型
机器学习
MCubed
神经网络
自然语言处理
开放计算项目
电源效率
检索增强生成
SiFive
软件定义数据中心
星球大战
张量处理单元
TOPS
更广的主题
CPU
个人电脑
RISC
自动驾驶汽车
提示我们
发送新闻
(以上内容均由Ai生成)