使用 OpenAI,无需效忠 – 只需不惜一切代价进行计算
快速阅读: 据《The Register》称,OpenAI正寻求扩大计算供应商,包括谷歌TPU,但暂无大规模部署计划。其软件已优化GPU,迁移成本高。
分析:不再受微软基础设施的限制,OpenAI 正在寻求扩大其计算供应商网络,包括甲骨文(Oracle)、CoreWeave,以及似乎还有竞争对手模型开发商谷歌(Google)。但尽管 OpenAI 可能在“巧克力工厂”设立了办事处,它短期内不会使用谷歌自主研发的张量处理单元(TPU)来运行或训练其模型,这位 AI 界的明星告诉路透社。
在周末向该出版物发表的一份声明中,OpenAI 承认它正在尝试谷歌的 TPU,但目前没有计划大规模部署它们。这一否认发生于《信息》杂志报道谷歌成功说服模型开发商将其工作负载转移到自研加速器后的数日。
据称,OpenAI 对谷歌 TPU 技术的接受被许多人视为,这位由山姆·阿尔特曼支持的模型开发商不仅希望结束对微软的依赖,还希望减少对英伟达硬件的依赖。然而,如果你一直在关注,你就会知道 OpenAI 一直在多元化其硬件堆栈。该公司最初使用英伟达的 DGX 系统起步,但与英伟达的关系从未是独家的。
多年来,该模型开发商的 GPT 系列已经在各种不同的硬件上运行。你可能还记得,微软在其自研的 Maia 加速器上运行了 GPT-3.5。微软——OpenAI 的主要基础设施提供商,直到最近——也是最早采用 AMD Instinct MI300 系列加速器的公司之一,运行 GPT-4 等模型是这些加速器的关键用例之一。
AMD 的加速器一直以来提供了更高的内存容量和带宽,这可能使它们比英伟达的 GPU 更经济实惠,用于模型服务。即使 OpenAI 与微软的关系有所缓和,AMD 仍然是这家初露锋芒的 AI 巨头的重要硬件合作伙伴。上个月,阿尔特曼在 AMD 的“推进 AI”活动上发表演讲,强调了双方持续的合作。
如果这还不够的话,据报道,OpenAI 正在开发自己的 AI 芯片,以进一步优化其训练和推理管道中的计算、内存、带宽和网络资源比例。考虑到所有这些因素,OpenAI 正在尝试谷歌自研芯片的想法并不令人意外。搜索引擎的 Gemini 模型已经证明了这种架构在大规模训练方面的能力。
谷歌还提供多种不同配置的这些加速器,每种配置都有不同的计算、内存和可扩展性比例,这将根据 OpenAI 是否需要计算密集型训练任务或内存带宽受限的推理工作负载,为其提供一定程度的灵活性。
“巧克力工厂”的第七代 Ironwood TPU 提供高达 4.6 petaFLOPS 的密集 FP8 性能,192GB 高带宽内存(HBM),带宽高达 7.4TB/s,以及 1.2TB/s 的芯片间带宽,使其与英伟达的 Blackwell 加速器处于同级别。TPUv7 有两种配置:一种是包含 256 个芯片的机架,另一种是 9,216 个芯片。我们被告知多个机架可以连接在一起,进一步扩展计算能力,超过 400,000 个加速器。而如果有什么东西能让山姆·阿尔特曼兴奋,那就是海量的计算资源。
Cloudflare 创建了 AI 爬虫支付通道以支付出版商
甲骨文刚刚签下了一位神秘客户,将在 2028 年使其云收入翻倍
想要一份工作吗?只需在简历上注明“AI 技能”
AI 有一个最喜欢的数字,而且不是 42
那么为什么 OpenAI 决定不使用谷歌的 TPU 呢?这里可能有几个因素在起作用。有可能性能不如预期,或者谷歌可能没有足够的 TPU 来满足 OpenAI 的需求,或者仅仅是每个 token 的成本太高。然而,最明显的答案是,OpenAI 的软件堆栈基本上已经针对 GPU 进行了优化。要让这个软件充分利用谷歌 TPU 架构,需要时间和额外的资源,最终可能并不会带来任何实际的好处,与其继续使用 GPU 相比。
正如俗话说的,邻家的草总比自家的绿。除非你亲自尝试,否则你永远无法确定。
(以上内容均由Ai生成)