OpenAI阐述全球规模计算原则，推动AI基础设施发展

快速阅读: OpenAI硬件负责人霍在AI基础设施峰会上指出，AI普及需更大规模全球计算能力，强调网络和计算资源的关键作用，及未来AI系统面临的挑战。

如果人工智能要普及，正如投入巨资的模型构建者和数据中心建设者所期望的那样，那么它必须成为一种全球现象。为此，将需要比我们在1990年代末互联网繁荣时期和2010年代大数据繁荣时期所见规模更大的全球计算能力。

在本周于圣克拉拉举行的AI基础设施峰会上，通用人工智能先驱OpenAI的硬件负责人理查德·霍在其主题演讲中传达了这一信息。我们曾希望霍能谈论有关OpenAI与博通合作开发的传闻中的“泰坦”自研推理芯片，但我们上周在分析该芯片制造商最新财务业绩时提到的这一点并未涉及。

然而，霍和他的在Meta平台及谷歌的同行们讨论了随着生成式AI模型扩大规模并需要越来越多的计算和网络资源而所需的大规模基础设施。网络是关键，由计算驱动，计算能力早已超越摩尔定律的速度，不仅需要芯片内部的互连，还需要机架内部和跨机架的链接，以使多个XPU芯片协同工作。正如我们之前所说，这标志着超级计算真正走向主流，即使其重点是人类言语与数字废气的混合，而非模拟星系、飓风或DNA分子等。

因此，我们对OpenAI在未来五到十年内可能采取的措施以推进人工智能处理技术的发展感到好奇。霍曾在Arm服务器初创公司Calxeda、谷歌（负责TPU开发以及Pixel手机的视频编码器和EdgeTPUs）和硅光子学先驱Lightmatter担任关键计算职位，这表明他可能带来的贡献。

如果有人要在当今的人工智能处理领域超越英伟达，他们必须创造在多个方面优于英伟达“Blackwell”或“Rubin”GPU加速器的产品，并且必须深入思考如何将使用这些产品的系统整合成一个整体，从而降低推理成本。萨姆·阿尔特曼及其团队深知这一点，霍也是如此。这就是为什么我们对OpenAI自研加速器及其Stargate项目的期望相当高。

霍在AI基础设施峰会的演讲框架了他团队正在创建的技术的叙述，尽管没有具体提及该技术细节。

一切始于指数增长，当然，霍展示的这张图表显示了训练模型所需的总计算量与大规模多任务语言理解（MMLU）测试的综合得分之间的关系：

从图中可以看出，OpenAI的GPT-4模型使这条曲线有所下降。有趣的是，霍未显示GPT 4.5、GPT-5和o3模型在这张图表上的位置，无论是总浮点运算量还是MMLU测试得分。GPT-5可能需要大约1×10^27次浮点运算，MMLU测试得分接近100%，这意味着该测试不再具有实用性，霍在他的演讲中指出了这一点，但没有给出具体数字。（一些人认为MMLU测试本身存在缺陷，得分超过93.5%是不可能的。）o3模型的专家混合或链式推理技术可能在1×10^26次浮点运算左右，上下浮动不大。

作为一个数据收集爱好者，我们喜欢收集图表，霍展示的另一张图表也十分有趣：

这张图表显示了从2012年拥有6000万个参数的AlexNet到2019年拥有15亿个参数的早期GPT-2前沿模型，再到拥有1750亿个参数的GPT-3，直至估计拥有1.5万亿个参数的GPT-4，图像识别模型随时间的计算需求变化。（霍肯定知道这个数字，即使它尚未公开。）

Y轴上显示的总计算量以petaflops为单位，采用对数尺度，因此即使在GPT-3到GPT-4之间及至2025年的GPT-5（此时推理技术开始嵌入专家混合模型）期间线条趋于平缓，我们看到的仍是指数增长。如果相信霍从今天起延伸出的那条线，这种情况在展望2030年及以后时仍然成立。我们指出，即使对于模型规模不断扩大的较缓指数曲线，能够经济地提供这些计算能力，是因为数学单元和数据格式中使用的浮点和整数精度不断缩小。即便如此，训练这些模型的成本仍然非常高昂，除了英伟达和像OpenAI这样的模型构建者外，投资回报率仍有待观察。

2009年，谷歌的卢伊兹·安德烈·巴罗索和乌尔斯·霍尔泽发表了一篇名为《数据中心资源管理》的论文，引起了广泛关注。

数据中心作为计算机：大规模机器设计导论。然而，Ho 讨论的是构建全球规模的计算机。如今，OpenAI 和像谷歌、微软、亚马逊等少数公司已经创建了全球规模的计算机，这些系统将运行以计算机速度实际执行任务的代理型人工智能工作负载，而不仅仅是以人类速度讨论我们应知或应做之事。

Ho 在 AI 基础设施峰会上的主题演讲中表示：“我看到的最大演变之一是，我们正朝着代理型工作流程发展，这意味着大多数工作将由代理完成，且这些代理之间会进行大量互动。”他进一步解释说，“许多代理具有长生命周期，意味着你与某个代理的会话可以持续进行。在过去，你与 ChatGPT 的聊天结束后再回来时，它在中间什么也没做。未来，即使你不输入任何内容或提出问题，代理也会在后台继续工作，因为任务可能是长期的或复杂的，需要持续处理。因此，长生命周期的会话意味着基础设施需要支持状态计算，并且需要内存来支撑。”

“我们需要在这些代理间实现实时工具——有些可能正在查看工具，有些可能正在进行网络搜索，还有些可能在思考，而另一些则需要与其他代理交流。我们需要低延迟互连，以确保这些代理同步并正确执行任务。这将持续数天，且数据量非常大。当有许多这样的代理时，尾部延迟将变得非常重要。如果某个代理有重要信息需告知其他代理，而传递这一信息所需时间过长，可能会直接影响结果。”

Ho 指出，在当前的人工智能系统设计中，网络方面存在“很多紧张”，他认为这是一个恰到好处的诙谐说法。对于未来的 AI 系统，计算、网络和存储方面还存在其他紧张关系，Ho 列举了一些问题，但未透露 OpenAI 及其合作伙伴如何解决这些问题：

– HBM4 和 HBM4E 存储容量和带宽瓶颈及通过 CXL 内存池缓解部分压力的方法。

– 2.5D 和 3D 芯片集成技术，用于将组件安装在超过芯片光罩限制的区域。

– 用于克服铜互连线从 XPUs 和交换机引出的限制的共封装和近封装光学技术。

– 包含 CPU、XPU 和 NPU 的异构计算。

– 高于 100 千瓦聚合功率的机架级系统，这些系统需要直接到芯片的液体冷却，随着功率上升至每机架 600 千瓦甚至 1 兆瓦，未来可能需要浸没式冷却。

– 众多供应链问题，如基板和 HBM 存储短缺，以及 EUV 工具在全球范围内的分布不均。

信任缺失的根源

所有大型模型构建者面临的一个主要主题，也是争议点之一，被称为对齐，涉及模型在生产环境中运行的安全性和可靠性。“必须将其内置于硬件中，”Ho 声明道。“目前，许多安全工作都在软件层面进行，假设硬件是安全的，假设硬件会正常工作，假设可以切断硬件电源。我不是说我们不能切断硬件电源，但我要告诉你们，这些模型非常狡猾，所以作为一名硬件工程师，我希望能够确保这一点。”

为此，Ho 建议在 AI 集群的编排结构中集成实时断电开关。他还建议在硅片中设置遥测功能以检测异常计算和内存模式，在 CPU 和 XPU 中设置安全飞地，并通过芯片级别的可信执行路径来实施对齐政策。

霍在他的演讲中总结道：“我认为我们需要为这个新时代建立新的基础设施。我们目前缺乏对代理感知架构和硬件的良好基准测试，了解延迟墙和长尾延迟、效率和功耗等方面非常重要。我们需要将良好的可观察性作为硬件特性，而不仅仅是调试工具，而是内置并持续监控我们的硬件。网络是非常重要的，随着我们向光通信发展，目前尚不清楚网络的可靠性如何。我们需要通过这些光通信试验平台和其他通信试验平台的充分测试来确保这一点。”

霍在演讲中还提到，他希望看到晶圆厂、封装厂、超大规模企业和云建设者之间的合作，以协调关键组件的双重采购。虽然时间有限未能详述这一点，但这对OpenAI来说是一个相对容易提出的要求，而对于上述各方来说，则较为困难。

订阅我们的通讯

每周直接从我们这里获取亮点、分析和故事，中间没有任何过滤。

立即订阅

(以上内容均由Ai生成)