Meta 释放 Llama API 的运行速度，运行速度比 OpenAI 快 18 倍：与 Cerebras 合作，每秒提供 2,600 个代币

快速阅读: 《VentureBeat 公司》消息，Facebook与Cerebras合作推出Llama API，提供高达传统GPU方案18倍的推理速度，旨在与OpenAI等竞争。此合作使Facebook从模型提供商转型为全面AI基础设施公司，同时保持开源承诺。Cerebras将通过北美多个数据中心支持该服务。

订阅我们的每日和每周简报，获取行业领先的人工智能报道的最新动态和独家内容。了解更多，脸书今日宣布与Cerebras Systems合作，为其新的Llama API提供支持，为开发者提供最高可达传统基于GPU解决方案速度18倍的推理速度。这一公告是在脸书首届位于门洛帕克的LlamaCon开发者大会上发布的，使该公司能够直接与OpenAI、Anthropic和谷歌在快速增长的人工智能推理服务市场中竞争，在这个市场中，开发者通过购买数十亿个令牌来驱动他们的应用程序。“脸书选择了Cerebras进行合作，以提供他们需要通过新Llama API服务于开发者的超快推理速度，”Cerebras首席营销官朱莉·申·崔（Julie Shin Choi）在新闻发布会上表示。“我们Cerebras非常非常兴奋地宣布我们的首个云服务提供商超大规模云合作伙伴关系，以向所有开发者提供超快推理。”这项合作标志着脸书正式进入销售人工智能计算业务，将其流行的开源Llama模型转化为商业服务。尽管脸书的Llama模型已累计下载超过十亿次，但直到现在，公司尚未为开发者提供第一方云基础设施来构建应用程序。“即使不具体提到Cerebras，这也非常令人兴奋，”Cerebras高级执行官詹姆斯·王（James Wang）说。“OpenAI、Anthropic、谷歌——他们从零开始建立了一个全新的AI业务，即AI推理业务。构建AI应用的开发者将购买数百万甚至数十亿个令牌。这些就像人们构建AI应用所需的新计算指令。”

一个基准图表显示Cerebras处理Llama 4的速度为每秒2648个标记，远远超过竞争对手SambaNova（747）、Groq（600）以及谷歌和其他基于GPU的服务——解释了脸书为其新API选择硬件的原因。

突破速度极限：Cerebras如何增强Llama模型

脸书提供的独特之处在于Cerebras专门设计的人工智能芯片所提供的显著速度提升。根据Artificial Analysis的基准测试，Cerebras系统为Llama 4 Scout提供了超过每秒2600个标记的速度，而ChatGPT约为每秒130个标记，DeepSeek约为每秒25个标记。“如果你只是在API对API的基础上比较，Gemini和GPT都是很棒的模型，但它们都在GPU速度下运行，大约是每秒100个标记，”王解释说。“每秒100个标记对于聊天来说还可以，但对于推理来说非常慢，对于代理来说也非常慢。人们现在正在为此而苦恼。”

这种速度优势使得以前不切实际的全新类别应用成为可能，包括实时代理、低延迟语音系统、交互式代码生成和即时多步推理——所有这些都需要串联多个大型语言模型调用，现在可以在几秒钟内完成而不是几分钟。

从开源到收入流：脸书的人工智能业务转型

Llama API代表了脸书人工智能战略的重大转变，从主要作为模型提供商转变为成为全面的人工智能基础设施公司。通过提供API服务，脸书正在从其人工智能投资中创造收入流，同时保持对开放模型的承诺。“脸书现在正在销售令牌，这对美国的人工智能生态系统来说是非常好的，”王在新闻发布会上指出。“他们带来了许多好处。”

该API将提供工具用于微调和评估，从Llama 3.3 8B模型开始，允许开发者生成数据、训练并在其自定义模型的质量上进行测试。脸书强调，它不会使用客户数据来训练自己的模型，并且使用Llama API构建的模型可以转移到其他主机——这与一些竞争对手更封闭的方法形成了明确的区分。

Cerebras北美数据中心网络内部：推动脸书的人工智能雄心

Cerebras将通过其遍布北美的数据中心网络为脸书的新服务提供支持，包括达拉斯、俄克拉荷马州、明尼苏达州、蒙特利尔和加利福尼亚州的设施。“目前，我们所有的推理数据中心都在北美，”崔解释说。“我们将利用Cerebras的全部能力为脸书服务。工作负载将在所有这些不同的数据中心之间平衡。”

Cerebras将通过其遍布北美的数据中心网络为脸书的新服务提供支持，包括达拉斯、俄克拉荷马州、明尼苏达州、蒙特利尔和加利福尼亚州的设施。这种业务安排遵循了崔所描述的“经典计算供应商到超大规模云服务提供商”的模式，类似于英伟达为大型云服务提供商提供硬件的方式。“他们预留了我们计算能力的块，以便为他们的开发者群体提供服务，”她说。

除了Cerebras，脸书还宣布与Groq合作，提供快速推理选项，为开发者提供多种高性能替代方案，超越传统的基于GPU的推理。

颠覆人工智能生态系统：脸书的20倍性能飞跃如何改变游戏规则

脸书凭借卓越的性能指标进入推理API市场，可能会颠覆由OpenAI、谷歌和Anthropic主导的现有秩序。通过结合其开源模型的受欢迎程度和大幅加快的推理能力，脸书正在其商业人工智能领域占据一席之地。“脸书拥有30亿用户、超大规模数据中心和庞大的开发者生态，处于独特的地位，”根据Cerebras的演示材料。“Cerebras技术的集成帮助脸书在性能上比OpenAI和谷歌高出约20倍。”

对于Cerebras而言，这项合作标志着其专门人工智能硬件方法的重要里程碑和验证。“我们多年来一直在构建这种晶圆级引擎，我们始终知道这项技术是一流的，但最终它必须成为某人超大规模云的一部分。从商业策略的角度来看，这就是我们的最终目标，我们终于达到了这个里程碑，”王说。

开发者今天如何访问脸书的超快Llama模型

Llama API目前仅限于有限预览，脸书计划在未来几周和几个月内进行更广泛的发布。有兴趣访问超快Llama 4推理的开发者可以通过在Llama API内的模型选项中选择Cerebras来请求早期访问。“如果你想象一下一个不知道Cerebras的开发者，因为我们是一家相对较小的公司，他们只需点击脸书标准软件SDK上的两个按钮，生成API密钥，选择Cerebras标志，然后突然间，他们的令牌就在一个巨大的晶圆级引擎上被处理了，”王解释说。“让我们成为脸书整个开发者生态系统后端的那种存在对我们来说真是太棒了。”

脸书选择专门硅片传递了一种深刻的信号：在人工智能的下一阶段，不仅在于你的模型知道什么，还在于它们能多快思考。在未来，速度不仅仅是一个特性——它是重点。

每日业务应用场景洞察：VB Daily

如果你想给老板留下深刻印象，VB Daily为你提供帮助。我们为你提供公司如何使用生成式人工智能的内幕消息，从监管调整到实际部署，以便你分享见解以获得最大投资回报率。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB时事通讯。发生错误。

(以上内容均由Ai生成)