Google Cloud Run 现在提供用于 AI 和批处理的无服务器 GPU
快速阅读: 据《InfoQ 公司》最新报道,谷歌云正式推出Cloud Run的NVIDIA GPU支持,开发者可通过简单设置启用,按秒计费且可缩放至零。该服务已在五个区域上线,适合AI推理和批处理任务,但价格相较其他服务商无明显优势。
谷歌云正式推出对Cloud Run(其无服务器运行时)的NVIDIA GPU支持。通过这一增强功能,谷歌云旨在为广泛的应用场景提供强大且经济高效的GPU加速环境,特别是在人工智能推理和批处理领域。
在一篇公司博客文章中,谷歌强调开发者因Cloud Run的简洁性、灵活性和可扩展性而对其青睐有加。如今,新增的GPU支持进一步增强了其核心优势:
– **按秒计费**:用户仅需为其实际使用的GPU资源秒数付费,从而有效减少浪费。
– **缩放至零**:当处于非活动状态时,Cloud Run会自动将GPU实例数量缩减至零,避免产生闲置成本——这对间歇性或不可预测的工作负载尤其有利。
– **快速启动与扩展**:配备GPU和驱动程序的实例可以在不到5秒内启动,确保应用程序能够迅速响应需求。
– **完全流媒体支持**:内置对HTTP和WebSocket流媒体的支持,使得交互式应用成为可能,比如实时的语言模型响应。
NVIDIA加速计算产品总监戴夫·萨尔瓦托评论道:“一个重要的障碍已被清除,因为开发者无需申请配额即可在Cloud Run上使用NVIDIA L4 GPU支持。他们可以通过简单的命令行标志(例如添加`–gpu 1`参数)或在Google Cloud控制台中勾选相关选项来启用GPU支持。”
配备了GPU支持的Cloud Run现已达到生产就绪状态,并受到Cloud Run服务水平协议(SLA)中关于可靠性和正常运行时间的保障。默认情况下提供区域冗余以提高弹性,同时也可以选择较低的价格以实现尽力而为的故障转移。
Cloud Run上GPU支持的全面上线引发了开发社区对其竞争优势的热烈讨论,尤其是与其他主要云服务提供商的关系。ZenRows首席软件工程师鲁本·德尔·卡米诺指出:“谷歌的这一举措是‘AWS多年来应该构建的东西:真正可用的无服务器GPU计算。’”他强调了AWS Lambda在功能上的局限性,比如15分钟的超时限制和仅限CPU计算对现代AI工作负载(如Stable Diffusion推理、模型微调或实时视频分析)构成的阻碍。“尝试在Lambda中运行Stable Diffusion推理、微调模型或使用AI处理视频——你做不到。”用户评论说,强调Cloud Run GPU让这些任务在可以缩放到零的无服务器GPU上变得轻而易举。
尽管Cloud Run GPU提供了令人印象深刻的功能,但Hacker News论坛上的一些用户对缺乏硬性账单限额表示担忧,这可能导致意外的成本增加。虽然Cloud Run允许设置最大实例限制,但它并未提供基于美元的实际支出上限。此外,在同一Hacker News论坛上的比较还显示,其他提供商(如Runpod.io)可能为类似的GPU实例提供更具竞争力的价格。例如,一些用户指出,Runpod的L4、A100和H100 GPU的每小时费率显著低于谷歌,即便考虑到谷歌的按秒计费。
除了实时推理之外,谷歌还宣布了在Cloud Run作业(目前处于私人预览阶段)上提供GPU的可用性,解锁了新的批量处理和异步任务用例。这些功能在全球范围内得到支持,Cloud Run GPU目前在五个Google Cloud区域可用:美国内布拉斯加州的us-central1、比利时的europe-west1、荷兰的europe-west4、新加坡的asia-southeast1以及印度孟买的asia-south1。未来还将增加更多区域。
最后,该公司表示,开发人员可以通过利用官方文档、快速入门指南以及优化模型加载的最佳实践开始使用Cloud Run GPU进行构建。
关于作者
斯蒂夫·扬格斯
显示更多
显示更少
(以上内容均由Ai生成)