Google Cloud 的 Ironwood TPU 打造更好的企业 AI

快速阅读: 据《福布斯》最新报道，谷歌在云Next大会推出第七代TPU“铁木”，大幅提升AI计算性能与效率。新TPU助力企业实现更高效的AI部署，降低成本并推动可持续发展。适用于金融、零售及医疗等领域，帮助企业抓住AI发展机遇。

**人工智能基础设施成为云计算主导权的关键战场**

今年，在谷歌云Next大会上，这家科技巨头展示了其在AI基础设施领域的强化承诺，推出了诸如“铁木”张量处理单元（TPU）等战略投资，旨在推动各行业企业的人工智能部署转型。“我们正在投资整个AI创新栈，”谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊概述了计划投入750亿美元资本支出以实现这一愿景。这一重大承诺反映出在快速发展的AI基础设施市场中保持竞争优势所需的巨大资金投入。

**谷歌发布第七代张量处理单元（TPU）**

在主题演讲中，谷歌云介绍了“铁木”TPU，这是其第七代张量处理单元（TPU），标志着AI计算架构的重大突破。谷歌云阐述了一项全栈策略，涵盖三个集成层级的AI优化基础设施：定制硬件、基础模型以及构建和协调多代理系统的工具。

通过TPU优化基础设施，云计算基础设施最初是为了替代和优化本地数据中心而出现的。如今，云计算提供商正在添加特定的基础设施来支持与AI相关的新型计算需求。TPU是由谷歌专门开发的专用处理器，旨在加速AI和机器学习工作负载，尤其针对深度学习操作进行了优化。在多种机器学习应用场景中，TPU相比通用GPU或CPU，能以更低的成本实现更高的性能，从而在现有预算限制内降低基础设施成本或提高计算能力。

**铁木TPU助力AI超算架构**

“铁木”TPU是谷歌云AI超算架构的重要组成部分，该架构整合了优化的硬件和软件组件，以满足高需求的AI工作负载。AI超算平台构成了一套超级计算机系统，结合了性能优化的硅芯片、开放的软件框架、机器学习库以及灵活的消费模式，旨在在整个AI生命周期中提升效率，从训练和调优到推理和服务。

根据谷歌的技术规格，这些专用的AI处理器提供的计算性能比2013年发布的原始TPU强大3600倍，且能耗效率提高了29倍。铁木TPU在多个操作功能上也表现出比前一代版本6特里卢姆TPU架构高出4到5倍的性能改进。铁木TPU采用了先进的液体冷却系统和专有的高速片间互联（ICI）技术，创建可扩展的计算单元称为“Pod”，每个Pod最多可集成9216个芯片。在最大Pod配置下，铁木TPU的计算能力是目前排名世界第一的超级计算机El Capitan的24倍。

为了最大化这一基础设施的效用，谷歌云开发了Pathways，这是由谷歌DeepMind创建的机器学习运行时，能够高效地在多个TPU芯片之间进行分布式计算。在谷歌云上的Pathways简化了跨铁木Pod的扩展，允许对数十万个铁木芯片进行编排，以满足下一代AI计算需求。谷歌内部使用Pathways来训练高级模型如Gemini，并将其相同的分布式计算能力扩展给谷歌云客户。

**从经济效率到可持续发展**

尽管行业内出现了许多较小的专用AI模型，但要支持高级推理和多模态模型的性能要求，显著的AI芯片创新仍然是必不可少的。根据谷歌云ML、系统与云AI副总裁兼总经理阿明·瓦哈特的说法，“铁木设计用于优雅地管理‘思考模型’的复杂计算和通信需求，这些模型包括大型语言模型（LLMs）、专家混合模型（MoEs）和高级推理任务。”这种架构解决了市场对于模块化、可扩展系统的需求，这些系统在提高性能和准确性的同时，还能优化成本效率和能源利用。

对企业实施大规模AI项目而言，谷歌的硬件改进在三个方面带来了可量化的收益：

– **经济效率**：谷歌的专用硬件大幅增加了每美元的计算密度，降低了AI基础设施的总拥有成本。组织可以部署更加复杂的AI模型，而无需相应增加计算支出。
– **可持续性指标**：随着AI模型复杂性的增加（如Gemini、ChatGPT和高级图像生成器等系统），底层计算基础设施产生的热量和电力消耗显著增加。铁木TPU中采用的液体冷却技术相比传统的空气冷却提供了更高的热效率，使芯片能够在不受到热节流的情况下以更高频率运行。这项创新解决了电力消耗问题——这对云服务提供商和有可持续发展承诺的企业买家而言都是重要考量。这些TPU的性能功耗比帮助组织在扩大AI能力的同时应对环境影响问题。
– **上市时间加速**：处理能力的指数级增长意味着AI模型的训练和推理流程——以前可能需要数周甚至数月的计算时间——现在可以在几天或几小时内完成。这种开发周期的压缩使组织能够更快地迭代并以显著缩短的部署周期实现AI解决方案的落地。

**为何TPU对企业买家至关重要**

组织已经超越了那些从未进入生产级系统的有趣AI概念验证试验阶段。2025年是组织预计部署具有可量化业务价值的应用案例的一年，同时也是为未来奠定基础的一年。谷歌云增强的AI基础设施不仅支持当前的实际企业应用，还解决了因计算经济学或性能限制而受阻的问题。

– **金融服务分析**：在谷歌云Next的主题演讲中，德意志银行分享了如何使用谷歌云的技术来驱动名为DB Lumina的AI研究助手，以加快数据处理速度。许多银行和投资公司正在探索如何利用增强的AI基础设施来处理市场数据流，实时检测复杂模式异常，并启用更响应的交易策略和全面的风险管理框架。

– **客户体验转型**：零售和服务机构可以实施复杂的推荐引擎和多模态对话式AI系统，这些系统能够以极低的延迟处理客户互动，同时融入丰富的上下文理解。例如，Verizon使用谷歌云的客户参与套件，借助AI驱动的工具如个人研究助理（准确回答95%的问题），为其超过1.15亿连接提供客户服务支持，帮助客服人员提供更快、更精准且个性化的支持。下一阶段的重点是破解个性化、高级营销资产和同理心对话式AI的代码。

– **计算医学**：随着技术进步，医疗机构可以利用AI基础设施的进步来加速复杂成像数据集、基因组序列和病历的分析，这可能有助于提高诊断准确性和治疗方案优化。

**适应变化**

随着云计算基础设施提供商之间的竞争加剧，谷歌在AI领域的大量投入表明，企业计算将越来越多地以AI驱动的工作负载为核心。商业领袖需适应不断调整策略以把握AI发展带来的机遇。

对于制定AI实施路线图的CIO和技术领导者来说，谷歌云的硬件创新，如铁木TPU，为企业重新审视其基础设施战略提供了技术和经济依据，因为AI正日益成为运营卓越和竞争差异化的关键。

(以上内容均由Ai生成)