Nvidia与Portworx合作实现Kubernetes环境下的自助数据管理
快速阅读: Nvidia采用Portworx实现大规模自助数据管理,支持多租户工作负载,确保系统可用性和敏捷性,无需等待工单,满足研发需求变化。
在企业研发环境中,团队需要能够无缝扩展的自助服务基础设施,以便数千名开发者可以快速部署资源、加速测试并按时完成任务,无需等待工单或担心停机风险。Nvidia公司的平台工程团队支持芯片设计、固件开发和AI训练工作负载,在本地和云端Kubernetes集群上运行,遵循容器优先的哲学。该公司选择Portworx(由Pure Storage提供)来实现大规模的自助数据管理,使多租户环境下的开发团队不会相互干扰,同时平台工程师可以在不影响敏捷性的前提下维持系统可用性,Nvidia高级软件工程师Brian Monroe表示。
Monroe和Portworx的副总裁兼总经理Venkat Ramakrishnan在接受theCUBE采访时讨论了如何通过Portworx在Kubernetes环境中实现大规模的自助数据管理,支持多租户工作负载而不牺牲可用性和敏捷性。
“我们需要能够关闭集群进行维护,”Monroe告诉theCUBE,“我们还需要能够转移工作负载。我们通常尝试实现零停机维护,即关闭集群中的一个节点进行升级等操作。通过PortWorx存储基础设施,数据复制分布在多个节点上,这使我们能够在不同位置移动工作负载,而无需担心中断特定的业务流程或功能。”
Portworx提供了直接面向Kubernetes命名空间的存储配置,使得从事芯片设计、固件开发或AI训练的团队能够独立运作,无需等待基础设施工单。这种自助服务基础设施模型意味着开发者可以在自己的环境中快速创建持久卷,同时平台工程师能够控制底层系统,Ramakrishnan说。
“你无需提交工单来获取存储服务,无论是文件、块还是对象,因为你在运行Portworx,它在你的命名空间内可用且支持多租户,”他说。“这意味着,一个团队可能正在开发大量ASIC固件,而另一个团队正在开发AI训练,它们可以共享相同的Kubernetes基础设施,而不会互相干扰。这些团队支持着大量的开发者,仅有少数平台工程师,我们帮助他们实现规模化运营。”
Nvidia的基础设施团队规划弹性增长,随着研发需求的变化增加节点和存储容量。公司在一个环境中运作,资源请求在关键阶段可能会激增,例如芯片流片或AI模型训练周期,需要一种无需重新设计即可扩展的自助服务基础设施,Ramakrishnan表示。
“不同的行业有不同的需求,但我认为从一个行业到另一个行业的基本问题大致相同,”他说。“现在谈论的是规模和弹性;特别是在媒体领域,有一个开发者平台,一个开发者体验平台,但让我们看看需要推动的关键绩效指标和服务水平协议。他们有数千名开发者,不断构建代码,在发布时,如芯片流片或新的软件版本,很可能需要更多的资源。规模和弹性的基础问题是相同的。”
以下是SiliconANGLE和theCUBE对KubeCon + CloudNativeCon NA活动的完整视频采访:
(披露:Pure Storage赞助了theCUBE的这一部分。Pure Storage和其他赞助商对theCUBE或SiliconANGLE上的内容没有编辑控制权。)
照片来源:SiliconANGLE
来自SiliconANGLE联合创始人John Furrier的消息:
支持我们的使命,通过参与theCUBE社区来保持内容开放和免费。
加入theCUBE的校友信任网络,技术领导者在此连接、分享情报并创造机会。
1500多万观众观看theCUBE视频,促进关于人工智能、云计算、网络安全等领域的对话。
11400多名theCUBE校友——与超过11400名技术和商业领袖建立联系,他们通过独特的基于信任的网络塑造未来。
关于SiliconANGLE Media
硅谷角度传媒是数字媒体创新领域的公认领导者,将突破性技术、战略洞察和实时受众互动相结合。作为硅谷角度、立方体网络、立方体研究、立方体365、立方体AI及立方体超级工作室的母公司——旗舰地点位于硅谷和纽约证券交易所——硅谷角度传媒在媒体、技术和人工智能的交汇处运营。
由科技远见者约翰·弗里尔和戴夫·维尔兰特创立的硅谷角度传媒,打造了一个涵盖行业领先的数字媒体品牌的动态生态系统,触及超过1500万精英科技专业人士。其最新的专有立方体AI视频云正在观众互动领域取得突破,利用立方体ai.com神经网络帮助科技公司做出数据驱动的决策,保持在行业对话的前沿。
(以上内容均由Ai生成)