阿里云透露其称可以击败竞争对手的超大规模企业的数据库集群管理器

发布时间：2025年7月3日来源：szf

快速阅读: 据《The Register》最新报道，阿里巴巴云推出Eigen+集群管理器，通过分析数据库实例内存使用，减少OOM错误，提升36%内存效率，优于传统超分配方法。

阿里巴巴云透露了一种集群管理器，称其可以比其超大规模云服务商更高效地运行数据库。这家中国云巨头在最近的SIGMOD/PODS会议上展示了名为《Eigen+：阿里巴巴云数据库的内存超分配》的论文[PDF]，这是一场由计算机协会（ACM）主办的专注于数据库研究的活动。

这篇论文开篇指出，超大规模云服务商通常会为虚拟机分配比实际可用内存更多的内存——这种技术称为“内存超分配”，因为虚拟机并不总是使用所有分配给它们的RAM。因此，内存超分配使得每个主机上可以运行更多的虚拟机。

如果听起来有点令人担忧，你并不是唯一一个担心内存超分配的人，因为阿里巴巴云的研究人员也担心它“会增加内存不足（OOM）错误的风险，可能会损害服务可用性并违反服务级别协议。”

使用内存超分配的用户通过两种方式来避免此类事件。一种是利用历史数据预测未来的内存使用情况。他们还采用装箱算法——一种用于确定如何将不同大小的物体放入固定大小的箱子中的优化技术。可以把它想象成俄罗斯方块，但它是用来将工作负载安排到计算资源池中的。

阿里巴巴云认为，历史数据和装箱算法的结合“在提供精确预测方面往往不够，特别是在高利用率环境中，微小的预测误差可能导致关键故障。”该公司得出这一结论是基于对其自身运营的分析。

这有点尴尬，因为这篇论文是阿里巴巴云2023年描述Eigen集群管理器第一版的论文的续集。

阿里巴巴高管警告AI基础设施市场过热

随着阿里巴巴推出服务器级RISC-V CPU，北京大力支持指令集架构（ISA）

阿里巴巴云声称其模块化数据中心架构使建设时间缩短了50%

阿里巴巴云等待硬件冷却后再尝试恢复客户数据

这一次，阿里巴巴云认为它找到了一种更好的方法，将更多的数据库虚拟机装入其服务器中，方法是从帕累托原则（即80/20法则）开始，即大多数问题来自少数原因。在阿里巴巴云上运行的云数据库的情况下，这意味着“内存使用率在一周内变化超过5%的数据库实例不超过所有实例的5%，但这些实例导致了超过90%的OOM错误。”

因此，阿里巴巴云的新集群管理器Eigen+会对所有数据库实例进行分析，以检测那些具有临时内存使用的实例，并防止它们使用内存超分配。Eigen+还会模拟超分配的影响，并可以启动数据库工作负载的在线迁移，以减少整个服务器群中发生OOM错误的可能性。

阿里巴巴云的论文声称，将Eigen+应用于运行MySQL的虚拟机，使其消除了OOM错误，并提高了36%的内存分配效率，这意味着阿里云可以用更少的内存托管更多的数据库虚拟机。

该论文断言，Eigen+对危险数据库的分类是其云计算竞争对手AWS、Google和Microsoft所没有的，而且其集群管理能力代表了对Google的Borg、Kubernetes和Mesos等工具的改进。

当然他们会这么说——但这篇论文写得足够好，以至于ACM认为它值得在SIGMOD/PODS会议上获得一个展示机会。

(以上内容均由Ai生成)