AI

浩瀚深度采用Doris替代ClickHouse,实现超大规模数据分析优化

发布时间:2025年9月5日    来源:szf
浩瀚深度采用Doris替代ClickHouse,实现超大规模数据分析优化

快速阅读: 浩瀚深度选择Apache Doris为核心数据库解决方案,实现超大规模数据处理,单表数据量超13PB,日均导入145TB,显著提升查询效率和降低成本。

浩瀚深度(SHA: 688292)旗下企业级大数据平台选择了 Apache Doris 作为核心数据库解决方案,目前该方案已在全国十余个生产环境中稳定运行。其中最大规模的集群部署于117个高性能服务器节点上,单表原始数据量超过13PB,行数突破534万亿,日均导入数据约145TB,节假日峰值可达158TB,是目前国内已知的最大单表。凭借 Apache Doris 的高可靠性、高性能和高可扩展性,该集群已持续稳定运行超过半年,充分证明了其在超大规模数据场景下的卓越表现。

作为国内互联网流量解析与数据智能化领域的领头羊,浩瀚深度深耕行业三十余年,持续为国内互联网提供高性能、高精度、高可靠的整体解决方案。公司业务涵盖网络可视化、AI智能、数据治理、数据价值挖掘及安全防护,是一家集软硬件产品研发、生产、销售和服务于一体的大型高科技企业。

顺水云大数据平台(StreamCloud)是浩瀚深度自主研发的企业级大数据平台产品,涵盖从数据采集、存储、处理、挖掘、治理到数据共享的完整数据开发流程,帮助企业客户快速构建PB级数据中台。目前,该平台已在通信、金融、交通等领域成功部署超过100个项目,管理数据超过130PB,集群节点规模接近万个。

为满足客户每日写入和查询万亿级增量数据的严格需求,顺水云对MPP数据库产品进行了多轮选型测试,并在实际生产环境中尝试了Greenplum、ClickHouse等多个方案。经过综合对比,最终选定Apache Doris作为核心数据库解决方案。目前,该方案已在全国十余个生产环境中上线,其中规模最大的集群部署于117个高性能服务器节点,单表原始数据量超过13PB,行数突破534万亿,日均导入数据量约145TB,节假日峰值数据量约158TB,且已持续稳定运行超过半年。

早期架构中,数据主要来源于用户上网日志,数据经过采集设备解析还原后发送到接口机,再由接口机上的程序接入HDFS集群,通过Apache Spark处理不同类型的话单,最终写入ClickHouse中,用于日志存储与快速查询、流量质量分析、面向政企市场的用户画像及精准营销等场景。随着业务数据量的增长,对高吞吐的数据写入、亿级数据的秒级响应、海量数据关联查询的需求日益迫切,以ClickHouse为核心的OLAP查询分析引擎体系在使用过程中暴露出写入稳定性差、存储成本高、运维成本高、并发查询能力不足和JOIN能力不足等问题。

为了进一步对比验证Doris的写入和查询性能,团队使用了三台物理机模拟生产环境,对Apache Doris和ClickHouse进行了多项对比测试,包括前缀索引、二级索引和全表扫描测试。测试结果显示,在合理配置索引的前提下,Doris在关键查询场景下表现出显著的性能优势:前缀索引查询速度是ClickHouse的两倍以上;使用BloomFilter索引时,Doris的查询速度领先ClickHouse达两倍;相同场景下,Doris的倒排索引功能使得查询性能大幅提升,速度远超ClickHouse,达到五倍以上;全表扫描方面,两者性能相近,但在特定函数调用上,ClickHouse略占优势。

综合来看,Doris在常用业务查询场景中的前缀索引、BloomFilter和倒排索引性能全面优于ClickHouse。据此评估,迁移至Doris后,查询响应速度预计提升超过两倍。

由于ClickHouse和Doris均为MPP架构数据库,且Doris支持MySQL语法,因此架构变化较小,迁移便捷。只需调整上游Importer写入组件的配置,使其将日志数据直接写入Doris表,并更新下游查询服务的SQL语句以适配Doris语法,即可完成无缝迁移。尽管团队对Doris进行了几TB的数据测试,但考虑到生产环境中日增数百TB的数据量级,加上引入新组件的不确定性,实施初期采取了ClickHouse和Doris并行运行的方式。

在迁移过程中,团队遇到了大批量写入报错、Compaction压力过载、导入异常等问题,并通过与社区交流解决了这些问题。例如,在解决大批量写入报错问题时,团队参考官方文档中的《日志存储和分析》模块参数进行调优,使导入任务恢复正常。在优化Compaction压力过载时,通过调整Bucket数量,使Compaction资源占用恢复正常,BE节点恢复平稳运行。在处理导入异常问题时,通过与社区合作,迅速定位并解决了问题根源。此外,通过使用Broker Load替代Stream Load,不仅减少了数据传输次数,还解放了接口机,提高了效率,机器资源节省超过28%,显著降低了成本并提升了效能。

目前,浩瀚深度已在某运营商客户的环境中使用Doris替换了ClickHouse,构建了新的查询分析平台,服务器规模超过百台,实现了日增数据量峰值近158TB的数据导入。采用双副本、倒排索引和ZSTD压缩后,存储量约为6.5PB,与原始数据相比,Doris中单个副本的压缩率达到了4倍左右。此次升级不仅带来了查询响应、并发能力和稳定性等方面的显著提升,还极大地提高了运维效率。

显著降低硬件资源成本:利用 Doris Broker Load 高效导入机制,释放了原先 ClickHouse 所需的 32 台专用接口机,这些资源可以灵活用于计算或存储,整体硬件成本节省超过 28%。采用 ZSTD 高压缩比格式,在不影响写入速度的情况下,存储资源消耗相比 ClickHouse(LZ4 压缩)减少了 6%。大幅提高查询效率:Doris 出色的索引优化(包括前缀索引、Bloom Filter 和倒排索引)以及多表 JOIN 性能全面超越 ClickHouse,单 SQL 查询响应速度提升了近 2 倍,批量查询任务执行效率提高了近 30%。有效降低运维复杂度与成本:在服务器宕机或硬盘损坏时,Doris 能自动完成副本切换与写入重定向,确保服务连续性。集群扩容或缩容时,Doris 可自动实现 Tablet 的均衡分布,迅速恢复集群负载平衡。借助 Doris 原生 Web UI 和 Grafana 监控,异常节点与磁盘故障能够被迅速定位。

未来规划:未来,浩瀚深度将从以下几个方面重点发展:持续深化 Doris 的湖仓一体化应用,通过 Doris 的 Hive Catalog 功能整合数据仓库资源,统一数据访问接口,实现对全量数据的统一查询与分析;复杂查询加速,在多维度分析、聚合计算等复杂查询场景下,依靠 Doris 强大的整合能力提升查询效率,加快报表生成速度;成本优化,利用 Doris 的冷热数据分层存储等特性,在持续优化查询性能的同时,进一步降低总体存储成本。

最后,衷心感谢飞轮科技技术团队与 Doris 社区对浩瀚深度的持续、专业的技术支持,有力推动了我们的国产化架构转型进程。我们热忱期待更多同行加入 Apache Doris 的应用实践与社区贡献行列,共同丰富其功能生态,扩展函数支持,助力 Apache Doris 在全球 MPP 数据库领域大放异彩。

(以上内容均由Ai生成)

你可能还想读

微软Windows 11 Copilot如何卸载

微软Windows 11 Copilot如何卸载

快速阅读: 微软宣布Windows 11更新,引入Copilot为核心的人工智能助手,实现文本语音互动、指导支持及代理操作。此举虽与谷歌等公司类似,但引发部分用户隐私担忧,微软已调整部分AI功能计划。 上周,微软宣布了一系列更新,使每一台W […]

发布时间:2025年10月23日
NEXCOM推出新平台,加速AI洞察

NEXCOM推出新平台,加速AI洞察

快速阅读: NEXCOM,总部位于中国台湾,自1992年成立以来,通过其NCS部门提供涵盖网络安全、SD-WAN、5G uCPE等领域的先进平台,助力企业构建可靠、可扩展的网络基础设施,推动未来连接技术发展。 成立于1992年,总部位于中国 […]

发布时间:2025年10月23日
Zonetail与FUTR在加拿大推出AI租房报告计划

Zonetail与FUTR在加拿大推出AI租房报告计划

快速阅读: Zonetail与The FUTR Corporation合作,推出加拿大首个人工智能驱动的租金报告项目,租户支付租金可建立信用并获FUTR代币奖励,2025年四季度启动,初期覆盖12,000个单位,计划2026年初扩展至70, […]

发布时间:2025年10月23日
Meta联手Blue Owl资本,270亿美元打造AI数据中心巨无霸项目

Meta联手Blue Owl资本,270亿美元打造AI数据中心巨无霸项目

快速阅读: Meta与Blue Owl Capital合作,成立270亿美元合资企业,开发路易斯安那州Hyperion数据中心园区,占地2,250英亩,使用SPV结构融资,Meta持有20%股份,项目计划2030年前完成,初期计算能力2吉瓦 […]

发布时间:2025年10月23日
CoreWeave推出专为AI优化的高速对象存储

CoreWeave推出专为AI优化的高速对象存储

快速阅读: CoreWeave推出专为AI工作负载优化的对象存储,解决GPU驱动任务中数据移动瓶颈,提高数据访问速度和效率,支持大规模模型训练,减少成本和操作复杂性。 在部署人工智能工作负载时,随着对数据需求量大的模型的压力增大,存储架构中 […]

发布时间:2025年10月23日
亚马逊展示智能眼镜和机器人,加速最后一公里配送

亚马逊展示智能眼镜和机器人,加速最后一公里配送

快速阅读: 亚马逊在“未来交付”活动上展示智能配送眼镜Amelia,内置小屏提供导航和扫描功能,旨在提高配送效率和安全性,已开始实地测试,同时推出新机器人和AI系统优化仓储与配送流程。 在位于加州米尔皮塔斯的DUR3配送站举行的“未来交付” […]

发布时间:2025年10月23日
Meta裁减AI部门600岗位,加速全球竞赛

Meta裁减AI部门600岗位,加速全球竞赛

快速阅读: Meta重组AI部门,计划裁员600人,旨在缩小规模、加快决策,增强竞争力。首席AI官Alexandr Wang宣布,此举涉及产品、基础设施及研究团队,但TBD实验室不受影响。 Meta正在对其人工智能部门进行重组,计划裁员约6 […]

发布时间:2025年10月23日
马斯克计划年底前扩大特斯拉无人出租车运营范围

马斯克计划年底前扩大特斯拉无人出租车运营范围

快速阅读: 特斯拉计划年底前在8至10个新州推出机器人出租车,包括内华达、佛罗里达和亚利桑那,需克服监管障碍。奥斯汀现有约20辆车,行驶超25万英里,旧金山超100万英里。 马斯克还表示,特斯拉计划在年底前在8到10个新的州运营机器人出租车 […]

发布时间:2025年10月23日