AI

浩瀚深度采用Doris替代ClickHouse,实现超大规模数据分析优化

发布时间:2025年9月5日    来源:szf
浩瀚深度采用Doris替代ClickHouse,实现超大规模数据分析优化

快速阅读: 浩瀚深度选择Apache Doris为核心数据库解决方案,实现超大规模数据处理,单表数据量超13PB,日均导入145TB,显著提升查询效率和降低成本。

浩瀚深度(SHA: 688292)旗下企业级大数据平台选择了 Apache Doris 作为核心数据库解决方案,目前该方案已在全国十余个生产环境中稳定运行。其中最大规模的集群部署于117个高性能服务器节点上,单表原始数据量超过13PB,行数突破534万亿,日均导入数据约145TB,节假日峰值可达158TB,是目前国内已知的最大单表。凭借 Apache Doris 的高可靠性、高性能和高可扩展性,该集群已持续稳定运行超过半年,充分证明了其在超大规模数据场景下的卓越表现。

作为国内互联网流量解析与数据智能化领域的领头羊,浩瀚深度深耕行业三十余年,持续为国内互联网提供高性能、高精度、高可靠的整体解决方案。公司业务涵盖网络可视化、AI智能、数据治理、数据价值挖掘及安全防护,是一家集软硬件产品研发、生产、销售和服务于一体的大型高科技企业。

顺水云大数据平台(StreamCloud)是浩瀚深度自主研发的企业级大数据平台产品,涵盖从数据采集、存储、处理、挖掘、治理到数据共享的完整数据开发流程,帮助企业客户快速构建PB级数据中台。目前,该平台已在通信、金融、交通等领域成功部署超过100个项目,管理数据超过130PB,集群节点规模接近万个。

为满足客户每日写入和查询万亿级增量数据的严格需求,顺水云对MPP数据库产品进行了多轮选型测试,并在实际生产环境中尝试了Greenplum、ClickHouse等多个方案。经过综合对比,最终选定Apache Doris作为核心数据库解决方案。目前,该方案已在全国十余个生产环境中上线,其中规模最大的集群部署于117个高性能服务器节点,单表原始数据量超过13PB,行数突破534万亿,日均导入数据量约145TB,节假日峰值数据量约158TB,且已持续稳定运行超过半年。

早期架构中,数据主要来源于用户上网日志,数据经过采集设备解析还原后发送到接口机,再由接口机上的程序接入HDFS集群,通过Apache Spark处理不同类型的话单,最终写入ClickHouse中,用于日志存储与快速查询、流量质量分析、面向政企市场的用户画像及精准营销等场景。随着业务数据量的增长,对高吞吐的数据写入、亿级数据的秒级响应、海量数据关联查询的需求日益迫切,以ClickHouse为核心的OLAP查询分析引擎体系在使用过程中暴露出写入稳定性差、存储成本高、运维成本高、并发查询能力不足和JOIN能力不足等问题。

为了进一步对比验证Doris的写入和查询性能,团队使用了三台物理机模拟生产环境,对Apache Doris和ClickHouse进行了多项对比测试,包括前缀索引、二级索引和全表扫描测试。测试结果显示,在合理配置索引的前提下,Doris在关键查询场景下表现出显著的性能优势:前缀索引查询速度是ClickHouse的两倍以上;使用BloomFilter索引时,Doris的查询速度领先ClickHouse达两倍;相同场景下,Doris的倒排索引功能使得查询性能大幅提升,速度远超ClickHouse,达到五倍以上;全表扫描方面,两者性能相近,但在特定函数调用上,ClickHouse略占优势。

综合来看,Doris在常用业务查询场景中的前缀索引、BloomFilter和倒排索引性能全面优于ClickHouse。据此评估,迁移至Doris后,查询响应速度预计提升超过两倍。

由于ClickHouse和Doris均为MPP架构数据库,且Doris支持MySQL语法,因此架构变化较小,迁移便捷。只需调整上游Importer写入组件的配置,使其将日志数据直接写入Doris表,并更新下游查询服务的SQL语句以适配Doris语法,即可完成无缝迁移。尽管团队对Doris进行了几TB的数据测试,但考虑到生产环境中日增数百TB的数据量级,加上引入新组件的不确定性,实施初期采取了ClickHouse和Doris并行运行的方式。

在迁移过程中,团队遇到了大批量写入报错、Compaction压力过载、导入异常等问题,并通过与社区交流解决了这些问题。例如,在解决大批量写入报错问题时,团队参考官方文档中的《日志存储和分析》模块参数进行调优,使导入任务恢复正常。在优化Compaction压力过载时,通过调整Bucket数量,使Compaction资源占用恢复正常,BE节点恢复平稳运行。在处理导入异常问题时,通过与社区合作,迅速定位并解决了问题根源。此外,通过使用Broker Load替代Stream Load,不仅减少了数据传输次数,还解放了接口机,提高了效率,机器资源节省超过28%,显著降低了成本并提升了效能。

目前,浩瀚深度已在某运营商客户的环境中使用Doris替换了ClickHouse,构建了新的查询分析平台,服务器规模超过百台,实现了日增数据量峰值近158TB的数据导入。采用双副本、倒排索引和ZSTD压缩后,存储量约为6.5PB,与原始数据相比,Doris中单个副本的压缩率达到了4倍左右。此次升级不仅带来了查询响应、并发能力和稳定性等方面的显著提升,还极大地提高了运维效率。

显著降低硬件资源成本:利用 Doris Broker Load 高效导入机制,释放了原先 ClickHouse 所需的 32 台专用接口机,这些资源可以灵活用于计算或存储,整体硬件成本节省超过 28%。采用 ZSTD 高压缩比格式,在不影响写入速度的情况下,存储资源消耗相比 ClickHouse(LZ4 压缩)减少了 6%。大幅提高查询效率:Doris 出色的索引优化(包括前缀索引、Bloom Filter 和倒排索引)以及多表 JOIN 性能全面超越 ClickHouse,单 SQL 查询响应速度提升了近 2 倍,批量查询任务执行效率提高了近 30%。有效降低运维复杂度与成本:在服务器宕机或硬盘损坏时,Doris 能自动完成副本切换与写入重定向,确保服务连续性。集群扩容或缩容时,Doris 可自动实现 Tablet 的均衡分布,迅速恢复集群负载平衡。借助 Doris 原生 Web UI 和 Grafana 监控,异常节点与磁盘故障能够被迅速定位。

未来规划:未来,浩瀚深度将从以下几个方面重点发展:持续深化 Doris 的湖仓一体化应用,通过 Doris 的 Hive Catalog 功能整合数据仓库资源,统一数据访问接口,实现对全量数据的统一查询与分析;复杂查询加速,在多维度分析、聚合计算等复杂查询场景下,依靠 Doris 强大的整合能力提升查询效率,加快报表生成速度;成本优化,利用 Doris 的冷热数据分层存储等特性,在持续优化查询性能的同时,进一步降低总体存储成本。

最后,衷心感谢飞轮科技技术团队与 Doris 社区对浩瀚深度的持续、专业的技术支持,有力推动了我们的国产化架构转型进程。我们热忱期待更多同行加入 Apache Doris 的应用实践与社区贡献行列,共同丰富其功能生态,扩展函数支持,助力 Apache Doris 在全球 MPP 数据库领域大放异彩。

(以上内容均由Ai生成)

你可能还想读

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

快速阅读: 杭州将率先为“具身智能机器人”立法,促进产业发展。《条例(草案)》经市政府常务会议审议通过,涵盖技术创新、基础设施建设、伦理规范等内容,旨在提升产业核心竞争力,推动产品应用落地。 因包括宇树科技在内的“杭州六小龙”爆火出圈而备受 […]

发布时间:2025年10月23日
以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

快速阅读: 10月23日,上海人工智能研究院举办第三期人工智能能力建设研讨班,来自38个国家的政府官员参与。研讨班旨在落实联合国决议,推动AI国际合作,展示中国AI创新成果,促进全球AI普惠发展。 上海人工智能研究院院长 全球工业人工智能联 […]

发布时间:2025年10月23日
Airbnb称赞阿里开源AI模型:快速且经济

Airbnb称赞阿里开源AI模型:快速且经济

快速阅读: Airbnb首席执行官Brian Chesky称赞阿里巴巴Qwen模型,因其速度快、成本低,助力Airbnb客服代理提升效率,计划扩展多语言支持。中国科技企业开源AI策略获国际认可。 家庭住宿预订平台Airbnb赞扬了阿里巴巴的 […]

发布时间:2025年10月23日
比利时考虑对AI数据中心设电力限制

比利时考虑对AI数据中心设电力限制

快速阅读: 比利时电网运营商Elia考虑限制数据中心电力分配,以防其他用户受影响。自2022年以来,数据中心电力需求激增,2034年预留容量超计划两倍。目前数据中心耗电占全国4%,预计2035年将增至10%以上。 比利时电网运营商Elia正 […]

发布时间:2025年10月23日
荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

快速阅读: 荣耀发布自进化AI原生手机Magic8系列,YOYO智能体实现自动领券、比价等功能,简化购物流程,提升用户体验,覆盖购物、美食、出行等多场景。 10 月 15 日,荣耀发布了首款自进化 AI 原生手机 —— 荣耀 Magic8 […]

发布时间:2025年10月23日
阿里Qwen升级Deep Research:一键生成报告、网页及播客

阿里Qwen升级Deep Research:一键生成报告、网页及播客

快速阅读: 阿里巴巴Qwen团队升级Deep Research工具,集成网页版Qwen Chat,提供研究至发布的全流程体验。新功能支持生成研究报告、交互式网页和多说话者播客,涵盖代码生成、图像渲染和语音合成功能,用户可直接使用无需配置基础 […]

发布时间:2025年10月23日
亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

快速阅读: 亚马逊开发AI智能眼镜,提升送货司机配送效率与安全性,集成AI传感、计算机视觉等功能,支持自动调光与处方镜片定制,正在北美测试并将逐步推广。 【AIbase 报道】亚马逊周三宣布,正为旗下送货司机开发一款 AI 智能眼镜 ,旨在 […]

发布时间:2025年10月23日
通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

快速阅读: 通用汽车宣布将在其2015年及以后车型中集成Google Gemini驱动的AI助手,提供导航、消息发送等服务,强调用户体验和隐私保护,标志着汽车行业智能化新阶段。 通用汽车周三在纽约 GM Forward 大会上宣布,将从明年 […]

发布时间:2025年10月23日