Apache Doris推HSAP架构支持Agent高效混合搜索
快速阅读: 据最新进展,Apache Doris 4.0推出混合搜索与分析处理(HSAP)架构,统一支持结构化、全文及向量查询,通过单次SQL请求实现多模态检索融合,显著降低延迟,并提升RAG等智能应用的准确性与实时性。
人工智能时代正深刻重塑数据库的功能定位。过去,数据库主要用于支持人工分析与报表查询;如今,越来越多的查询请求来自智能代理(Agent),需实时从数据库中检索、过滤并融合多源信息,以支撑其推理与决策。
这一转变对数据库的检索能力提出更高要求。传统单一搜索模式——无论是关键词还是向量检索——在面对复杂、多模态的Agent查询时,往往难以兼顾结果的全面性、语义精确性与执行可控性。为此,数据库亟需集成结构化分析、全文检索与向量语义搜索三大能力,构建高效的混合搜索体系。尤其在检索增强生成(RAG)等应用中,混合搜索已成为抑制幻觉、提升相关性与保障实时性的关键基础。
当前,部分系统采用“向量库+搜索库+OLAP库”拼接架构实现混合搜索,但存在明显短板:数据冗余导致ETL流程复杂,更新同步延迟高;查询链路多次跳转,显著增加响应时间;各系统数据版本不一致,影响结果稳定性;且缺乏统一调度机制,无法优化全局执行计划。此类“数据烟囱”问题严重制约了RAG、智能推荐等低延迟场景的实际落地。
相较之下,混合搜索与分析处理(HSAP)架构提供更优解。该模型在同一引擎内统一处理结构化、文本与向量查询,并通过协同优化器实现高效执行。用户仅需提交一次SQL请求,系统即可并行执行多类搜索任务:倒排索引完成关键词匹配,ANN索引实现语义召回,结构化条件则作为前/后过滤参与全过程。最终,各路径结果经RRF算法融合,并由OLAP引擎完成聚合分析,整体延迟远低于多系统串联方案。
Apache Doris是HSAP理念的重要实践者。自2.x版本起步,至4.0版本已建成文本与向量并重的混合搜索体系。其通过统一存储、执行引擎与SQL接口,将三类能力深度整合。在文本搜索方面,Doris采用外挂式倒排索引,支持异步构建、增量更新与自定义分词,并引入BM25相关性评分,在日志分析等场景显著提升准确性。其分布式BM25计算分三阶段完成:全局统计、分片并行打分、结果归并,兼顾效率与精度。
在向量搜索方面,Doris 4.0内置HNSW与IVF两类ANN索引,分别适用于高精度语义检索与大规模可调精度场景。系统支持Top-K近邻、范围查询及组合过滤等多种模式,并允许异步构建索引以降低写入影响。尽管当前主要采用FLAT编码,后续亦将探索更高效的量化机制,以应对超大规模向量挑战。
(以上内容均由Ai生成)
引用自:InfoQ网站