Apache Doris推HSAP架构支持Agent高效混合搜索

发布时间:2025年12月20日    来源:szf
Apache Doris推HSAP架构支持Agent高效混合搜索

快速阅读: 据最新进展,Apache Doris 4.0推出混合搜索与分析处理(HSAP)架构,统一支持结构化、全文及向量查询,通过单次SQL请求实现多模态检索融合,显著降低延迟,并提升RAG等智能应用的准确性与实时性。

人工智能时代正深刻重塑数据库的功能定位。过去,数据库主要用于支持人工分析与报表查询;如今,越来越多的查询请求来自智能代理(Agent),需实时从数据库中检索、过滤并融合多源信息,以支撑其推理与决策。

这一转变对数据库的检索能力提出更高要求。传统单一搜索模式——无论是关键词还是向量检索——在面对复杂、多模态的Agent查询时,往往难以兼顾结果的全面性、语义精确性与执行可控性。为此,数据库亟需集成结构化分析、全文检索与向量语义搜索三大能力,构建高效的混合搜索体系。尤其在检索增强生成(RAG)等应用中,混合搜索已成为抑制幻觉、提升相关性与保障实时性的关键基础。

当前,部分系统采用“向量库+搜索库+OLAP库”拼接架构实现混合搜索,但存在明显短板:数据冗余导致ETL流程复杂,更新同步延迟高;查询链路多次跳转,显著增加响应时间;各系统数据版本不一致,影响结果稳定性;且缺乏统一调度机制,无法优化全局执行计划。此类“数据烟囱”问题严重制约了RAG、智能推荐等低延迟场景的实际落地。

相较之下,混合搜索与分析处理(HSAP)架构提供更优解。该模型在同一引擎内统一处理结构化、文本与向量查询,并通过协同优化器实现高效执行。用户仅需提交一次SQL请求,系统即可并行执行多类搜索任务:倒排索引完成关键词匹配,ANN索引实现语义召回,结构化条件则作为前/后过滤参与全过程。最终,各路径结果经RRF算法融合,并由OLAP引擎完成聚合分析,整体延迟远低于多系统串联方案。

Apache Doris是HSAP理念的重要实践者。自2.x版本起步,至4.0版本已建成文本与向量并重的混合搜索体系。其通过统一存储、执行引擎与SQL接口,将三类能力深度整合。在文本搜索方面,Doris采用外挂式倒排索引,支持异步构建、增量更新与自定义分词,并引入BM25相关性评分,在日志分析等场景显著提升准确性。其分布式BM25计算分三阶段完成:全局统计、分片并行打分、结果归并,兼顾效率与精度。

在向量搜索方面,Doris 4.0内置HNSW与IVF两类ANN索引,分别适用于高精度语义检索与大规模可调精度场景。系统支持Top-K近邻、范围查询及组合过滤等多种模式,并允许异步构建索引以降低写入影响。尽管当前主要采用FLAT编码,后续亦将探索更高效的量化机制,以应对超大规模向量挑战。

(以上内容均由Ai生成)

引用自:InfoQ网站

你可能还想读

中科曙光发布万卡AI超算集群

中科曙光发布万卡AI超算集群

快速阅读: 记者从中科曙光获悉,该公司于12月19日在江苏昆山发布国内首个万卡级人工智能超算集群scaleX平台,总算力超5 EFLOPS,将为科研机构及企业提供高效算力支持,推动AI基础设施建设与产业应用落地。 12月19日,总部位于北京 […]

发布时间:2025年12月20日
谷歌AI模式日活达7500万

谷歌AI模式日活达7500万

快速阅读: 据Ahrefs消息,谷歌AI Mode日活用户已达7500万,Gemini 3 Flash模型已全面部署,以提升响应速度与多轮对话能力;但I/O大会宣布的个性化上下文功能仍处内测,尚未上线。 谷歌AI搜索功能用户规模迅速扩大,但 […]

发布时间:2025年12月20日
AI泡沫破裂 董事会或担责

AI泡沫破裂 董事会或担责

快速阅读: 12月20日消息,据NERA报告,2025年上半年美国提起13起AI相关证券诉讼,远超2024年全年的16起,主要因企业夸大AI收益或淡化风险,已引发监管对信息披露真实性的严查。 据NERA报告,2025年上半年,美国提起的与人 […]

发布时间:2025年12月20日
Uber称AI应用已带来数亿美元收益

Uber称AI应用已带来数亿美元收益

快速阅读: 截至发稿时,优步CEO科斯罗萨希在声明中表示,公司聚焦AI实际应用而非底层硬件投入,已通过智能推荐和故障诊断等场景创造数亿美元效益,并加快工程师招聘以提升人效。此外,优步正深化与Waymo等自动驾驶企业合作,探索平台化运力整合模 […]

发布时间:2025年12月20日
英国政府发布AI与版权临时政策

英国政府发布AI与版权临时政策

快速阅读: 据英国政府方面消息,该国于近日发布人工智能与版权政策中期更新,计划建立“退出机制”,允许AI企业默认使用受版权保护作品进行训练,除非权利人提出反对。此举引发创意产业强烈反弹,作家协会等组织已发起“公平对待”运动,并呼吁强制披露训 […]

发布时间:2025年12月20日
2025年AI生成虚假信息被揭穿

2025年AI生成虚假信息被揭穿

快速阅读: 据外媒报道,2025年以来,多起AI伪造视频在社交平台传播,涉及萨拉赫、蕾哈娜及非洲政要等,内容均被证实为虚构。此类虚假信息常通过镜像翻转、AI语音或生成图像制作,部分虽标注“讽刺”仍误导公众,凸显提升辨识能力的紧迫性。 202 […]

发布时间:2025年12月20日
多伦多科技领袖推“代理AI”新战略框架

多伦多科技领袖推“代理AI”新战略框架

快速阅读: 据多家机构披露,数字产品转型专家亚杜·卡拉纳林甘指出,大语言模型热潮已进入“宿醉期”,业界正从聊天机器人转向能主动完成任务的智能代理。 数字产品转型专家亚杜·卡拉纳林甘指出,当前正处于大语言模型热潮过后的“宿醉期”。过去两年,众 […]

发布时间:2025年12月20日
Krafton联合韩企设6000亿卢比基金聚焦印度科技

Krafton联合韩企设6000亿卢比基金聚焦印度科技

快速阅读: 据路透社报道,美国政府正审查是否首次批准英伟达H200 AI芯片对华出口。该芯片是美方第二强的AI处理器,若获批将被征收25%附加费。批评人士警告此举可能助长中国军事与AI发展,并被前拜登政府官员认为是“重大战略失误”。 韩国企 […]

发布时间:2025年12月20日