贝壳商机平台利用NL2SQL技术实现高效指标查询

快速阅读: 门店商机管理助手利用智能化工具提升店东管理效能，通过Chat交互和GUI可视化分析，优化经纪人作业流程，提高商机转化率。NL2SQL技术实现自然语言查询，精准生成SQL，提升数据查询与业务决策效率。

### 门店商机管理助手助力门店业绩增长

门店商机管理助手是专为店东打造的智能化管理工具。该工具整合了门店旗下经纪人作业过程中的关键指标数据，结合客户沟通场景的深度数据挖掘，实现多维度对比分析，精准定位业务薄弱环节，并基于数据分析结果输出针对性建议和举措。店东可以根据这些建议和举措对经纪人进行有效管理，帮助经纪人优化作业流程、提升专业服务能力，最终实现商机转化率的显著提升，为门店业绩增长构建数据驱动的管理闭环。

门店商机管理助手采用“Chat 交互 + GUI 可视化”混合形态构建工具矩阵，既支持通过智能对话引擎为店东提供实时业务指标咨询、数据解读及策略建议，如经纪人作业优化方案、客户沟通话术指导等，又依托图形用户界面打造可视化数据看板，直观呈现经纪人作业过程指标，如商机、转化、客户解读等。这种“对话式交互 + 可视化分析”的双引擎模式，帮助店东兼顾动态决策的灵活性与数据管理的精准性，实现从“数据洞察”到“业务优化”的全流程效率提升。

### 作业指标查询-NL2SQL 通用方案对比

作业指标查询是门店商机管理助手的核心能力支撑模块，其底层依托商机指标平台构建的标准化数据底座，实现指标建模、指标加工到数据存储的标准流程。作为工具的数据根基，指标平台不仅提供指标数据，还提供指标字典和元数据的定义。在此基础上，作业指标查询功能结合 Chat 智能交互引擎，系统可自动响应自然语言查询指令，如“查询门店转带看率周环比”，并同步输出优化建议，形成“数据查询 – 智能分析 – 策略生成”的闭环能力，确保店东基于精准数据底座驱动业务决策，夯实商机转化的过程管理根基。

### NL2SQL 实践

#### 3.1 方案选择

在构建自然语言查询能力的过程中，我们选择了基于 NL2SQL 技术方案，主要基于以下考虑：

1. 应用场景灵活，适配用户查询需求。自然语言查询具备良好的通用性和可扩展性，用户可以通过一句话完成如“查询昨天北京 ccc 门店的带看量”、“近 7 日转化率趋势”等查询请求，无需深入了解字段、表结构和查询语法。

2. 良好的基础设施支撑。商机指标平台基于 Apache Doris 数据仓库构建，在表结构、指标体系和查询优化方面已形成规范化体系。平台特性天然适配 NL2SQL 技术的快速落地，具体体现在：

– 统一的数据存储引擎：平台底层基于 Doris 构建，无需适配多种异构数据源，SQL 接口统一，执行逻辑简洁。

– 清晰的指标字段映射：商机平台中的基础指标如“商机量”、“带看量”、“成交量”等在 Doris 表中均有明确字段表示，且已通过指标管理系统进行口径定义，无需额外引入 DSL 层来做字段转换和口径解释，降低了技术实现复杂度。

– 标准化的数据维度：包括时间字段（如 occur_date）、组织维度（如 agent_id, shop_id, area_id）等均已完成统一命名和格式化处理，使自然语言问题可快速对齐到字段层，无需复杂的语义映射或 JOIN 推理逻辑。

– 减少复杂 JOIN 推理：平台核心查询指标相同类型和维度会聚合在宽表中，JOIN 逻辑简化，减轻了大模型推理和结构生成负担。

综上所述，商机指标平台具备清晰的指标管理、标准化的数据模型和存储方案，极大提升了 NL2SQL 方案的实施可行性和准确率。当有新的指标接入指标平台时，这套方案无需任何开发，即可查询指标数据。

#### 3.2 难点及解决方案探索

##### 3.2.1 难点

1. 自然语言复杂性：NL2SQL 准确率问题。仅使用表结构进行 SQL 生成，如何准确定位多张表的多个字段？

2. 增强语义理解：用户的自然语言输入形式多变，语义理解可能存在歧义或不完整情况，尤其在涉及口语化表达、上下文省略或多轮对话时，系统需要具备足够的智能去理解、引导并修正用户意图。

3. 提升 SQL 生成准确率：NL2SQL 任务的核心挑战在于如何精准映射自然语言到具体 SQL 结构，提升准确率成为系统成功的关键。

4. SQL 风险控制：由于 SQL 由自然语言自动生成，安全与性能控制尤为重要，系统需避免出现破坏性或高开销的 SQL。

##### 3.2.2 解决方案探索

1. **增强语义理解**

– 指代消歧：用户可能使用“谁”、“人员”、“人”等含糊词汇指代“经纪人”，系统结合当前查询上下文、字段使用频率、实体别名等方式进行判别。例如：“查询昨天谁的商机量最多”，需解析为“查询昨天哪个经纪人的商机量最多”。

– 多轮对话承接与补全：对于多轮查询，如用户首次提问“查询张三商机量”，后续接着问“那他最近 7 天趋势呢？”，需承接历史语义补全主体“张三”以及指标上下文。

– 错误纠正与引导推荐：当用户提问超出系统支持指标集合或维度组合，如“查询门店业绩波动指数”，系统需反馈：“暂不支持‘业绩波动指数’指标，可查询‘门店业绩总额’、‘门店环比增长率’等。”并填充默认数据。例如，对于同一类型，默认指标为 non_private_opportunity_count（非私域商机量）。

– 领域词义补充与转换：某些术语为行业内部通用缩写或复合指标，例如“三好经纪人”代表“响应率 > x 且转化率 > y 且商机量 > z”的组合条件。我们通过在知识库中维护这些业务语义解释，辅助模型做规则展开，生成对应的 WHERE 条件组合。

2. **提升 SQL 生成准确率**

– 构建指标知识库：为每个业务指标维护其名称、口径定义、所依赖字段、所属表、维度限制等信息。系统通过召回 Top-N 相关指标，用于提示语生成或直接使用指标生成 SQL 模板。

– 处理衍生指标：对于没有直接字段映射的衍生指标（如“转成交率 = 成交量 / 商机量”），维护计算公式，并解析依赖字段及所属表信息，辅助模型根据多字段 + 表达式组合生成 SQL 语句。

– 时间格式规范化：将用户自然语言中提到的“今天”、“上周”、“近三月”等模糊时间统一转换为 Doris 兼容时间格式，如 DATE ‘2025-06-01’，避免 SQL 语法错误和执行失败。

– Few-shot 示例增强：构建覆盖常见场景（如商机量按城市分布、转化率趋势、多维度 TOP 排行等）的问题-SQL 对，以 few-shot 方式加入 Prompt，提升大模型泛化能力与结构一致性。

3. **SQL 风险控制**

– 类型限制：限制仅支持 SELECT 语句执行，禁止更新、插入、删除操作，防止 SQL 注入与数据污染。例如，“更新张三商机量为 100”的 SQL 会被判定为非法。

– 语法与语义校验：执行前进行 SQL 语法解析与语义验证，确保所有字段在表结构中存在、语义逻辑合理。

– 默认限制与提示：时间范围控制：若用户未明确限定时间段，系统默认设置最近 7 天或当月范围，避免无意全表扫描。结果数量控制：若查询未设置 LIMIT，系统自动添加如 LIMIT 100 以限制数据返回量，避免过大结果影响前端加载。

– 查询计划分析与反馈：在某些关键查询场景中，系统会调用 Doris EXPLAIN 语句分析执行计划，若出现全表扫描、索引缺失等问题，给予提示并建议优化查询方式。

4. **MCP Server 支持 – 降低维护成本**

– 基于上述方案实现 workflow 执行流程为人工拆解和编排。

LLM与MCP Server通过工具链协同和任务流程优化，显著提升了NL2SQL的性能和可靠性，将人为任务拆解流程交给LLM，通过COT方式拆解和执行。

MCP Server提供以下工具，提升SQL生成质量，完成取数逻辑：

– get_schema：提供Doris表结构信息（表名、字段名、数据类型、约束），帮助NL2SQL准确映射用户意图到字段。

– sql_query：执行SQL，返回查询结果。

– sql_valid：通过语法和语义校验，确保生成的SQL合法且安全，防止无效查询或SQL注入。

– sql_explain：分析SQL的执行计划，识别潜在性能瓶颈（如全表扫描），并建议优化策略（如添加索引）。

MCP Server结合LLM的Function Calling+ReAct和Chain-of-Thought能力，优化SQL生成策略：

– Function Calling：LLM通过调用MCP Server的工具接口（如Schema查询、SQL验证），动态获取元数据和校验结果，提升生成准确性。例如，LLM调用Schema接口确认字段类型，确保时间格式正确。

– COT：通过分步推理，LLM自动调整SQL生成策略。例如，面对复杂查询（如“查询响应率低的经纪人，并进行周商机量对比”），COT将其分解为子任务（解析术语、匹配字段、生成条件），提高查询质量。

– 性能优化：结合执行计划分析，自动添加性能优化条件（如时间范围、LIMIT），避免低效查询。

LLM与MCP Server的结合，将人为任务拆解流程交给LLM，通过COT方式实现自动化分步推理，有效解决了NL2SQL中的语义理解、表关联和查询优化难题，实现了从自然语言到高效SQL的智能转换。

为了全面测评NL2SQL的可靠性，参考了业内通用评价体系：精确匹配率和执行正确率。

– 精确匹配率（EM）：衡量生成的SQL是否与标准答案完全一致。这是一个严格的度量标准，但并不总是反映实际效果。

– 执行正确率（EX）：只要两个查询在相同输入下产生相同的输出结果，就被视为成功。这种方法更能体现功能上的等效性。

以上评价体系都无法更精准地测评NL2SQL的准确率。为了提高EM，将SQL拆解成多个模块进行对比分析，达到SQL逻辑一致的效果，最终得到测评结果。

为全面覆盖商机指标查询场景，设计了多样化的评测集，包含问题构建和Golden SQL构建。

– 问题构建：评测集分为三类查询，覆盖简单到复杂的场景

– 简单查询：明确的时间、指标和维度，代表基础查询需求。

– 中难度查询：涉及指标环比、指标趋势、Top排行等，需处理复杂逻辑。

– 语义问题查询：包含指代消歧和模糊问题，测试语义理解能力。

– Golden SQL构建：为每个查询提供标准SQL，需验证过的，确保准确性和性能（如使用索引、避免全表扫描）。Golden SQL存储在评测集中，作为评测基准。

NL2SQL评估通过SQL模式对比算法进行对比，判断SQL执行的逻辑是否相同，并通过SQL执行引擎判断SQL的执行结果是否符合预期。只有两个完全一致才符合要求，如果有一个不一致则进入人工评估。最终经过系统和人工评估，在商机指标查询场景准确率可达93%。

LLM与MCP Server通过工具链协同（Schema感知、SQL验证、执行计划分析）和任务流程优化（Function Calling、COT），显著增强了NL2SQL在商机指标平台中的性能和可靠性。COT方式将人为任务拆解流程自动化，解决了语义理解、表关联和查询优化难题。语义对齐（指代消歧、纠错提示、领域知识补充）、准确率提升（指标知识库、衍生指标、时间规范化、Few-Shot）和SQL风险控制（注入防控、性能优化）确保了查询的准确性、安全性和高效性。NL2SQL评测通过多样化的评测集（简单查询、中难度查询、语义问题查询）和模块化拆解（SELECT、FROM、WHERE等），结合EM（精确匹配率）、EX（执行正确率）和模块准确率，精准验证了系统的性能，综合准确率达93%。而相较于NL2DSL，NL2SQL开发成本低、生态成熟，完美适配单一Doris集群、指标直接映射的场景。

为进一步提升NL2SQL的适用性，计划在以下方向持续探索：

1. 指标RAG（Retrieval-Augmented Generation）

– 目标：构建更智能的指标检索和生成机制，通过RAG技术增强LLM的上下文理解能力。

– 实现：将指标知识库与向量数据库结合，基于用户查询检索最相关指标、表结构和计算公式，动态注入LLM的提示词。

– 价值：RAG可减少对预定义规则的依赖，增强对复杂指标和动态口径的处理能力，适配多变业务场景。

2. NL2SQL模型微调

– 目标：通过领域特定数据微调LLM，提升商机指标查询场景的适配性。

– 实现：收集更多用户查询-SQL对数据集，结合评测集中的复杂查询（如环比、Top排行、语义问题），优化指代消歧、术语解析和SQL生成质量。

– 价值：微调后的模型将更精准理解业务术语（如“三好经纪人”）和复杂逻辑，提升EM和EX指标。

3. COT对复杂查询任务的拆解和执行

– 目标：进一步优化COT推理，处理更复杂的查询场景（如多表关联、嵌套子查询、动态口径）。

– 实现：通过设计更细粒度的COT模板，将复杂查询拆解为更小的子任务（如指标解析、表关联推理、条件生成、性能优化），并结合MCP Server的工具链动态调整执行策略。