开源“Parlant”修复了 Enterprise GenAI 聊天机器人中的幻觉

快速阅读: 据《印度分析杂志》最新报道，帕兰特是一个开源对话AI引擎，由专业团队开发，通过控制预批话语解决LLM幻觉问题，确保可控且自然的响应，支持多LLM提供商，并提升指令遵循能力，已在多家大型金融机构应用。

生成式人工智能的能力促使企业探索其在客户服务中的潜力，但潜在的技术障碍依然显著。近期被称为“地球上其他任何人都无法解决的巨大工程问题”的大型语言模型（LLM）“幻觉”暴露了部署面向客户的AI企业面临的不可接受的风险。幻觉现象的发生，是因为从根本上讲，LLM通过概率性的、逐个标记的自回归过程生成响应。模型会从一个庞大的“标记词汇表”中持续选择它认为最有可能的标记，这个词汇表可能包含数十万个标记。例如，OpenAI的GPT-4o的词汇量接近20万标记。这种标记选择过程本质上容易出错，因为每个概率性预测都仅仅依赖于前面的上下文。这通常会导致多种类型的幻觉以及对关键服务协议的偏离。这种不可预测性在一致行为不可协商的高风险环境中构成了重大挑战。一些人试图通过传统方法解决聊天机器人中的不可预测性，比如使用僵化的流程图来限制LLM的响应，正如在LangFlow、LangGraph或Rasa等框架中所见。这些解决方案引导交互沿着线性路径进行，但这已经表明在处理涉及多个意图和对话路径的实际查询时，往往难以应对设计者愿景之外的情况。此外，在这些情境中调整响应通常需要繁琐的手动修改流程和脆弱的提示调整，这可能导致协议违规和非预期后果。即便如此，关键性幻觉仍然以不可接受的水平出现。例如，如果你已经设法将准确性提高到前所未有的99%，那仍然意味着一家每天处理100万次对话的银行每天要面对1万次新的客户界面错误，其中许多错误的范围和严重程度可能是无限的。这就是为什么企业仍然对部署面向客户的生成式AI持谨慎态度。然而，随着帕兰特（Parlant）——一个已被世界上一些最大的金融服务公司采用的框架——这一情况正在开始改变。

修复LLM的阿喀琉斯之踵
帕兰特采用了一种根本不同的方法，开发了一个开源的对话式AI引擎，使开发者能够掌控他们面向用户的AI代理。帕兰特由埃姆西（Emcie）创建，这是一家新兴的创业公司，拥有来自微软、亿创（EverC）、Checkpoint和Dynamic Yield的领先软件工程师，以及魏茨曼科学研究所的自然语言处理（NLP）研究人员，与来自对话设计研究所的世界级对话设计专家合作。帕兰特实现了一个AI对话建模系统，可以从预先批准的“话语”中动态控制的选择中自动定制响应。利用这些新的对话建模范式，组织可以在保持LLM预期的自然性和灵活性的同时，精确控制生成式AI通信，因为操作员和设计师可以管理和优化话语，并根据提供的环境意识和指南，由帕兰特的引擎智能地应用它们。

为了简化原型制作期间的话语创建，帕兰特提供了一种“流体组合”模式，其中AI生成自然响应。这种模式允许对话设计师提取并调整这些自动生成的响应为已批准的话语，同时在开发过程中迭代地试验他们的AI代理。一旦建立，系统切换到“严格”模式，仅使用预先批准的话语构建响应。这确保了可预测性和控制力，同时保留了AI通过智能利用大量已批准的话语，利用LLM的自然能力精确选择最佳响应的能力。

帕兰特在运行时分析对话上下文，确定相关的话语候选集，并动态应用它们生成响应。它还基于上下文过滤和选择指南，使开发人员能够在不牺牲扩展代理复杂性能力的情况下，对其代理实现高度的行为控制。这种运行时的指南过滤使开发人员能够在支持更多对话用例的同时，在许多不同情况下保持LLM的专注行为。此外，帕兰特让你轻松排查任何给定响应中每个话语的应用方式和原因。这是通过在话语选择过程中由LLM产生的高度描述性和可解释的日志输出实现的。

作为一个开源项目，帕兰特是LLM无关的，这意味着它通过多个推理提供商支持多个LLM提供商，包括OpenAI、谷歌、Meta和Anthropic。提示层面的创新提升了LLM指令遵循能力。

帕兰特确保LLM产生一致和预期结果的能力在于团队专注于获取对LLM控制的研究方向。今年早些时候，帕兰特背后的初创公司埃姆西发布了一项名为《专注推理查询（ARQ）：优化大型语言模型指令遵循的系统方法》的研究报告。该研究概述了优化LLM指令遵循的方法。与自由形式推理方法如链式思维（CoT）不同，专注推理查询（ARQs）通过系统化、针对性的查询引导LLM，强化关键信息和指令，防止幻觉和注意力漂移。研究还显示了测试结果，其中ARQs在正确解释和应用指令方面达到了90.2%的成功率，优于CoT推理和直接响应生成。研究还揭示，ARQs在精心设计时有潜力比自由形式推理更具有计算效率更高的特性。

(以上内容均由Ai生成)