案例研究:使用 GenAI Review 有效组织文档的实践测试
快速阅读: 《JD Supra》消息,本案例研究评估了使用生成式AI(GenAI)进行文档分类的效果,通过四轮提示优化,提升了对复杂法律问题的识别能力。结果显示,GenAI可有效辅助人工审查,结合传统搜索方法提升效率。(98字)
图片:Holley Robinson,EDRM。本案例研究概述了一个实用的框架,用于评估在发现过程中使用Relativity的aiR for Review进行文档组织的生成式AI(“GenAI”)审查。我们设计了一套测试和评估协议,以确定GenAI表现良好时的情况、表现不佳时的情况以及如何构建有效的混合工作流。这些见解旨在指导考虑将GenAI用于文档组织和审查的法律团队。
我们首先采用优先级排序的传统技术辅助审查(“TAR”)工作流程(也称为TAR 2.0)来识别关键战略文件,并对多个问题进行标记。后来,我们需要深入了解7,100份标记了其中一个问题的文件。根据初始审查定义的问题比我们的新信息需求更广泛,因此许多标记的文件与我们现在面临的具体问题无关。此外,新的信息需求相对紧急,因此我们需要快速有效地围绕这些具体问题整理文件。鉴于由专业资深律师确定的子问题的数量和复杂性,我们预计培训和依赖其他审查人员可能会导致结果不一致。这些专业且相互关联的主题需要高水平的专业领域专家。为如此细微的问题快速组建审查团队将颇具挑战性。因此,我们使用生成式AI进行文件审查,以便将文件分类到各自的子主题中,供资深律师高效审查。该过程涉及资深律师创建并完善指令(即提示),指导AI系统在分类文件时遵循。这种方法利用了他们的专业知识,训练一个单一系统,使其能够根据相关子问题一致地对文件进行分类。
A. 审查集:超过7,000个概念相似的文件
首先,我们的团队对收到的生产文件进行了TAR 2审查,以高效识别关键战略文件。案件涉及多个不同的问题,律师在审查期间用问题标签进行标记。在那次审查之后,我们的团队意识到需要快速获得关于一个有7,100个标记文件的问题的更详细洞察。这些标记的文件涉及一个广泛的单一问题,而新的需求则需要对这一问题中的复杂法律和商业子问题有更细致的理解。初始审查的标签比合并后的子问题更广泛,因此许多带有此标签的文件与我们想要识别的新子问题无关。这项任务涉及九个子主题,包含初始问题的部分内容,带来了独特的挑战。由于文件数量庞大,以及我们九个复杂且相互关联的问题的数量和性质,审查将非常耗时。这种复杂性需要大量专业领域专家的投入。为如此细微的问题快速组建审查团队将极具挑战性,分析每份文件以应对九个问题所需的时间也将很大。因此,我们决定使用aiR基于生成式AI的问题审查功能,该功能使用生成式AI来审查文件并根据用户提示预测对多个问题的相关性。aiR对文件进行1-4分的评分,其中1=不相关;2=边缘相关;3=相关;4=非常相关。与通常出于可辩护性考虑而开发的验证驱动型TAR协议不同,我们的目标是开发一种实用且高效的方法,以评估提示是否足够好,用于文档组织、优先排序和问题理解。对九个问题进行正式验证将过于耗时,且不符合我们的目标。我们开发的方法使我们能够专注于实际评估,并获得有关GenAI审查结果的有用反馈,从而指导我们的提示迭代过程,而不必承担正式验证的时间和资源要求。
B. 策划战略性测试集
我们开发了一个三层测试框架来评估Gen-AI审查的表现。基础是Test Set 1,包括每个问题类别中10到15个示例文件,由我们的专业领域专家精心挑选,以代表响应性的全部范围。这些文件作为我们的主要开发集,在多轮测试中不断优化和测量提示。首先,一位资深律师(专业领域专家)确定了大约10-15个每个问题的关键示例,这些文件是我们最想识别的该问题的文档。然后,资深律师对所有选定的示例文件进行了九个问题的标记。我们将这个经过筛选和标记的集合一分为二,以创建Test Set 1和Test Set 2。我们还从更广泛的审查集中随机选择了其他文件,这些文件同样由资深律师标记了九个问题。这些标记的集合作为“真实标签”,用于每次测试轮次中与aiR预测进行比较。这个过程使我们能够开始在Test Set 1上测试提示,并观察优化提示的努力效果。Test Set 1是我们开发提示的主要集,通过迭代改进aiR对每个主题的这些示例文件的识别能力。为了防止过拟合(overfitting)的风险,我们计划使用Test Set 2(来自与Test Set 1相同的筛选池)进行进一步测试和迭代。在这两个集合之间出现一些性能差距是预期的,但显著的差距可能表明提示对Test Set 1过度拟合,需要进一步优化。最后,Test Set 3提供了一个有限的测试,以了解提示在整体审查集上的表现。与筛选集不同,这个集合包含不同问题中重要性水平各异的文件。由于初始问题比九个子问题更广泛,一些抽样文件对更具体的子问题不相关。我们继续审查,直到我们有20个至少对一个子问题相关的样本。虽然这是一个小样本,跨问题的代表性不均,但它会给我们一个关于系统在整体审查集中对相关文件的表现的初步想法。每个审查层级都帮助我们评估以下问题:
Test Set 1(筛选):我们能否教会系统我们的概念?
Test Set 2(筛选):系统是学习了概念还是记住了例子?如果它只是记住了例子,我们能否进一步迭代和改进它?
Test Set 3(代表性):系统在实践中会表现如何?
这种结构化方法提供了一种高效的方式来评估真实性能,并就进一步的提示优化做出策略性决策。尽管传统的TAR工作通常依赖于基于随机抽样的召回率和精确度估计,但我们的针对性方法使用了小型筛选数据集。我们关注的是原始文档数量而不是统计方法,因为这些小型筛选测试集难以直接推广为典型的召回率和精确度指标的总体性能估计。此外,原始文档数量为我们的结果的实际价值提供了更清晰的背景。
C. 提示迭代和测试
我们的迭代提示优化过程集中在提高所有问题的性能上,这一过程经历了四轮提示。从Test Set 1开始,我们跟踪两个关键目标:1)调整提示以找到更多的相关文档(即增加真正例);2)减少aiR对非相关文档的错误响应预测(即减少假正例)。提示迭代和测试对于每个问题,在每一轮中,我们根据aiR的预测与我们的真实标签进行比较来优化提示。资深律师提供了关于被错误分类文件的具体反馈,我们据此优化提示。重要的是,这一迭代过程还揭示了我们可以通过混合搜索策略提高aiR结果的方式,通过其他搜索方法(包括元数据过滤和有针对性的搜索词)补充或缩小结果。
图1. Test Set 1:四轮提示迭代(标准阈值分数)
图1显示了aiR在Test Set 1中每个问题的四轮提示预测结果。绿色和红色条形组合代表每个问题的真实标签文档总数。绿色条形表示aiR在该轮中正确预测为相关的真正例。条形的红色部分是aiR预测为不相关的相关文档,即假负例。下面的灰色条形反映了假正例的数量,即aiR预测为相关的非相关文档。在每一回合中,我们观察到是否成功增加了之前回合的绿色条形,同时减少了红色和灰色条形。大多数问题通过增加真正例和/或减少假正例显示出有意义的改进。有些问题(问题4和9)甚至在第四轮迭代中实现了Test Set 1的完美表现,找到了所有相关文档,没有假正例。提示优化偶尔会降低性能;对于问题5和6,第四轮略微增加了假正例,但没有增加真正例。然而,我们注意到这些轻微的性能下降可以通过我们开发的辅助搜索来解决。提示性能的可视化为我们团队的战略决策提供了指导,判断我们的提示工程努力何时遇到边际效益下降。我们查看了aiR的标准阈值分数(相关性得分为3或4的文档)的结果,如图1所示,以及包括边缘阈值分数(得分为2或更高)的结果,如下面的图3所示。在各个问题中,性能通常几乎没有改进的空间或在第四轮后趋于平稳。在Test Set 1上进行了四轮提示迭代后,我们将Test Set 1的第四轮提示(“优化提示”)应用于Test Set 2。虽然这些提示并不是Test Set 1中所有最佳表现的提示,但我们选择它们是因为我们认为它们与我们开发的辅助搜索结合使用效果最好。正如预期的那样,当应用于Test Set 2时,性能略低于Test Set 1,但结果是可以接受的,特别是考虑到我们计划的混合搜索策略。我们观察到大多数错误都可以通过辅助搜索来解决,因此Test Set 2证实了这些额外的搜索方法是有效的。Test Set 3包含一个更代表整体审查集的随机样本,尽管这些文件通常不如Test 1和Test 2中的文件重要。优化提示在这一组的问题中的表现各不相同。然而,鉴于我们的审查目标、我们对aiR表现良好的地方的理解以及我们对有效辅助搜索的见解,我们决定继续将优化提示应用于我们的整体审查集,并专注于构建使用aiR评分与其他搜索技术相结合的混合搜索策略,以组织和优先处理文件。
在Test Set 1上进行了四轮提示迭代后,我们将Test Set 1的第四轮提示(“优化提示”)应用于Test Set 2。虽然这些提示并不是Test Set 1中所有最佳表现的提示,但我们选择它们是因为我们认为它们与我们开发的辅助搜索结合使用效果最好。正如预期的那样,当应用于Test Set 2时,性能略低于Test Set 1,但结果是可以接受的,特别是考虑到我们计划的混合搜索策略。我们观察到大多数错误都可以通过辅助搜索来解决,因此Test Set 2证实了这些额外的搜索方法是有效的。
图2. “优化提示”在Test Sets 1、2和3上的结果(标准阈值分数)
在Test Set 1上进行了四轮提示迭代后,我们将Test Set 1的第四轮提示(“优化提示”)应用于Test Set 2。虽然这些提示并不是Test Set 1中所有最佳表现的提示,但我们选择它们是因为我们认为它们与我们开发的辅助搜索结合使用效果最好。正如预期的那样,当应用于Test Set 2时,性能略低于Test Set 1,但结果是可以接受的,特别是考虑到我们计划的混合搜索策略。我们观察到大多数错误都可以通过辅助搜索来解决,因此Test Set 2证实了这些额外的搜索方法是有效的。
D. 测试GenAI审查在多个问题组织中的结果和见解
显然,我们预计这个文档集对aiR来说比典型的文档审查集更具挑战性。审查集中的所有文档都已经标记为对一个更广泛的问题具有响应性,这使得它们在概念上是相似的。我们试图识别的九个子问题具有细微差别且相互关联,需要在已经连贯的集合中做出精细区分。总的来说,在7,100份文档中,aiR无错误地分析了6,622份。其中,使用标准相关性阈值,它预测了2,004份文档至少包含一个问题,而4,618份文档不包含任何问题。被预测为不相关的文档样本中有9%是相关的,尽管这些样本中的相关文档的重要性较低。我们的测试表明,生成式人工智能(GenAI)审查对于某些问题比其他问题表现更好。通常,需要细致内容分析的问题表现良好。那些具有基于规则的组件的问题(例如多个标准,如提及公司并讨论某个主题),或依赖日期的问题,其性能有限。例如,问题8与特定的时间范围和特定当事人有关,并且持续产生较高的假阳性率。随着我们通过迭代提示结果审查文档性质,我们确定哪些问题更适合通过元数据和关键词搜索来补充,而不是进一步优化提示。我们通过额外的搜索补充了问题5,而问题8和9则需要同时进行缩小范围和补充。
测试GenAI审查在多个问题组织中的结果和见解显然,我们预计这个文档集对aiR来说比典型的文档审查集更具挑战性。审查集中的所有文档都已经标记为对一个更广泛的问题具有响应性,这使得它们在概念上是相似的。我们试图识别的九个子问题具有细微差别且相互关联,需要在已经连贯的集合中做出精细区分。总的来说,在7,100份文档中,aiR无错误地分析了6,622份。其中,使用标准相关性阈值,它预测了2,004份文档至少包含一个问题,而4,618份文档不包含任何问题。被预测为不相关的文档样本中有9%是相关的,尽管这些样本中的相关文档的重要性较低。开发和优化这些提示需要资深律师的显著前期投入。然后,aiR有效地将他们的专业知识扩展到整个文档集。迭代测试流程指导了我们的提示优化和每个问题适当评分阈值的确定。根据结果,我们还决定大多数问题将使用aiR的标准相关性阈值3。然而,对于问题2和7,我们包含了得分为2的边缘文档。这些特定问题非常重要,测试显示这样可以捕获显著更多的相关文档,假阳性增加在可接受范围内,因此值得权衡。这种混合检索策略是通过测试洞察自然形成的。不同的法律和事实特性具有不同的特点,这些特点更适合不同的搜索方法。生成式人工智能(GenAI)审查作为众多检索工具之一,有助于实现我们的目标,而不是替代其他工具。随后,我们利用这些策略优先进行关键文档的人工审查:首先,高分aiR结果(得分4);然后是标准响应(得分3);对于某些问题,还包括边缘文档(得分2)。对于一些问题,我们在所有分数等级上应用了过滤器以缩小范围。我们还使用了辅助搜索来识别更多相关文档,将这些文档视为标准响应(得分3)。这种结构使我们能够战略性地优先进行关键文档的人工审查。
此案展示了生成式人工智能(GenAI)审查在法律工作流程中的三个关键经验。第一,提示开发和测试的前期投资可能很大(尤其是针对多个问题的提示),但可以使资深律师在处理复杂、细致的问题时扩大他们的专业知识。第二,整个过程中系统性监控可以指导提示优化以及关于评分阈值的战略决策。第三,生成式人工智能(GenAI)审查是另一种可以与传统搜索方法有效整合的检索工具。战略性检索设计涉及理解每个工具的能力,以及不同检索需求的法律和事实特性。
边界分数截止的测试结果:
图3. 测试集1:四轮提示迭代(边界分数截止)
图4. “优化提示”在测试集1、2和3上的结果(边界分数截止)
图3. 测试集1:四轮提示迭代(边界分数截止)
注释参见Relativity aiR for Review,https://www.relativity.com/data-solutions/air/。
本案例研究描述的是对其他方提供的文件生产物进行的工作,不涉及客户数据。有关生成式人工智能(GenAI)在文档审查工作流程中的应用信息,请参阅Omrani等人的文章,《超越界限:生成式人工智能在法律文档审查中的变革性作用》,2024年国际大数据会议(BigData),华盛顿特区,美国,2024年,第4779-4788页,doi: 10.1109/BigData62323.2024.10826089。
TAR 2工作流程包括开发一个机器学习模型,该模型基于人工审查的文档,预测哪些未审查的文档最有可能具有响应性,并将这些文档优先用于人工审查。持续的人工审查会不断训练模型。
参见T. Emory, J. Pickens, W. Lewis,《TAR 1参考模型:统一传统和生成式人工智能(GenAI)方法的科技辅助审查框架》(2024)。在此案例研究中,由于该项目不需要正式验证,我们采用了TAR 1参考模型的系统测试和迭代原则。
过拟合是指系统在特定训练示例上表现良好,但在新的类似文档上无法泛化的情况。在这种情况下,这意味着我们可能会开发出在测试集1上表现完美的提示,但在其他文档上表现不佳,因为提示实际上“记忆”了训练示例,而不是学习重要的更广泛的概念。
(以上内容均由Ai生成)