多维数据回归:电子发现的演变 — 从书面记录到 AI

发布时间:2025年3月27日    来源:szf
多维数据回归:电子发现的演变 — 从书面记录到 AI

快速阅读: 据《JD Supra》称,欢迎来到《多维度数据回归》,探讨数据分析与法律的交汇点。香农·卡普翁·柯克和大卫·亚诺夫斯基讨论了电子取证、数据治理及生成式AI对法律实践的影响,强调了数据管理和信息安全的重要性。

欢迎来到《多维度数据回归》,这是罗普斯格雷律师事务所洞察实验室推出的四集播客系列,探讨数据分析与法律的交汇点这一主题。在这第一集中,我们将与罗普斯格雷高级电子取证和人工智能战略小组管理合伙人及全球负责人香农·卡普翁·柯克,以及罗普斯格雷洞察实验室的数据洞察、分析和可视化部门负责人大卫·亚诺夫斯基一起深入探讨电子取证、数据治理以及生成式人工智能(“GenAI”)对法律实践的影响。了解技术如何改变法律专业人士处理电子数据的方式,并学习在当今数字时代管理信息的最佳实践方法。

大卫·亚诺夫斯基:大家好,欢迎来到《多维度数据回归》,这是一个深入探讨数据分析与法律交叉领域的节目。

香农·卡普翁·柯克:大家好,我是香农·卡普翁·柯克,罗普斯格雷高级电子取证和人工智能战略小组的管理合伙人及全球负责人。

大卫·亚诺夫斯基:香农,我很高兴我们能进行这次对话,因为我终于有机会问你一个我多年来一直想问你的问题,那就是“什么是电子取证?”

香农·卡普翁·柯克:很好,谢谢你的提问,大卫。“电子取证”这个词很重要的一点是回顾历史,看看电子取证是如何变得包罗万象的。但让我们回到大约2006年,人们可能会对它确切的开始时间有所争议,但对我来说,我认为最大的变化和电子取证的兴起出现在2006年左右。如果我们在1998年开始执业——也就是比2006年早八年——我们那时主要不是通过电子方式进行取证的,就像我们现在这样。事实上,有段时间,我和我的初级同事会在某个仓库里处理纸质文件,或者在随机的文件柜中寻找与诉讼相关的文件以便提交——这就是当时的情况。

我知道很多人都知道这一点,但如果不是从1990年代到2000年代初开始从事法律工作的人,可能不了解这一点,但这确实是当时的情形。无论如何,到了2006年左右,人们开始更多地使用电子邮件。黑莓手机也很流行。我确实怀念那些日子——那时候要简单得多。人们开始意识到,“你知道吗?这是一头完全不同的动物。”当时我们并不真正懂得如何提取这些数据、搜索它们,并将其放入一个可以有序审查的工具中。在我之前工作的事务所,我和另一位合伙人越来越多地处理这些电子数据,似乎所有的案件团队都会来找我们,所以我们组建了一个委员会。那是那个事务所乃至许多事务所中首个——至少我认为是——电子取证委员会。

在同一时期,有一个被称为“里程碑式”的电子取证案件,Zubulake案,实际上是一系列判决意见。我不知道是谁首次提出了“电子取证”这个概念,但随着这个案件以及随后在2008年出台的规则变更,用于处理联邦民事诉讼规则中所谓的“电子存储信息”(“ESI”),它逐渐成为一种简短的方式来表示带有电子组件的取证,将两者结合起来,你就得到了电子取证。

起初,它只是诉讼律师解决“我们如何处理所有这些电子邮件”的一个办法,无论是在线系统还是备份磁带。记住,在很久以前,云电子邮件还不常见,所以我们讨论的是客户的邮件服务器——物理设备。然后,显然,它呈指数级扩展,涵盖了所有形式的电子数据以及“如何保存、提取和审查这些数据用于诉讼或调查”。数据库、基于云的系统,你想到的任何东西——只要是电子的。

但是,它又发生了变化,并且一直在演变。现在,它还包括机器学习。如今,我们开始应用生成式人工智能(“GenAI”),但它也涉及网络安全问题、数据泄露以及信息治理。换句话说,我们如何处理大型客户的企业电子数据,无论是员工相关的还是大规模数据库系统?我们在进入诉讼或调查之前如何处理和管理这一切?我们如何管控它?这有点像《囤积者》节目的数字化版本——我们如何清理房屋并在预见下游成本和风险的情况下保持秩序?

大卫·亚诺夫斯基:很有趣,你立刻提到了囤积。我马上联想到了图书管理员。有多少公司像图书管理员,又有多少像囤积者?

香农·卡普翁·柯克:我脑海中有几个例子,它们是最具代表性的两端案例。我无法给出具体比例,但我想到一家我非常熟悉的公司,他们非常整洁——他们在组织方面堪称国会图书馆的典范。

大卫·亚诺夫斯基:是什么让他们与众不同?他们有什么样的企业文化使得他们在这一领域表现如此出色?

香农·卡普翁·柯克:文化。这是一个很好的总结,因为这就是它——一种文化。当他们生成数据时,他们会考虑到数据的整个生命周期,从创建、存储到实际使用,然后考虑他们需要为灾难恢复保留多少备份数据。接着是“当我们进入诉讼时意味着什么?我们必须审查这些数据的成本是多少?如果我们没有保存义务且没有保存用途,为什么要保留它们?”这是一种心态和文化,需要很强的纪律性,因为在大多数大型组织中,有时会有成千上万甚至数十万人,所以这必须成为每个人都需认真对待的核心理念。但有一点是,如果没有投资回报(“ROI”),它往往会被人忽视。清理房屋并保持数字房屋的整洁没有太多的投资回报。只有在遭遇大规模诉讼或调查时,这种投资回报才会显现出来。有些组织已经经历过这个痛点,意识到了这一点并开始改变企业文化,但我们的一些客户一开始就那样,也许是因为他们的领导者来自其他出现问题的组织。

大卫·亚诺夫斯基:我想稍微满足一下自己的好奇心。你提到一些公司,即使它们的数据保存得井然有序,类似国会图书馆的方式,也会说,“为什么我们要保留这些东西?”随着公司开始思考大型语言模型和生成式人工智能,关于保留信息的时间长度,以便为其业务生成定制AI模型,这种对话是否已经发生变化?

香农·卡普翁·柯克:这取决于你跟谁交流。如果你跟研发部门(R&D)交流,或者跟那些有创意任务在身的人——创造某种东西或制造某种东西的人——或者销售部门的人交流,他们想要竞争优势,会希望拥有尽可能多的数据。特别是对于大型语言模型(LLMs),他们希望拥有尽可能多的信息。如果你跟法律或合规部门交流,情况就不同了。对于LLMs而言,问题是“我们需要保留X、Y、Z信息多久,存放在哪里,谁有权访问?”所以,你既有这两种张力,但现在这种张力更为突出,我认为这不是坏事。对我来说,LLMs的出现带来的积极影响之一是突显了长期存在的这种张力,但这种对话发生得更早了,这很有益处,因为在过去,这种对话通常是在系统实施之后或数据保留过久之后才发生的,而现在,法律和合规部门被更早地引入思考围绕GenAI和LLMs能够从一开始就访问公司数据的所有风险。

大卫·亚诺夫斯基:我想稍微回到开头。听起来电子取证从最初的版本开始,可以说始于2006年的版本。2006年的电子取证版本现在就是我们所说的“取证”。现在,我们的所有文档都是原生数字的,我们的所有通信几乎都是原生数字的,即使是电话记录,元数据可能会被捕捉,或者我们的所有电话都可能被录音,这取决于我们工作的公司及其要求。那么,今天我们讨论电子取证与取证的区别在哪里?

香农·卡普翁·柯克:信不信由你,这可能是个有点敏感或戏剧性的问题和答案。如果你愿意进入我们的小世界,你会发现电子取证中其实充满戏剧性,就像任何微小的世界一样,总会有些戏剧性。我会说,对我来说,我认为两者没有区别。去查阅你们当地的律师协会规则和要求,尤其是当地的法院,几乎所有法院都要求诉讼律师对电子数据及其对客户的意义有基本理解。所以,对我来说,电子取证就是取证。作为一名电子取证专家,我也必须处理纸质取证。当我们处理复杂的诉讼——实际上,这种情况经常发生,可追溯到几十年前——最难的部分是处理纸质文件。

大卫·亚诺夫斯基:现在通过取证进入的信息量要大得多,同时还有现在存在的技术来解析、搜索和筛选这些信息。审查单个文件所需的时间可能比过去减少了几个数量级,但获得的数据、信息和文件的数量可能是过去的若干倍。

香农·卡普翁·柯克:没错。

大卫·亚诺夫斯基:哪些事情仍然耗时较多,而哪些事情曾经耗时较多但现在已经不再如此?

香农·卡普翁·柯克:什么让审查大量数据的速度更快,又是如何实现的?让我们回到时间机器——我们会收集一堆电子邮件,而在审查方面没有真正的顺序,除了运行搜索词。在没有技术的时代,你真的没有别的办法来组织它们,除了“这些是命中这个术语的文件,或者那个术语的文件”。基本上就是这样。我们曾经有一个案子,仅仅谈判搜索词就花了好几个月。在今天的时间框架内,如果我们快速推进这个过程并使用技术,我们已经在审查和生产的时间内完成了过去仅谈判搜索词所需的时间。

所以,我们回到时间机器——我们已经谈判好了搜索词,假设我们有50万份文件。然后,我们通常会雇佣一支合同律师大军,因为大多数客户不想支付事务所的费率来让某人通读50万份文件。平均来说,每小时处理30到50份文件,这需要很多时间。如果你必须逐份审查50万份文件,你需要一支庞大的合同律师队伍来进行所谓的“一级审查”。然后,你还需要时间让事务所律师进行质量控制,还需要时间进行特权审查,并且需要时间进行生产前的质量控制。

从前,将约100份文件分批交给毫无顺序的合同律师是一项重大任务。莎莉正在查看一套100份文件,乔也在查看另一套100份文件,这里完全没有效率,也许他们正在看同一个链条,但乔的略有不同。所以,首先是没有效率,其次肯定存在莎莉和乔之间的不一致。想象一下,在50万份文件之间,莎莉和乔之间会有多少不一致性,然后你还得进行质量控制。这就是为什么这花费了很多钱并且耗时很长。

然后,我们开始得到律师们所说的“技术辅助审查”——有时也称为“预测编码”。有时,人们,我认为不准确地,称之为“AI”。我能想到的最佳类比是潘多拉音乐,当你听音乐时,你是在训练潘多拉的机器学习算法。你说,“我喜欢雷·拉蒙特格的这首歌。”然后,你给一个差评,“我绝对讨厌披头士乐队的这首歌。”你在训练算法。你,作为人类,告诉算法,“我喜欢雷·拉蒙特格。这就是机器学习的工作原理。所以,与其只是随意地将一堆杂乱无章的文件分发给莎莉和乔这样的合同律师,不如给他们我们所说的‘得分最高的文件’。换句话说,这些是我类比中的歌曲——这些是人类主题专家认为最有可能是你喜欢或找到响应的文件。你可以看到在这种情况下有多大的效率和一致性。

如果你是一位创始人,正在创办你的公司,并且认为当你进入这个世界时,你会被起诉,你会被调查,你想确保你的火箭不会因为这些障碍而减速,你会怎么做?你如何设置你的系统?

香农·卡普翁·柯克:随着生成式人工智能的指数级增长,这将在2025年及以后超出我们的想象,如果我现在创办一家公司,我会停止那种“我们想确保员工对他们的技术感到舒适,因此允许他们购买自己的设备,使用自己的设备,带来自己的设备(BYOD)”的想法。我也不会再认为IT预算不应该充足。我认为在当今时代,组织不应该以削减IT支出为目标。我认为至关重要的是,我们应该允许企业范围内的预算和企业范围的关注信息治理,因为它不仅仅是IT问题,当我没有将数据治理视为企业问题时,我见过事情出错。你可以在移动设备中看到这一点,你可以在笔记本电脑中看到这一点,你可以在云服务中看到这一点。我会将信息治理作为企业的核心需求,并确保我对我的数据有控制权。这不仅是为了诉讼风险和诉讼和调查的成本,也是为了网络安全。这是确保数据隐私,确保如果与第三方签订合同时有访问其数据的义务时遵守合同义务。

大卫·亚诺夫斯基:双手机未来?

香农·卡普翁·柯克:嗯,我花了过去两年帮助超过200家客户处理SEC扫查和手机的问题,所以也许你正好击中了我刚经历完这个阶段的时候。这并不影响所有行业或所有公司,这个问题也有各种解决方案。我不是说BYOD项目普遍无效——所以请不要引用我说的话认为它是无效的——但我是说,如果我创办一家公司,我会考虑这一点,并从第一天起就思考它是否适合我的组织。

非常精彩。那么今天关于《多维数据回归》就到这里结束了。在下一集,我们将讨论数据分析,所以请务必在收听播客的平台订阅。我是大卫·亚诺夫斯基。我是香农·卡普翁·柯克。感谢收听。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日