Databricks 首席 AI 科学家表示,生成式 AI 终于找到了它的最佳位置
快速阅读: 据《ZDNet》最新报道,企业正通过实践学习AI应用方法。Databricks首席AI科学家乔纳森·弗兰克尔强调,生成式AI为企业分析开辟新路径,但需谨慎选择应用场景。他建议从小项目入手,逐步探索AI潜力,利用现有工具快速验证价值。企业应平衡AI的优势与局限,合理分配资源,推动AI技术落地。
如果去掉所有关于企业人工智能的花哨术语,比如“能动型AI”,根据数据工具巨头Databricks的说法,企业正在通过实践学习AI的应用方法。
“我们仍在探索AI的最佳应用场景,以及如何找到它帮助解决问题的最佳结合点。”Databricks首席AI科学家乔纳森·弗兰克尔在最近的一次采访中说道,当时他和我在纽约进行了交谈。
生成式AI,比如大型语言模型,正在为企业分析开辟新途径。弗兰克尔指出,在生成式AI出现之前,像Word文档、图像或视频这样的非结构化数据在传统数据分析中没有位置。但现在,这些数据成为了宝贵的资源。
“想象一下大量的非结构化文档,在生成式AI或预训练语言模型(LLM)出现之前,这些文档很难被分析,而现在我们可以从中提取有意义的特征。”他说,“在传统分析中无用的数据在这里变得极具价值。”
虽然许多人关注的是生成式AI接管实际编程代码的能力,但更简单的应用可能是分析公司的计算机代码。
“你们公司所有代码的文档在2015年并不是一个有用的数据源,但在2025年却变得极其宝贵……仅仅是为了回答开发者的代码相关问题。”
同样地,“你可以想象从客服应用程序中的每一条聊天记录开始,进行高层次的分析。一次对话的平均交互次数是多少?解决一个问题的平均时间是多少?这些都是十年前不可能做到的事情。”
数据在开发生成式AI应用中起着核心作用。弗兰克尔提到,当他所在的机器学习初创公司MosaicML被Databricks收购时,他加入了这家公司。MosaicML专注于优化运行AI的基础设施,而Databricks则是数据湖和移动及塑造数据技术的主要提供商之一。
“整个收购理念是我们有一块拼图,Databricks有其他许多块,放在一起更有意义。”弗兰克尔说。
“你正试图部署一个人工智能客服机器人。这个客服机器人依赖哪些数据?”弗兰克尔解释道,“它依赖客户信息,依赖你的文档,依赖你的SQL数据库。所有这些都存储在Databricks中。”
从数据到结构
将数据整合到Databricks中是创建弗兰克尔所说的新型分析的基础。尽管大型语言模型(LLMs)能够处理大量非结构化数据,但提前将公司数据转化为某种结构化形式仍然很有帮助。
“如果你提前使用LLM将数据预处理成某种结构化形式,如SQL或JSON,你就减少了对AI的工作量——你应该始终尽量让AI的工作尽可能简便,因为这些系统肯定不是完美的。”
一个重要的准备步骤是将数据放入所谓的“嵌入”中。
“嵌入模型”是一种AI模型,用于将字符、单词或句子转换为一组数字向量,捕捉这些字符、单词或句子的部分语义内容。
你可以将嵌入视为表示术语相关性的数值评分,比如“苹果”与“水果”之间的关系,或者“婴儿”与“人类”之间的关系。
即使是相对较小的语言模型,比如2018年的Google BERT,也能用于制作嵌入。“你不需要庞大的模型就能得到优质的嵌入。”弗兰克尔说。
弗兰克尔指出,开源社区已通过微调过程开发了许多嵌入模型,以适配Meta Platforms的Llama模型。
然而,“你可能需要训练一个定制化的嵌入模型”,因为现有的模型是基于网络数据构建的,这使得它们非常通用。
在特定领域,如医疗保健,定制嵌入模型能比通用嵌入模型更好地发现词语和短语间的联系。
“我们发现定制嵌入模型能带来不成比例的良好检索改进,”弗兰克尔说,“我们认为仅通过使它们更加特定于某个领域就可以榨取更多的价值。”
一个经过良好开发的嵌入模型非常重要,因为“它们能让大型语言模型承担的繁重任务变得更轻松”,他说。
弗兰克尔还提到,多个嵌入模型还可以串联使用。这样能使用于文档搜索的AI模型从上百份文档中筛选出少量符合查询结果的文档。
除了调整嵌入模型外,如何将数据输入嵌入本身也是一个专门的研究领域。他说:“当你将这些文档提供给嵌入模型时,通常不希望一次性提供整个文档。”
“你通常希望将其分割成小段,并且如何最优地这样做也是试验和尝试的过程。”
弗兰克尔补充道,Databricks正在“针对这些主题开展研究”,因为在很多情况下,他认为当前的技术还不够好,包括嵌入。
虽然通过Databricks可以实现很多“即插即用”的功能,但弗兰克尔表示,“最棘手的部分是仍然有很多实验要做。有许多旋钮需要调节。你应该微调还是不应该微调?你应该尝试检索并放入上下文多少份文件?你的分块大小是多少?”
构建什么的问题除了技术之外,了解要构建什么样的应用程序本身就是一种探索的过程。
“我认为人工智能领域最难的部分是确信它能够成功,”弗兰克尔说道。“如果你来找我说,‘这里有一个医疗领域的难题,这是我拥有的文件,请问人工智能能否解决这个问题?’,我会回答,‘让我们试一试吧。’”
根据弗兰克尔从客户那里观察到的情况,“目前投入实践的应用程序往往倾向于解决一些更开放性的问题,”他说——这意味着人工智能模型产生的结果可能是模糊的,不一定具体。“人工智能擅长生成答案,但并不总是能生成**那个**答案,”他指出。
此外:
这就是为什么你应该忽略99%的人工智能工具——以及我每天使用的四个工具
“借助人工智能,你可以完成一些模糊的事情,可以用我永远无法用Python编写的程序来实现文档理解,”弗兰克尔解释道。
我还寻找那些相对昂贵才能得出答案但相对便宜就能验证答案的应用程序。例如,从患者的体检录音中自动生成医生的文字记录。“可以生成一组初步的患者笔记,医生或医生助理可以检查并调整其中的一些内容,然后结束一天的工作。”他说,这是一种有效减少枯燥工作的方式。
相反,“那些需要正确答案且难以验证的应用程序”可能暂时应该避免。他举了起草法律文件的例子。“如果人工智能遗漏了一点,人类现在需要审查整个文件以确保没有遗漏其他内容。那么使用人工智能还有什么意义?”弗兰克尔观察到。
另一方面,人工智能在接管律师和法律助理的繁重工作方面有很大的潜力,从而拓宽人们接触律师的途径。
此外:
想在人工智能时代取胜?你可以自己构建它,也可以用它来发展你的业务
“假如人工智能能自动化一些最枯燥的法律任务呢?”弗兰克尔提出,他的父母都是律师。“如果你想让人工智能帮助你进行法律研究,帮助你思考解决问题的方法,或者帮助你找到相关材料——那真是太棒了!”
“我们仍处在生成式人工智能的初级阶段,因此,我们在享受其优势的同时,也在学习如何弥补其不足。”
通往人工智能应用的道路
在不确定性之中,弗兰克尔对客户快速适应学习曲线的能力印象深刻。“两三年前,你需要向客户解释生成式人工智能是什么,”他指出。“现在,当我与客户交谈时,他们已经在使用向量数据库了。”
“这些人对这些技术的成功之处和局限性有很好的直觉,”他对Databricks的客户如此评价。
鉴于没有公司拥有无限预算,弗兰克尔建议从一个初始原型着手,这样投资才会在明确人工智能应用能带来价值时继续推进。
它应该是你可以用一天时间用GPT-4和现有的少量文件搭建出的东西,”他提议。开发者可以召集公司里的几个人,他们可以告诉你你是否走对了方向。
对于管理者,弗兰克尔建议定期将探索生成式人工智能作为工作的一部分。
“人们是有动力的,比如数据科学家,”他指出。“这甚至不那么关乎金钱,而更多在于给他们时间和空间,告诉他们在你的职责范围内,花上几周时间,参加为期两天的黑客马拉松,去看看你能做些什么。这对人们来说非常令人激动。”
企业生成式人工智能的座右铭或许是:从小树苗长成参天大树。
正如弗兰克尔所说:“那个地下室里有GPU并且正在玩Llama的人实际上非常精通,可能会成为明天的生成式人工智能专家。”
(以上内容均由Ai生成)