企业领袖:AI代理应匹配现有流程而非相反
快速阅读: Block和GSK探索多代理系统在金融和药物发现中的应用,提高效率并节省时间,但强调人类专业知识仍不可或缺。Block的Goose平台已开源,GSK则在药物研究中结合特定领域模型加速进程。
人工智能代理——能够在企业工作流程中自主异步工作的代理——成为当前企业界热议的话题。然而,越来越多的人担心这只是空谈,缺乏实质内容。研究机构Gartner指出,企业正处于“期望膨胀顶峰”阶段,这通常是在供应商未能提供实际应用案例之前,导致失望情绪蔓延的时期。
尽管如此,这并不意味着企业没有尝试使用人工智能代理并取得早期投资回报。全球企业Block和葛兰素史克(GSK)正在探索金融和药物发现领域的概念验证项目。Block的技术主管Brad Axen在最近由SAP赞助的人工智能影响活动上表示:“多代理系统绝对是下一步,但我们正在寻找一种既能满足人类需求又方便的方法。”
Block拥有1万名员工,是Square、Cash App和Afterpay的母公司,该公司正处于全面探索阶段。今年1月,Block推出了一个名为Goose的互操作性人工智能代理框架。Axen介绍,Goose最初用于软件工程任务,现在已有4000名工程师使用,每月用户数量翻倍。该平台编写约90%的代码,并通过自动化代码生成、调试和信息过滤,每周为工程师节省大约10小时的工作时间。
除了编写代码外,Goose还充当“数字同事”的角色,压缩Slack和电子邮件流,跨公司工具集成,并在任务需要更多吞吐量和扩展范围时生成新代理。Axen强调,Block的目标是创建一个感觉像与单个同事合作的界面。“我们希望你感觉像是在与一个人合作,但他们可以在多个地方以多种方式为你服务。”他解释说。
Goose在开发环境中实时运行,基于大型语言模型(LLM)的输出搜索、导航和编写代码,同时自主读写文件、运行代码和测试、优化输出并安装依赖项。任何人都可以基于其首选的LLM构建和操作系统,而Goose可以视为应用程序层。该平台具有内置的桌面应用程序和命令行界面,开发人员还可以构建自定义UI。Goose建立在Anthropic的模型上下文协议(MCP)之上,这是一个日益流行的开源标准化API和端点集,将代理连接到数据存储库、工具和开发环境。
Goose已根据Apache许可2.0(ASL2)发布,这意味着任何人都可以自由使用、修改和分发它,即使用于商业目的。用户无需技术知识即可访问Databricks数据库并执行SQL调用或查询。
Axen表示:“我们真正希望找到一种方法,让人们无需成为专家就能从系统中获得价值。”例如,在编码方面,用户可以用自然语言表达他们的需求,框架会将其解释为数千行代码,供开发人员阅读和筛选。Block还发现Goose在压缩任务中具有价值,如阅读Slack、电子邮件和其他渠道的信息并为用户总结。此外,在销售或营销中,代理可以收集潜在客户的相关信息并将其导入数据库。
尽管人工智能代理的应用前景广阔,但人类领域专业知识仍然不可或缺。Axen指出,过程是最大的瓶颈。仅仅给人们一个工具并告诉他们如何使用是不够的;代理需要反映员工已经参与的过程。开发人员需要关注员工的实际需求,并设计工具以尽可能贴近这些需求,从而解决越来越大的问题。
Axen 认为,代理人的潜力远未得到充分利用。“问题在于人员和流程,因为我们的技术发展速度太快,我们难以跟上。”他说,“技术和机会之间存在巨大差距。”
当行业弥合这一差距时,人类的专业知识是否仍有用武之地?Axen 表示当然有用。特别是在金融服务领域,代码必须可靠、合规且安全,以保护公司和用户;因此,必须由人工审核。
“我们仍然认为,在公司运营的各个方面,人类专家都扮演着至关重要的角色。”他说,“这并不改变个人的专业能力,只是提供了一种新的工具来表达这种能力。”
构建在开源基础上的模块
Axen 指出,人类界面是人工智能代理最难的部分之一;目标是使界面简单易用,同时让人工智能在后台主动采取行动。
Axen 表示,如果更多行业参与者采用类似MCP的标准将非常有帮助。例如,“我希望能看到谷歌为Gmail公开一个MCP,这会让我的工作轻松很多。”
谈到 Block 对开源的承诺,Axen 说:“我们一直以开源为基础,过去一年,公司一直在加大对开放技术的投资。”
“在这个快速发展的领域,我们希望设立开源治理机制,以便即使在新的模型和产品出现时,这些工具也能跟上步伐。”
GSK 在药物发现中应用多代理系统
GSK 是一家领先的制药开发商,专注于疫苗、传染病和肿瘤研究。现在,该公司开始应用多代理架构以加速药物发现。
GSK 的高级副总裁兼全球人工智能和机器学习主管 Kim Branson 表示,代理正在改变公司的产品,并且“绝对是我们业务的核心。”
GSK 的科学家们结合特定领域的大型语言模型、本体论(主题概念和类别,表示属性和关系)、工具链和严格的测试框架,帮助他们查询庞大的科学数据集,规划实验(即使没有基础事实),并在基因组学、蛋白质组学和临床数据中整合证据。代理可以提出假设、验证数据连接并压缩研究周期。
Branson 指出,科学研究取得了长足进展;测序时间缩短,蛋白质组学研究速度加快。然而,随着数据量不断增加,尤其是通过设备和可穿戴设备收集的数据,发现变得更加困难。正如 Branson 所说:“作为物种,我们从未拥有如此多的人类脉搏数据。”
人类几乎不可能分析所有这些数据,因此 GSK 的目标是利用人工智能加快迭代时间。
然而,人工智能在大型制药公司中也面临挑战,因为通常需要进行大规模临床试验才能确定事实;更多的是关于假设和科学家探索证据以找到可能的解决方案。
“当你开始增加代理时,你会发现大多数人都没有统一的方法。”Branson 指出,“这种差异并非坏事,但有时会引出另一个问题。”
他开玩笑说:“我们并不总是有绝对的事实可以依赖——否则我的工作会容易得多。”
关键在于找到正确的靶点或知道如何设计生物标志物或不同假设的证据。例如:
“这是考虑患有卵巢癌患者在这种特定条件下最好的途径吗?”
为了让人工智能理解这种推理,需要使用本体论并提出类似的问题:“如果这是真的,X 意味着什么?”特定领域的代理可以从大型内部数据集中提取相关证据。
GSK 从头构建了由 Cerebras 支持的表观基因组语言模型,用于推理和训练。Branson 解释说:“我们为特定应用构建了非常具体的模型,而其他人没有。”
推断速度很重要,无论是与模型互动还是自主深入研究,GSK 根据最终目标使用不同的工具集。但大上下文窗口并不总是答案,过滤至关重要。“你不能只填塞上下文,”Branson 说,“你不能把所有数据扔进去,然后相信语言模型能解决一切。”
持续测试至关重要
GSK 对其代理系统进行了大量测试,注重确定性和可靠性,经常并行运行多个代理以交叉检查结果。
布兰森回忆起团队刚开始建设时,他们运行了一个SQL代理,共执行了10000次,结果这个代理突然“伪造”了一些细节。
“我们从未再见过这种情况,但那次发生后,我们甚至不明白为什么这会在特定的LLM上发生,”他说。
因此,他的团队通常会同时运行多个副本和模型,并强制执行工具调用和约束;例如,两个LLM会执行完全相同的序列,GSK科学家会对它们进行交叉检查。
他的团队专注于主动学习循环,并正在建立自己的内部基准,因为流行的公开可用基准往往“相当学术化,无法反映我们的实际工作”。
例如,他们会生成几个生物学问题,评估他们认为的黄金标准,然后应用LLM进行对比,看其表现如何。
“我们特别关注那些不起作用或表现不佳的情况,因为这些时候我们能学到新的东西,”布兰森说,“我们努力让人类在关键环节运用他们的专业知识。”
(以上内容均由Ai生成)