您的实验室是否与数据对话?LabVantage 执行官谈 AI、本体和服务使之成为可能
快速阅读: 《药物发现与开发》消息,LabVantage CEO哈格斯特罗姆指出,科学家需能与数据对话。LabVantage通过连接数据、生物化学本体论及“SaaS 2.0”简化AI应用,解决数据碎片化和AI实施难题,确保数据准确性和可追溯性,助力实验室更专注科研。
**如果科学家不能与研究数据对话,仍在使用模拟模式**
这是LabVantage首席执行官米凯尔·哈格斯特罗姆的直言不讳之言。尽管许多实验室积累了海量数据,但若科学家难以高效访问和理解这些数据,数据再多也未必能带来好处。在哈格斯特罗姆看来,能够与数据展开对话标志着“一种更加以人为本的数据分析方法的转变”,或者说是人工智能,它将成为用户与数据之间沟通的桥梁。
这一愿景建立在传统LIMS(实验室信息管理系统)功能的基础上。“起初,LIMS是为了将数据连接至工作流程并赋予其上下文。如今,上下文和数据源已经呈指数级增长,但挑战依旧如故。”
LabVantage通过聚焦哈格斯特罗姆所称的“企业数据的连接组织”来强化这种联系。其中一个支柱是其运用生化特定本体论为人工智能提供“护栏”。另一要素则旨在缓解实验室管理复杂信息系统的运营压力。哈格斯特罗姆注意到,许多实验室认为系统维护并非首要任务。客户常会这样说:“‘这不是我的核心能力来管理主数据……我需要你来做’。”他回忆道。
为满足这一需求,LabVantage开发了他们所谓的“SaaS 2.0”。这种方法超越了传统的软件即服务(SaaS),将其颠倒过来,称之为哈格斯特罗姆所称的“服务即软件”。
**SaaS 2.0下的LabVantage**
在SaaS 2.0框架下,LabVantage利用其云平台主动“支持环境的使用”,通过代表客户完成一些关键的数据任务——例如连接仪器以建立数据的“黄金来源”、执行配置和管理主数据。哈格斯特罗姆认为,这些“以数据为中心的服务”帮助实验室应对从数据碎片化到监管要求的各种复杂性,使他们能够更专注于核心科学目标。
最终,哈格斯特罗姆强调,技术与服务的成功在于实验室工作人员感到能够与数据开展有意义互动的那一刻。
**数据无处不在:当数据湖无法满足实验室需求时**
即使有数据湖,研发实验室中仍存在数据碎片化现象。“数据以各种方式碎片化,”哈格斯特罗姆说道。他指出专门数据类型面临的挑战:“想想一个带有各种组学结构的DNA结构。你刚刚建模好了……你要保存在哪里?没有RDBMS(关系数据库管理系统)可以保存那个,”他详细解释道,说明复杂的结构或图像往往难以传统存储。
几十年来,解决方案往往是添加另一个孤岛——“如果你有10个数据库,就创建第11个,”哈格斯特罗姆开玩笑说。然而,即使是数据湖也不能保证可用性。“现实情况是,无论数据是在数据湖内还是外碎片化,都不会真正改变实验室的生活,因为很难从湖中获取数据,”他观察到。
通常,缺乏SQL技能的科学家无法访问湖中的数据。这表明了一个根本性的脱节:数据无处不在,却难以触及。
**从解开数据到驯服人工智能**
鉴于存储数据可用性方面持续存在的这些挑战,注意力自然转向人工智能作为弥合差距的方法。然而,实施人工智能,特别是设计用于执行任务的自主人工智能,可能会遇到障碍。哈格斯特罗姆指出了数据未正确连接和上下文化时的三个与人工智能相关的挑战:
– **幻觉**:模型可能编造错误的信息。哈格斯特罗姆用了一个有趣但尖锐的例子:人工智能识别他的狗的照片:“……我拍了一张我们的狗在电视前玩耍的照片,它说,‘这是猫在毯子上蹭着’。我说,那是个问题。它是猫还是狗?”在实验室环境中,幻觉率高且风险高的情况下,这样的不准确性是不可接受的。
– **可验证性**:受监管的实验室工作需要可追溯的证据,但许多人工智能方法使用概率方法(如向量数据库),这与科学和监管严谨性相冲突。“与概率一起工作不符合科学家的喜好——他们倾向于绝对值,”哈格斯特罗姆表示。因此,“监管者不会接受你说这是大概率的数据来源,”他警告说。“他们会想要看到证据……并一直追溯到原始数据。FDA不会接受那种方法。”
– **能力**:公共领域的大型语言模型往往缺乏深入的生物化学知识。“当我们谈论omics的名字及其在基因序列编号中的数量……公共领域缺乏足够的数据来训练大型语言模型,”哈格斯特罗姆说道。
**通过生物化学特定本体论进行基础**
LabVantage通过本体论和语义平台解决这些人工智能难题,重点关注数据连接而不是仅仅关注人工智能代理本身。哈格斯特罗姆观察到,这种关注点区分了他们的策略:“大多数公司专注于人工智能代理本身的工作,而不是数据连接或围绕数据的连接组织。”
LabVantage对深层语言理解的方法基于生物化学——这是一种经过几十年培养的能力。“这项工作始于大学30年前……这是LabVantage独有的,也是LabVantage特有的专有能力,”哈格斯特罗姆解释道。这种生物化学专业化使他们区别于其他广泛的数据平台,后者的基础语言可能来自其他领域。
本体论使用实验室自己的数据创建“护栏”以保持完整性。“通过本体论我们设置了护栏,这样内部数据就成为控制机制,”哈格斯特罗姆解释道。“我们要确保如果有一个真相……这个真相保持为真相。因此,如果一个代理得出的结论与真相不符,这个代理就会立即被终止。”这种方法将验证过的数据转化为控制机制,让人工智能扎根于科学事实之中。
**为未来数据智能实验室奠定基础**
虽然底层语义技术复杂,但哈格斯特罗姆强调,实用且简单的应用是建立用户信任的关键。他指出“像那些告诉你这个测试已经做过的小案例……它们非常受欢迎,并迅速促进文化上的接纳”,并指出这些成功推动了文化的接纳。例如,代理可能会标记重复样本或实验,提示遗漏的测试,或自动显示相关研究论文。
最终,这些技术指向哈格斯特罗姆的“未来实验室”,在那里科学家可以通过赋能的人类工作者和“数字研究助理”进行上下文对话。核心业务目标十分清晰:“我们如何在不增加资源的情况下更快地提供更多的产品和更有效的药物?这就是人工智能机器人大显身手之处。”
(以上内容均由Ai生成)