Arc Institute 的 AI 模型 Evo 2 设计了跨…
快速阅读: 据《基因工程和生物技术新闻》最新报道,Arc研究所开发的Evo 2基因基础模型,能够跨越DNA、RNA和蛋白质进行预测和生成,涵盖人类、植物等复杂真核生物信息。该模型在药物发现、农业等领域有广泛应用,能准确识别基因突变的影响。Evo 2基于英伟达DGX云平台构建,训练数据量大,参数多达400亿个,可一次性处理长达100万个核苷酸的DNA序列。模型现已开源,并提供用户友好界面。
今天,我们实际上已经能够读取、书写和编辑任何DNA序列,但我们无法编写它们。也许我们可以从自然的乐谱中剪切和粘贴片段,但不知道如何为单一酶促过程编写小节。然而,进化能做到。——弗朗西斯·阿诺德博士(2018年诺贝尔奖讲座)。
由Arc研究所开发的Evo基因基础模型,该模型于去年十一月发布,能够跨越生物学的语言——DNA、RNA和蛋白质进行预测和生成能力,最近收到了重大更新。在一篇尚未经过同行评审并首先发布在Arc研究所网站上的预印本中,Evo 2超越了细菌和古菌的单细胞基因组,涵盖了人类、植物及其他更复杂的单细胞和多细胞真核生物的信息。该模型的研究应用范围广泛,包括药物发现、农业、工业生物技术和材料科学。
这项多模态和多尺度的工作是与英伟达公司以及斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的贡献者合作完成的。“生命的配方完全存在于我们DNA中的遗传信息中,”英伟达医疗保健副总裁金伯利·鲍威尔说。“我们正在寻求对生物复杂性的更深入理解。进化已经在数百万年中解决了这个问题,而Evo 2旨在从中学习。”
在医疗保健领域,了解哪些基因变异与疾病相关是治疗学中不可或缺的工具。早期验证显示,Evo 2能够识别基因突变如何影响蛋白质、RNA和有机体的适应性。在BRCA1基因变异测试中,与乳腺癌和卵巢癌风险相关的基因,Evo 2在预测哪些突变是良性还是致病性方面达到了超过90%的准确性。
加州大学伯克利分校生物工程助理教授、Arc研究所联合创始人帕特里克·许博士表示,Evo 2是唯一能够预测编码和非编码突变效果的模型。“它是编码突变的第二佳模型,但对于非编码突变来说是目前最先进的,其他变异效应预测方法,如DeepMind的AlphaMissense,无法评分。”许博士说。
许博士还描述Evo 1是单细胞生命的一张“模糊照片”,因为它是在来自原核生物基因组的3000亿个核苷酸语料库上训练的。在与英伟达的合作中,“我们希望更加雄心勃勃”。Evo 2基于英伟达DGX云平台构建,训练数据来自超过12.8万种生命树中物种的超过9.3万亿个核苷酸。该模型使用了一种名为StripedHyena 2的新架构,据Arc研究所首席技术官戴夫·伯克博士称,这使得训练速度“几乎是优化后的变压器模型的三倍”。
该模型还拥有400亿个参数,规模与Meta、DeepMind或OpenAI发布的当前一代大型语言模型相当。Evo 2可以一次性处理长达100万个核苷酸的DNA序列,使其能够理解基因组不同部分之间的关系。许博士表示,这种长上下文长度解锁了多个分子尺度,从短的生物分子,如tRNA,或基因簇(例如操纵子),到整个细菌基因组或真核生物染色体。
Arc研究所和英伟达将Evo 2描述为迄今为止最大的公开可用的生物学AI模型。Evo 2在英伟达BioNeMo平台上可供公众使用,并提供一个名为Evo设计师的交互式用户友好界面。此外,作者已将其训练数据、训练和推理代码及模型权重开源。Evo 2训练数据来自三个生命域中的超过12.8万种基因组,共计超过9.3万亿个核苷酸(以相似性聚类点可视化)。
生物学的应用商店将生物学视为一种“语言”并不是新概念。基因组测序的进步使我们能够“阅读”人类基因组,而CRISPR技术的发明扩展了我们的工具箱,使我们能够进行基因“编辑”。2023年,许博士和斯坦福大学化学工程助理教授布莱恩·希博士开始思考通过从DNA这一基础层面开始设计或“编写”生物序列,包括蛋白质。“毕竟,蛋白质本身是由基因组直接编码的,”许博士强调。“机器学习已经开始革新生物学,AlphaFold或ESMFold使蛋白质结构预测和设计成为可能。尽管这些分子的复杂性有所提高,但整体上仍不及整个细胞的复杂性。”
鉴于生物功能不是由单一蛋白质分子孤立实现的,合成基因组的构建可以提供一个有价值的工具来研究更广泛的生物学背景,这也是Evo 2正在解决的问题。“直到现在,很多生物设计都集中在分子层面上,因为这是我们唯一能控制的部分。如果我们有一个强大的模型,可以让我们在完整有机体的规模上生成内容,那么这将解锁许多下游任务,具有广泛的应用前景。”希博士说。
Evo 2的预印本描述了跨越不同基因组复杂度级别的三个设计任务:1)线粒体基因组;2)作为最小基因模型的支原体生殖支原体的原核生物基因组;3)酵母染色体,代表真核生物。对于这三个设计任务,预印本展示了支持基因组一致性的证据,例如,在线粒体基因组的情况下,构建了所有电子传递链组件的编码基因(如AlphaFold 3预测的那样),以及在酵母染色体的情况下,存在天然同源物和更复杂的基因组结构,如内含子。
预印本展示了“生成表观遗传学”的工作流程,设计了具有理想染色质可及性的DNA序列,以模拟真核基因调控。当被问及实验验证计划时,希博士表示,与华盛顿大学大型DNA合成和装配专家的合作正在进行中,将染色质可及性设计插入小鼠细胞中进行验证研究。
展望未来,Arc研究所致力于通过构建虚拟细胞进一步探索生物学的复杂性。“药物发现的瓶颈在于我们不知道疾病是如何开始的,”希博士说。“如果我们有一个非常有能力的基因组模型,并且结合通过RNA测序、基因调控网络和细胞信号网络获得的环境信息,那么这个综合多模式框架将帮助我们解答关于疾病的这些基本问题。”希博士认为Evo 2是一个“操作系统”,或是一个基础层,提供了广泛的生成功能性基因组学平台。尽管Evo 2可能无法解决生物学中的所有问题,但相比特定任务的前辈,如用于蛋白质结构预测的AlphaFold,该模型具有更广泛的应用范围。“我们希望赋能研究社区在此基础上进行建设。”许博士补充道。“我们非常期待科学家和工程师们如何利用这个‘生物学应用商店’进行建设。”
林菲博士是《GEN生物科技》的高级编辑。
(以上内容均由Ai生成)