Arc Institute 的 AI 模型 Evo 2 设计了跨…

发布时间:2025年2月21日    来源:szf
Arc Institute 的 AI 模型 Evo 2 设计了跨…

快速阅读: 据《基因工程和生物技术新闻》最新报道,Arc研究所开发的Evo 2基因基础模型,能够跨越DNA、RNA和蛋白质进行预测和生成,涵盖人类、植物等复杂真核生物信息。该模型在药物发现、农业等领域有广泛应用,能准确识别基因突变的影响。Evo 2基于英伟达DGX云平台构建,训练数据量大,参数多达400亿个,可一次性处理长达100万个核苷酸的DNA序列。模型现已开源,并提供用户友好界面。

今天,我们实际上已经能够读取、书写和编辑任何DNA序列,但我们无法编写它们。也许我们可以从自然的乐谱中剪切和粘贴片段,但不知道如何为单一酶促过程编写小节。然而,进化能做到。——弗朗西斯·阿诺德博士(2018年诺贝尔奖讲座)。

由Arc研究所开发的Evo基因基础模型,该模型于去年十一月发布,能够跨越生物学的语言——DNA、RNA和蛋白质进行预测和生成能力,最近收到了重大更新。在一篇尚未经过同行评审并首先发布在Arc研究所网站上的预印本中,Evo 2超越了细菌和古菌的单细胞基因组,涵盖了人类、植物及其他更复杂的单细胞和多细胞真核生物的信息。该模型的研究应用范围广泛,包括药物发现、农业、工业生物技术和材料科学。

这项多模态和多尺度的工作是与英伟达公司以及斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的贡献者合作完成的。“生命的配方完全存在于我们DNA中的遗传信息中,”英伟达医疗保健副总裁金伯利·鲍威尔说。“我们正在寻求对生物复杂性的更深入理解。进化已经在数百万年中解决了这个问题,而Evo 2旨在从中学习。”

在医疗保健领域,了解哪些基因变异与疾病相关是治疗学中不可或缺的工具。早期验证显示,Evo 2能够识别基因突变如何影响蛋白质、RNA和有机体的适应性。在BRCA1基因变异测试中,与乳腺癌和卵巢癌风险相关的基因,Evo 2在预测哪些突变是良性还是致病性方面达到了超过90%的准确性。

加州大学伯克利分校生物工程助理教授、Arc研究所联合创始人帕特里克·许博士表示,Evo 2是唯一能够预测编码和非编码突变效果的模型。“它是编码突变的第二佳模型,但对于非编码突变来说是目前最先进的,其他变异效应预测方法,如DeepMind的AlphaMissense,无法评分。”许博士说。

许博士还描述Evo 1是单细胞生命的一张“模糊照片”,因为它是在来自原核生物基因组的3000亿个核苷酸语料库上训练的。在与英伟达的合作中,“我们希望更加雄心勃勃”。Evo 2基于英伟达DGX云平台构建,训练数据来自超过12.8万种生命树中物种的超过9.3万亿个核苷酸。该模型使用了一种名为StripedHyena 2的新架构,据Arc研究所首席技术官戴夫·伯克博士称,这使得训练速度“几乎是优化后的变压器模型的三倍”。

该模型还拥有400亿个参数,规模与Meta、DeepMind或OpenAI发布的当前一代大型语言模型相当。Evo 2可以一次性处理长达100万个核苷酸的DNA序列,使其能够理解基因组不同部分之间的关系。许博士表示,这种长上下文长度解锁了多个分子尺度,从短的生物分子,如tRNA,或基因簇(例如操纵子),到整个细菌基因组或真核生物染色体。

Arc研究所和英伟达将Evo 2描述为迄今为止最大的公开可用的生物学AI模型。Evo 2在英伟达BioNeMo平台上可供公众使用,并提供一个名为Evo设计师的交互式用户友好界面。此外,作者已将其训练数据、训练和推理代码及模型权重开源。Evo 2训练数据来自三个生命域中的超过12.8万种基因组,共计超过9.3万亿个核苷酸(以相似性聚类点可视化)。

生物学的应用商店将生物学视为一种“语言”并不是新概念。基因组测序的进步使我们能够“阅读”人类基因组,而CRISPR技术的发明扩展了我们的工具箱,使我们能够进行基因“编辑”。2023年,许博士和斯坦福大学化学工程助理教授布莱恩·希博士开始思考通过从DNA这一基础层面开始设计或“编写”生物序列,包括蛋白质。“毕竟,蛋白质本身是由基因组直接编码的,”许博士强调。“机器学习已经开始革新生物学,AlphaFold或ESMFold使蛋白质结构预测和设计成为可能。尽管这些分子的复杂性有所提高,但整体上仍不及整个细胞的复杂性。”

鉴于生物功能不是由单一蛋白质分子孤立实现的,合成基因组的构建可以提供一个有价值的工具来研究更广泛的生物学背景,这也是Evo 2正在解决的问题。“直到现在,很多生物设计都集中在分子层面上,因为这是我们唯一能控制的部分。如果我们有一个强大的模型,可以让我们在完整有机体的规模上生成内容,那么这将解锁许多下游任务,具有广泛的应用前景。”希博士说。

Evo 2的预印本描述了跨越不同基因组复杂度级别的三个设计任务:1)线粒体基因组;2)作为最小基因模型的支原体生殖支原体的原核生物基因组;3)酵母染色体,代表真核生物。对于这三个设计任务,预印本展示了支持基因组一致性的证据,例如,在线粒体基因组的情况下,构建了所有电子传递链组件的编码基因(如AlphaFold 3预测的那样),以及在酵母染色体的情况下,存在天然同源物和更复杂的基因组结构,如内含子。

预印本展示了“生成表观遗传学”的工作流程,设计了具有理想染色质可及性的DNA序列,以模拟真核基因调控。当被问及实验验证计划时,希博士表示,与华盛顿大学大型DNA合成和装配专家的合作正在进行中,将染色质可及性设计插入小鼠细胞中进行验证研究。

展望未来,Arc研究所致力于通过构建虚拟细胞进一步探索生物学的复杂性。“药物发现的瓶颈在于我们不知道疾病是如何开始的,”希博士说。“如果我们有一个非常有能力的基因组模型,并且结合通过RNA测序、基因调控网络和细胞信号网络获得的环境信息,那么这个综合多模式框架将帮助我们解答关于疾病的这些基本问题。”希博士认为Evo 2是一个“操作系统”,或是一个基础层,提供了广泛的生成功能性基因组学平台。尽管Evo 2可能无法解决生物学中的所有问题,但相比特定任务的前辈,如用于蛋白质结构预测的AlphaFold,该模型具有更广泛的应用范围。“我们希望赋能研究社区在此基础上进行建设。”许博士补充道。“我们非常期待科学家和工程师们如何利用这个‘生物学应用商店’进行建设。”

林菲博士是《GEN生物科技》的高级编辑。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日