天体生物学数据生态系统、开放科学和 AI 时代 – NASA-DARES 2025 白皮书
快速阅读: 据《天体生物学网》称,NASA发布白皮书探讨天体生物学数据生态系统与AI应用。强调数据标注、获取新数据、访问独特资源及降低实施障碍的重要性,提出制定本体论标准、建立专业存储库及增加数据科学家支持等建议,以推动开放科学和AI在该领域的应用。
美国国家航空航天局(NASA)天体生物学项目《天体生物学数据生态系统、开放科学与人工智能时代的NASA-DARES 2025白皮书》
作者:基思·考温
状态报告
美国宇航局 2025年5月24日
归类:数据,人工智能,机器学习,美国宇航局,NASA-DARES 2025,开放科学
**主要主题:识别新兴主题和技术;次要主题之一:回顾最新进展,强化社区动机**
天体生物学可能是所有领域中最具跨学科性质的一个。它研究宜居行星、生命、生态系统和文明的起源、历史、现状和命运。这需要理解复杂且深度交织的物理、化学、生物和社会现象,并将其整合到时间、空间和能量差异极大的不同尺度上。机器学习(ML),以及当前统称为人工智能(AI)的更广泛的相关模型和技术,提供了迅速扩展且独一无二的能力,能够揭示、连接和建模大量不同类型数据中的特征之间的关系,包括非线性和上下文依赖的关系。因此,天体生物学可能从这些工具中获得独特的高潜力收益。
近期的天体生物学AI/ML实施包括从拉曼光谱和激光诱导击穿光谱(LIBS)光谱中识别与宜居性相关的矿物种类,对开普勒和凌日系外行星巡天卫星(TESS)的凌星信号进行分类以寻找新的系外行星,以及区分生物来源和非生物来源的有机化合物的质谱、X射线荧光光谱(XRF)光谱或同位素标记。更大的益处很可能会来自使用多模态数据来探索生命与非生命的界限、这些过程的特点以及生命出现的路径。多模态数据可以是可见光图像、反射光谱、质谱、荧光光谱、显微摄影、同位素比值分析、拉曼光谱、X射线衍射、形态学、地形学、宏基因组学等多种形式的任意组合。
然而,要充分利用ML的全部潜力,需要有足够的深度和广度的交叉兼容数据,以便创建稳健的模型——而且这些要求随着所研究系统的复杂程度和多样性而增加。如果天体生物学要利用这些工具,我们需要投入资源,使我们已有数据和未来采集的数据适合用于AI/ML应用。这些数据需求与科学界向开放科学转型的趋势相互促进,NASA的开放科学倡议是这一趋势的典范。开放科学实践,如符合FAIR原则,可以减少不必要的重复劳动,提升科学研究的可重复性,增强历史和未来数据的价值,并降低创新的门槛,特别是在跨学科领域。天体生物学特别受益于开放数据和样本共享,因为它依赖于难以进入的野外站点的测量和材料,模拟假设或真实地外环境的稀有实验室设施,或独特且不可替代的行星探测操作。
隶属于或与天体生物学重叠的学科正在构建本地开放数据生态系统,如行星数据生态系统、天体生物学宜居环境数据库、代谢组学工作站以及NASA开放科学数据存储库。即便这些努力得以整合,目前覆盖的数据和样本在数量、质量和种类上仍存在显著差距。这些数据需求与科学界向开放科学转型的趋势相互促进,NASA的开放科学倡议是这一趋势的典范。开放科学实践,如符合FAIR原则,可以减少不必要的重复劳动,提升科学研究的可重复性,增强历史和未来数据的价值,并降低创新的门槛,特别是在跨学科领域。
这份白皮书汇总了作者近期的经验和讨论,是对当前天体生物学数据生态系统现状及开放数据和AI应用新时代需求的基层观察。虽然它们侧重于野外和实验室工作,但也有一些适用于任务和系外行星观测数据。它们划分为四个领域,强调跨学科和多模态的应用,并附带建议:
### 需求和建议
#### 找到我们已有的数据:数据标注、索引与检索
**观察:**
考虑一个简单的项目,比较地球和火星上两个背风冷玄武岩岩面的图像、拉曼光谱和元素组成。所有必要的数据都存在于RRUFF、USGS光谱库和PDS地质节点等资源内。然而,找到这些数据需要花费数天时间阅读大量注释,以识别和提取正确的数据文件,而且这些文件通常需要(或已经被)处理,但这种处理方法仅在少数链接的出版物中有记载——如果有的话。这种困难大幅降低了过去任务、野外和实验室数据的价值,目前是构建足够大的多模态天体生物学数据集以用于AI/ML工作的主要障碍之一。
天体生物学广泛范围内的诸多学科已构建了自己的本体论,从命名方案如国际纯粹与应用化学联合会(IUPAC)命名法,到关键词汇词典如医学主题词表(MeSH),再到框架如BLAST。生命检测知识库是一项更大规模的尝试。然而,即使使用相同本体论的存储库也经常有不兼容或实现不佳的API,用于自动数据检索和交互。这种不兼容标准的泛滥可能只会让长期构建有效和高效的ML工作所需的统一数据的必要广度更加困难。
**建议:**
一个跨学科的专家工作组可以制定天体生物学范围的本体论和API标准的范围与实施方案。它必须涵盖微生物学、植物学、动物学、生态学、化石、岩石、沉积物、化学、水、空气、地质学、矿物学、行星学、轨道学和天文学系统的描述符,以及用于测量它们的各种仪器和技术的多样性。它还必须能够适应跨学科术语差异,如物种、粒子、细胞、植物、栖息地、象限、中尺度、云或矩阵等。这不是一项简单的工作。它可以借助基于文本的AI工具辅助,但无法完全自动化。其采用可以通过提供与其兼容的存储库和档案列表加以支持。
除了组织建议外,在标准化和统一现有天体生物学相关数据方面尚有许多工作需做。具备数据科学支持的主题专家最适合承担此项工作;然而,此类工作不易纳入现有的ROSES招标中。一项新的ROSES招标,类似于行星数据档案和还原技术(PDART),但范围涵盖所有天体生物学相关数据以及标准化和API改进,将为现有数据的工作提供迫切需要的支持;或者,作为替代方案或并行举措,在现有的ROSES计划中设立专门的项目用于使数据适合开放科学和AI应用,将支持未来数据的工作。
#### 获取我们尚未拥有但需要的数据:数据广度和覆盖缺口
**观察:**
大多数关于非生命系统的研究工作所采用的处理方法、技术、尺度、仪器和假设与生命系统不同,即便描述方法相似也是如此。例如,地质样品通常会在分析前烘焙去除挥发性物质,但生物样品则不会。无菌技术或缺乏无菌技术阻碍了跨项目的物理样本使用。很少有样本在除明确目标为生物标志或前生物标志检测之外的工作中同时接受过生物和物理化学技术的评估。卫星图像是一个例外,因为整个地球表面已被多次独立测绘——但即便在这种数据中,时间、分辨率、尺度和仪器差异也可能令人困惑。同样,野外考察很少,甚至从未在同一环境、生物和物理化学背景下进行相同的测量。这种缺乏同步、可比测量的情况因大多数发表协议中提供的细节不足而加剧,其中常见短语如“光谱基线校正”或“仪器伪影已移除”。
开放科学数据管理计划(OSDMPs)中经常未涵盖的数据和元数据示例包括用于存档的重复野外样本、分析中间步骤的优惠券或读数、足以允许复制的运行时协议、原始仪器文件以及任何手动或脚本化的处理步骤,以从原始仪器读数中重现“最终”数据。
**建议:**
通过为数据生成者和首席研究员(PI)制定清晰且通用的AI准备标准,可以减轻组装和标准化过去数据的负担。一个工作组可以建立一套推荐的最小上下文测量和元数据集,应用于所有未来的天体生物学野外工作或样本分析。一个更全面的解决方案是提供核心设备的“图书馆”,包括用于野外测量的使命模拟仪器——这样的安排现在通常是通过个人PI的网络进行的,这造成了进入壁垒和排他性。同时,可以创建一个类似维基的详细标准协议集合,允许复制(超出大多数出版物包含的内容),供拟议PI参考,未来PI必须贡献。AI/ML工具甚至可能能够利用这样的集合来帮助识别改善不同项目之间可比性的方法。最后,推荐使用的存储库应验证是否提供物理样本和原始及处理数据的支持,以及所有处理的具体协议或脚本。
#### 改善对独特资源的获取:独特样本和仪器
**观察:**
最好的数据通常来自专门针对生物或与宜居性相关的特征的天体生物学飞行模拟仪器的工作。然而,这些仪器的访问通常受到严格控制,并且饱和着任务关键实验。此外,许多机构不允许与生物材料一起工作,担心污染。这极大地限制了社区支持行星探索工作和利用开发和地面验证这些仪器所需的大规模投资的能力。对于保存野外模拟场地的实物样本的指南和选项也特别缺乏。天体材料数据系统和NASA生物机构科学收藏非常具体地涵盖了其内容。尽管行星模拟探险费用高昂且耗时,但没有专用的样本档案。合成实验室材料和大多数生物材料(衍生细胞培养物、DNA提取物等)在OSDMPs中很少提及。大量昂贵、有价值且难以获得的野外样本、衍生材料、图像和其他数据滞留在各种实验室冰箱底部和旧硬盘上,并且当负责的PI去世、更换机构或只是失去资金或兴趣时,这些数据已经并且将继续丢失。
**建议:**
一种解决办法可能是要求在仪器开发招标中提供一个“社区访问”版本,然后采用类似于天体物质的提案模式进行长期存档以供访问。尽管这需要额外的资金支持线,但只要能产生等效数据,社区版本可以是一个显著更便宜的构建,无需小型化、无需加固等。或者,可以要求生成足够的文档,以便其他研究人员能够在适当情况下使用现成商用零件构建核心功能的开源复刻版。至少,应建立一份公开的样本清单,列出通过资助工作收集的野外样本及其详细联系方式,并要求未来的首席研究员添加他们的条目。这可以附带一套推荐的长期保存不同类型样本的协议。提供这些资源能够使更多科学家复制成果、改进技术或开展基础研究,从而提升这些仪器的科研价值。
#### 实现目标:通过简化和提供支持降低实施障碍
**观察:**
若最佳建议未能落实,便毫无意义。比愿意承认的更多研究人员会根据临时搜索“数据归档示例”的结果来决定他们在OSDMP中写什么。这导致过度依赖通用的存储库和档案,如GitHub和Zenodo,即便可能存在支持更完善、集成度更高的专业存储库。加上之前提到的标签、格式和API标准化的缺乏,最终结果是最终数据产品难以查找且难以使用,从而抵消了预期的许多好处。此外,还缺乏专业知识和资源。准备数据上传、记录实验步骤、分配样品用于存储都需要大量时间和精力。然而,它们并未被视为与“发表论文”甚至“提交最终报告”同等重要。
**建议:**
为研究人员提供一份由相关领域专家确认的天体生物学专用存储库和档案列表将是一个良好的开端。制定天体生物学本体论并确立最低元数据标准将进一步可能生成一份“认证”存储库和档案列表,使其与其兼容。虽然完全改变开放科学信用的范式超出了计划范围,但对数据发布的同等认可、宣传及推广将是第一步。在理想情况下,项目工作人员中至少有一名数据科学家在奖项后与首席研究员合作,批准OSDMP实施的细节并提供实际上传和发布过程的支持。
(以上内容均由Ai生成)