快速阅读: 研究团队基于9100万分子预训练的SMI-TED模型,通过微调构建了SMI-TED-IC,用于预测多组分电解质混合物的离子电导率,提升了分子级组成模式与宏观性质的关联。
SMI-TED 是一个化学基础模型,基于 9100 万分子的字符串表示预训练而成。研究团队使用文献整理的电解质配方数据集对 SMI-TED 进行微调。该数据集包含最多六种电解质成分的配方,每种成分由其标准 SMILES 字符串表示。每种成分分子的浓度以摩尔百分比的形式表示。每个配方中的分子成分及其相应组成被组合成一个字符串表示,如图 1b 所示,各成分之间用 分隔符分隔。这种配方的字符串表示与温度特征一起作为输入用于 SMI-TED 的微调(微调后称为 SMI-TED-IC),而离子电导率则作为输出标签。最终序列捕捉了电解质的完整化学、组成和条件(温度)信息。因此,通过引入配方感知的输入表示和针对多组分电解质混合物的微调策略,基于 SMI-TED 架构构建了配方模型 SMI-TED-IC,扩展了其在多组分配方性质(如离子电导率)方面的应用。这种配方感知表示使模型能够在统一的输入结构中处理分子身份和相对组成,利用与 SMILES 序列相同的分词器和嵌入层。将组成值与分子标记交错排列,使模型能够对整个配方上下文进行联合注意力计算。在数百万 SMILES 字符串上的预训练使 SMI-TED 能够学习一个化学信息丰富的潜在空间,捕捉分子亚结构及其上下文关系。这种潜在表示为电解质配方的微调提供了坚实的基础,使 SMI-TED-IC 模型能够将分子级组成模式与宏观性质(如离子电导率)联系起来。数据特征化、增强和回归微调的具体细节在“方法”部分中描述。
(以上内容均由Ai生成)