图神经网络模型GNoME:大规模深度学习用于材料发现

论文Scaling deep learning for materials discovery(《大规模深度学习用于材料发现》)主要研究如何通过扩展深度学习模型的规模来加速新材料的发现,特别是用于固态化学领域的无机晶体材料。论文通过大规模训练图神经网络模型GNoME(Graph Networks for Materials Exploration),实现了对材料科学中无机晶体稳定性的大规模高效预测,显著扩大了已知稳定材料的范围,为材料发现提供了一种全新的工具和方法。研究展示了深度学习在自然科学领域的巨大潜力,并为解决材料科学领域长期存在的挑战提供了新的解决方案。GNoME模型的成功应用不仅标志着深度学习在材料科学中的一个重大进展,也为未来在其他科学领域中应用类似的方法提供了借鉴。

论文作者为Amil Merchant, Simon Batzner, Samuel S. Schoenholz, Muratahan Aykol, Gowoon Cheon & Ekin Dogus Cubuk,来自Google。

Millions of new materials discovered with deep learning

一、研究背景与动机

材料科学的发展一直受到新材料发现速度的限制,尤其是无机晶体的发现。无机晶体在从微芯片到电池等多种技术应用中至关重要。然而,传统的材料发现方法主要依赖于实验室中的试错过程,这种方法由于时间、成本和复杂性等因素难以实现大规模的材料探索。计算方法,比如密度泛函理论(DFT),虽然在能量计算方面取得了成功,但其计算开销过大,不适合用于大规模的材料筛选。因此,需要一种更高效的方法来系统化地探索材料空间。

近年来,深度学习技术在自然语言处理、计算机视觉和生物领域取得了巨大进展,展示了强大的预测能力和泛化能力,特别是在大数据和高计算力支持下,这些模型表现出明显的”涌现能力”。受到这些成功经验的启发,本文旨在探索深度学习模型,尤其是图神经网络(Graph Neural Networks,GNN),在大规模材料探索中的应用,以实现对晶体稳定性及材料特性的高精度预测​。

二、研究目标

论文的主要目标是利用图神经网络结合大规模主动学习技术来实现以下几个关键任务:

  1. 提高材料发现的效率,实现更高精度和更广泛的材料预测能力。
  2. 扩大已知稳定材料的数量,使得科学家能够更加系统化和全面地探索化学空间。
  3. 实现对复杂多组元系统(如含有五种以上不同元素的晶体结构)的预测,从而拓展对化学多样性和新颖性的理解。

三、方法论与技术细节

论文提出了一种基于大规模图神经网络的主动学习框架,名为GNoME,用于材料的探索与发现。该框架的具体技术实现可以分为以下几个步骤:

1. 结构生成与候选过滤

GNoME框架采用两种候选生成方法:

  • 对称性感知部分替换(SAPS):这是一种改进的生成方法,通过部分替换晶体中的某些原子位置来提高候选材料的多样性。相比于传统的完全替换策略,SAPS能够生成更符合化学对称性且具有更高概率成为稳定结构的候选材料。SAPS的优势在于不仅可以保留原有晶体的部分化学特性,还可以通过细微的改变来显著增加可能性空间,特别是在具有双钙钛矿等复杂结构的情况下表现优异。
  • 随机结构搜索(Random Structure Search,RSS):对于某些复杂的化学组合,论文采用了随机结构搜索,通过生成一系列随机结构并进行过滤,以探索晶体能量最小化的位置。
2. 图神经网络的模型训练与预测
  • GNoME模型:GNoME是一种基于图神经网络的模型,它可以将材料结构表示为图结构,其中原子作为图中的节点,键作为边来连接节点。GNoME通过消息传递机制来模拟原子间相互作用,从而预测材料的总能量及其稳定性。
  • 模型的主动学习循环:GNoME采用主动学习的策略,在每一轮迭代中,根据现有的材料数据库和新生成的候选材料,利用图神经网络模型进行筛选,保留具有更高稳定性概率的结构。然后,使用DFT对这些结构的能量进行计算,验证模型的预测结果,并将这些新数据用于进一步训练和改进GNoME模型,从而形成一个闭环的数据飞轮(data flywheel),不断提升模型的预测能力。
3. 数据增强与不确定性量化
  • 测试时数据增强:为了应对模型在预测未知数据时可能存在的不稳定性,GNoME使用了基于体积的测试时增强方法,即对晶体结构的体积进行不同程度的缩放,来验证模型在不同应变条件下的稳定性。这种方法可以有效校正由于结构不完美而带来的误差。
  • 深度集成与不确定性量化:为了进一步提高模型的鲁棒性和预测精度,研究还采用了深度集成的方法,即训练多个模型并利用它们的集成输出作为最终预测结果,从而减小单一模型可能存在的误差。此外,通过对不同模型的预测结果进行分析,可以量化预测的不确定性,这对于发现新的材料尤其重要​。

四、实验与结果分析

研究中通过GNoME模型进行了大规模的材料探索,取得了以下关键成果:

  1. 大规模稳定材料的发现:通过主动学习迭代,GNoME模型成功发现了220万个相较于以往研究更稳定的新晶体结构,其中有38.1万个稳定在新的凸包上。这意味着这些材料在特定条件下的能量最低,具有极高的化学稳定性。
  2. 复杂系统的预测能力:GNoME展示了在高组元系统(即包含五种以上元素)中的强大预测能力,这是以前基于人类化学直觉和经验无法有效探索的化学空间。通过GNoME模型,成功预测了多个复杂结构的稳定性,使得材料科学家能够更高效地发现具有特殊性能的材料。
  3. 实验验证与精度:研究中还通过对已知实验发现的材料进行匹配,验证了GNoME的预测能力。在ICSD(无机晶体结构数据库)中,736个结构与GNoME的预测结果相匹配,证明了该方法的有效性和高精度。此外,GNoME模型在能量预测上的平均绝对误差达到了11 meV/atom,相较于以前的方法大幅度降低​。

五、技术创新与贡献

  1. 对称性感知部分替换(SAPS):这一技术显著提高了候选材料的多样性,使得大规模材料探索变得更加高效和有效。SAPS不仅在大幅增加生成候选的数量方面表现出色,还在化学多样性和结构稳定性方面提供了保障。
  2. 大规模主动学习:通过反复迭代的主动学习循环,GNoME模型不断更新和提升自身的预测能力,形成了一个强大且高效的数据飞轮机制。主动学习的成功应用使得模型在探索过程中能够逐步优化数据利用效率,提高对复杂晶体结构的泛化能力。
  3. 高精度的原子间势模型:利用GNoME生成的结构和松弛轨迹数据集,研究训练了高精度的等变原子间势模型,用于高保真的分子动力学模拟,这为材料科学的后续研究提供了强大的工具。

六、应用前景与挑战

  • 材料筛选与新材料应用:研究中展示了GNoME模型在新型固体电解质材料筛选中的应用,尤其是在发现高能量密度和高安全性的固态电池方面。此外,GNoME还能够用于层状材料的探索,发现适用于电子器件和能量存储的新材料。
  • 挑战与未来方向
    1. 相变与多形性动态稳定性:GNoME模型虽然在静态晶体稳定性预测方面表现优异,但在处理动态条件下(如相变和振动特性)稳定性时还有待提升,未来需要进一步结合动力学模拟来完善模型的预测能力。
    2. 可合成性与实验验证:虽然GNoME预测了大量的稳定结构,但如何将这些材料成功地在实验中合成出来,仍然是一个巨大的挑战。因此,需要更多结合实验数据的工作,以提高模型预测的实验可行性。
    3. 提升模型的可解释性:目前的深度学习模型在决策过程中的可解释性仍然有限,未来可以考虑结合物理学先验知识,开发更具可解释性的模型,从而帮助研究人员更好地理解模型的预测结果​。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注