CGCNN

发布于:2023-01-20 ⋅ 阅读:(459) ⋅ 点赞:(0)

Crystal Graph Convolutional Neural Networks for an Accurate and Interpretable Prediction of Material Properties(CGConv)

摘要

利用机器学习方法加速晶体材料的设计,通常需要人工构建特征向量或复杂的原子坐标变换来输入晶体结构,这要么将模型限制在特定的晶体类型,要么使其难以提供化学见解。在这里,我们开发了一个晶体图卷积神经网络(CGCNN)框架,直接从晶体中原子的连接中学习材料的性质,提供了一个通用的和可解释的晶体材料的表示。我们的方法对104个数据点训练后的不同结构类型和成分的8种不同晶体的DFT计算性质提供了高度准确的预测。此外,我们的框架是可解释的,因为我们可以提取局部化学环境对全局性质的贡献。以钙钛矿为例,我们展示了如何利用这些信息来发现材料设计的经验规则。

1. 引言

机器学习(ML)方法在加速新材料设计方面越来越受欢迎,其预测材料性能的精度接近ab-initio计算,但计算速度要快几个数量级[1-3]。晶体系统的任意大小提出了一个挑战,因为它们需要表示为一个固定长度的矢量,以便与大多数ML算法兼容。这一问题通常通过使用简单的材料性质[1,3 - 6]手工构造固定长度的特征向量或设计原子坐标的对称不变变换[7-9]来解决。然而,前者需要逐个案例的设计来预测不同的属性,而后者由于复杂的转换使得解释模型变得困难。

在本文中,我们提出了一种广义晶体图卷积神经网络(CGCNN)框架,用于表示周期性晶体系统,既提供了具有DFT精度的材料性质预测,又提供了原子级别的化学见解。“深度学习”最近的进展使我们能够从非常原始的数据表示(如图像像素)中学习,从而有可能构建优于传统专家设计的表示[10]的通用模型。通过研究晶体表示的最简单形式,即晶体中的原子连接,我们直接在晶体结构生成的晶体图上构建卷积神经网络。使用Materials Project[11]的数据训练后,CGCNN对8种不同性质的DFT计算与DFT的精度相当,说明了该方法的通用性。我们还通过从总能量中提取钙钛矿结构中每个位点的能量来证明CGCNN的可解释性,这是学习局部化学环境对全球属性的贡献的一个例子。从结果中总结出的经验规则与发现更稳定的钙钛矿的常识一致,可以显著减少高通量筛选的搜索空间。

2. 方法与实验

我们方法的主要思想是通过一个编码原子信息和原子间键合相互作用的晶体图来表示晶体结构,然后在该图上构建一个卷积神经网络,通过DFT计算数据训练自动提取最适合预测目标属性的表示。如下图所示:

请添加图片描述

图1所示。晶体图卷积神经网络(CGCNN)示意图。(a)晶体图的构造。晶体转换为图,其中节点表示单元中的原子,边表示原子连接。节点和边的特征向量分别对应于晶体中的原子和键。(b)晶体图上的卷积神经网络结构。在每个节点上建立R卷积层和 L 1 L_1 L1隐藏层,产生一个新的图,每个节点表示每个原子的局部环境。池化后,一个表示整个晶体的向量连接到 L 2 L_2 L2隐藏层,然后是输出层提供预测。

图1中(a),晶体图G是一个无向多图,由表示原子的节点和表示晶体中原子之间连接的边定义(确定原子连通性的方法见《补充材料[12]》)。晶体图不同于普通图,因为它允许在同一对端点节点之间有多条边,这是晶体图的一个特点,与分子图相比,这是由于晶体图的周期性。每个节点i由一个特征向量vi表示,编码对应于节点i的原子属性。同样,每条边 ( i , j ) k (i,j)_k (i,j)k由特征向量 u ( i , j ) k u_{(i,j)_k} u(i,j)k表示,它对应连接 原子 i 和原子 j 的第 k 个键 原子i和原子j的第k个键 原子i和原子j的第k个键。在晶体图上构建的卷积神经网络主要由两部分组成:卷积层和池化层。类似的体系结构已用于计算机视觉[13]、自然语言处理[14]、分子指纹[15]和一般图形结构数据[16,17],但据我们所知,尚未用于晶体性质预测。卷积层通过与周围原子的“卷积”迭代更新原子特征向量,并使用非线性图卷积函数进行键合。

请添加图片描述

经过R卷积后,网络通过迭代包含其周围环境,自动学习每个原子的特征向量 v i ( R ) v^{(R)}_i vi(R)。然后,池化层用于生成晶体的整体特征向量 v c v_c vc,可以用池化函数表示,

请添加图片描述

它满足原子索引的排列不变性和单位细胞选择的大小不变性。在这项工作中,为了简单起见,使用了一个规范化求和作为池化函数,但也可以使用其他函数。除了卷积层和池化层外,还增加了两个深度分别为 L 1 和 L 2 L_1和L_2 L1L2的全连通隐藏层,以捕捉晶体结构与性质之间的复杂映射。最后,使用一个输出层连接 L 2 L_2 L2隐藏层,以预测目标属性 y ^ \hat y y^。训练是通过最小化预测属性 y ^ \hat y y^和DFT计算属性 y y y之间的差异来进行的,DFT计算属性 y y y由成本函数 J ( y , y ^ ) J(y,\hat y) J(yy^)定义。整个CGCNN可以被认为是一个函数 f f f,由权重 W W W参数化,将晶体 C C C映射到目标属性 y ^ \hat y y^。利用反向传播和随机梯度下降(SGD),我们可以用DFT计算的数据迭代更新权值来解决下面的优化问题

请添加图片描述

学习到的权重可以用来预测材料的性质,并为未来的材料设计提供化学见解。

在补充材料(SM)中,我们用一个简单的例子来说明由一个线性卷积层和一个池化层组成的CGCNN如何区分两种晶体结构。CGCNN具有多个卷积层、池化层和隐藏层,可以根据原子连接提取任何结构差异,发现结构和性质之间的底层关系。

为了演示CGCNN的概括性,我们使用来自Materials Project[11]的计算属性来训练模型。在这项工作中,我们主要关注两种类型的一般性:(1)我们的模型可以应用的结构类型和化学组成,(2)我们的模型可以准确预测的性质的数量。

我们使用的数据库包括从简单金属到复杂矿物的各种无机晶体。去除病态收敛晶体后,完整数据库有46744种材料,涵盖87个元素、7个晶格系统和216个空间组。如图2(a)所示,该材料由多达7种不同的元素组成,其中90%为二元、三元和四元化合物。原始晶胞中的原子数在1 ~ 200之间,90%的晶体原子数小于60(图S2)。由于大多数晶体来自无机晶体结构数据库(ICSD)[19],该数据库可以很好地反映已知的化学计量无机晶体。

请添加图片描述

CGCNN是一个灵活的框架,允许在晶体图表示、神经网络架构和训练过程中存在方差,从而导致Eq. 3和预测性能的差异。为了选择最佳的模型,我们采用训练验证方案来优化晶体的生成能预测。每个模型用60%的数据进行训练,然后用20%的数据进行验证,选择验证集中表现最好的模型。在我们的研究中,我们发现神经网络结构,尤其是Eq. 1中的卷积函数形式,对预测性能的影响最大。我们从一个简单的卷积函数开始

请添加图片描述

式中 ⊕ ⊕ 表示原子和键特征向量的级联, W c ( t ) 、 W s ( t ) 、 b ( t ) W^{(t)}_c、W^{(t)}_s、b^{(t)} Wc(t)Ws(t)b(t)分别为第t层的卷积权矩阵、自权矩阵和偏置, g g g为层间引入非线性耦合的激活函数。通过优化表 S 1 S1 S1中的超参数,验证集的最低平均绝对误差 ( M A E ) 为 0.108 e V / a t o m (MAE)为0.108 eV/atom (MAE)0.108eV/atom。eq.4的一个局限性是,它对 i i i的所有邻居使用了一个共享的权矩阵 W c ( t ) W^{(t)}_c Wc(t),忽略了邻居之间交互强度的差异。为了克服这一问题,我们设计了一个新的卷积函数,它首先将相邻向量( z ( i , j ) k ( t ) = v i ( t ) ⊕ v j ( t ) ⊕ u k ( i , j ) z^{(t)}_{(i,j)_k} = v^{(t)}_i⊕v^{(t)}_j⊕u^{(i,j)}_k z(i,j)k(t)=vi(t)vj(t)uk(i,j))拼接起来,然后通过

请添加图片描述

式中 ⊙ \odot 为逐元乘法, σ 为 s i g m o i d σ为sigmoid σsigmoid函数。在Eq. 5中, σ ( ⋅ ) σ(·) σ()作为一个学习的权值矩阵来区分邻居之间的相互作用,加上 v i ( t ) v^{(t)}_i vi(t)使学习更深层次的网络[20]更容易。我们使用改进的卷积函数在 0.039 e V / a t o m 0.039 eV/atom 0.039eV/atom的验证集上实现MAE,与Eq. 4相比有显著改进。在图S3中,我们比较了其他几个超参数对MAE的影响,它们比卷积函数的影响小得多。

图2(b)©显示了两种模型在9350个测试晶体上预测每个原子形成能的性能。我们发现,随着训练数据数量的增加,两种卷积函数的预测值的平均绝对误差(MAE)都比DFT计算值有系统地减小。利用Eq. 4和Eq. 5获得的最佳MAE值分别为 0.136 e V / a t o m 和 0.039 e V / a t o m 0.136 eV/atom和0.039 eV/atom 0.136eV/atom0.039eV/atom,90%的晶体预测误差分别在 0.3 e V / a t o m 和 0.08 e V / a t o m 0.3 eV/atom和0.08 eV/atom 0.3eV/atom0.08eV/atom范围内。相比之下,Kirklin等人报告了DFT计算相对于开放量子材料数据库(OQMD)中实验测量的MAE为 0.081 − 0.136 e V / a t o m 0.081-0.136 eV/atom 0.0810.136eV/atom,这取决于元素参考态的能量是否拟合,尽管他们也发现不同来源的实验数据之间的大MAE为 0.082 e V / a t o m 0.082 eV/atom 0.082eV/atom。通过比较,我们的CGCNN方法为DFT计算提供了可靠的估计,并有可能用于预测GW[21]和量子蒙特卡洛[22]等更准确的方法计算的性质。

在建立了CGCNN对晶体多样性的一般性之后,我们接下来探索它对不同材料性能的预测性能。我们应用相同的框架来预测晶体的绝对能、能带隙、费米能、体模量、剪切模量和泊松比,使用的DFT计算数据来自Materials Project[11]。与Eq. 4相比,Eq. 5对所有六个特性的预测性能都有所提高(表S4)。我们在表1和图S4中相应的2D直方图中总结了性能。正如我们所看到的,当使用了 1 0 4 10^4 104个训练数据时,我们模型的MAE接近或高于DFT的精度相对于实验的大多数性质。对于弹性性质,由于可用的数据较少,误差较高,如果可用的训练数据达到 1 0 4 10^4 104个,则DFT相对于实验的准确性是可以预期的(图S5)。

请添加图片描述
请添加图片描述

请添加图片描述

最近,Jong等人[25]开发了一种统计学习(SL)框架,使用来自材料项目的相同数据,利用晶体描述符上的多元局部回归来预测弹性性能。通过使用相同数量的训练数据,我们的模型在体积和剪切模量分别为 0.105 l o g ( G P a ) 和 0.127 l o g ( G P a ) 0.105 log(GPa)和0.127 log(GPa) 0.105log(GPa)0.127log(GPa)的测试集上实现了均方根误差(RMSE),这与在整个数据集 0.0750 l o g ( G P a ) 和 0.1378 l o g ( G P a ) 0.0750 log(GPa)和0.1378 log(GPa) 0.0750log(GPa)0.1378log(GPa)上的SL的RMSE相似。对比两种方法,CGCNN仅从晶体结构中提取特征来预测性质,而SL则依赖于晶体描述符,如凝聚能和每个原子的体积。最近,1585种具有弹性性能的新晶体被上传到Materials Project数据库。我们在表1中的模型获得了这些晶体上的体模量MAE为 0.077 L o g ( G P a ) 0.077 Log(GPa) 0.077Log(GPa)和剪切模量MAE为 0.114 L o g ( G P a ) 0.114 Log(GPa) 0.114Log(GPa),对潜在不同晶体群的材料显示出良好的泛化效果。

除了预测连续性质,CGCNN还可以通过改变输出层来预测离散性质。通过对输出层使用softmax激活函数和交叉熵代价函数,我们可以预测具有相同框架的金属和半导体的分类。在图2(d)中,我们展示了9350个试验晶体预测的受试者工作特征(ROC)曲线。曲线下面积(area under the curve, AUC)为0.95,预测效果良好。选择阈值为0.5,得到金属预测精度为0.80,半导体预测精度为0.95,整体预测精度为0.90。

模型可解释性是材料科学中应用的任何ML算法都需要的特性,因为它可以为材料设计提供额外的信息,这可能比简单地筛选大量材料更有价值。然而,学习复杂的结构-性质关系需要非线性函数,导致ML模型难以对其加以处理。CGCNN通过将卷积层和池化层分离来解决这一难题。在R卷积和 L 1 L_1 L1隐藏层之后,我们将最后一个原子特征向量向量 v i ( R ) v^{(R)}_i vi(R)映射到一个标量 v ~ i \tilde v_i v~i,并执行线性池化直接预测目标属性,而不需要 L 2 L_2 L2隐藏层(细节在SM中讨论)。因此,我们可以学习不同的局部化学环境对目标属性的贡献,每个原子由 v ~ i \tilde v_i v~i表示,同时保持一个高容量的模型,以确保预测性能。

我们通过一个具体的例子展示了这些局部化学环境相关信息如何被用于提供化学见解和指导材料设计:从船体上方的总能量数据学习钙钛矿中每个位点的能量。钙钛矿是一种 A B X 3 ABX_3 ABX3形式的晶体结构类型,a位原子位于角位置,B位原子位于体中心位置,X位原子位于面中心位置(图3(a))。我们使用的数据库[26]包括18928个钙钛矿晶体壳上能量,其中A和B位可以是任何非放射性金属,X位可以是 O 、 N 、 S 和 f O、N、S和f ONSf中的一个或几个元素。我们使用线性池化的CGCNN,用公式4作为卷积函数,预测数据库中钙钛矿壳上总能量。如图3(b)所示,3787测试钙钛矿的MAE为 0.130 e V / a t o m 0.130 eV/atom 0.130eV/atom,由于简化池化层引入了额外的约束,这一结果略高于使用完整池化层和 L 2 L_2 L2隐藏层( 0.099 e V / a t o m 0.099 eV/atom 0.099eV/atom,如图S6所示)。然而,这个CGCNN让我们在训练船体上方的总能量时,可以了解晶体中每个部位的能量,为材料设计提供了额外的见解。

请添加图片描述

请添加图片描述

图3(c, d)显示了每个元素分别占据A和B位点时预测的位点能量的平均值。占据A点最稳定的元素是那些半径较大的元素,因为需要12个坐标的空间。相比之下,Be、B、Si等半径较小的元素在占据A点时最不稳定。对于B位,第4、5和6组元素在周期表中是最稳定的。这可以用晶体场论来解释,因为这些元素的d电子构型在B位有利于八面体配位。有趣的是,可视化显示,除了已知的组1-3元素区域外,来自组13-15的大原子在A位点是稳定的。受到这个结果的启发,我们应用组合搜索来寻找稳定的钙钛矿,使用组13-15的元素作为a位点,组4-6的元素作为B位点。由于DFT计算的理论不准确,以及亚稳相可以通过温度、缺陷和衬底稳定的可能性,许多可合成的无机晶体在0 K时具有正的计算能量。由于强的键合相互作用[27],一些亚稳态氮化物在壳上的能量甚至可以达到 0.2 e V / a t o m 0.2 eV/atom 0.2eV/atom。在这项工作中,由于某些钙钛矿也是氮化物,我们选择将潜在合成能力的截止能量设置为 0.2 e V / a t o m 0.2 eV/atom 0.2eV/atom。我们在整个数据集中的378个钙钛矿中发现了33个钙钛矿在这个阈值范围内,其中8个在测试集中58个钙钛矿的截止范围内(表S5)。许多这样的化合物,如PbTiO3[28], PbZrO3[28], SnTaO3[29]和PbMoO3[30]已经被实验合成。注意PbMoO3在船体上方的计算能量为 0.18 e V / a t o m 0.18 eV/atom 0.18eV/atom,说明我们选择的截止能量是合理的。总的来说,CGCNN获得的化学见解可以显著减少高通量筛选的搜索空间。相比之下,在我们的数据库中,18928个钙钛矿中只有228个可能可以合成:化学洞察力提高了7倍的搜索效率。

3. 总结

综上所述,晶体图卷积神经网络(CGCNN)为材料性能预测和设计知识提取提供了一个灵活的机器学习框架。该框架利用 1 0 4 10^4 104个训练数据对具有不同结构类型和组成的无机晶体的8种性质提供了可靠的DFT计算估计。作为知识提取的一个例子,我们将这种方法应用于新的钙钛矿材料的设计,表明从模型中提取的信息与常见的化学见解一致,并显著减少了高通量筛选的搜索空间

算估计。作为知识提取的一个例子,我们将这种方法应用于新的钙钛矿材料的设计,表明从模型中提取的信息与常见的化学见解一致,并显著减少了高通量筛选的搜索空间

后面的附录我就不翻译了,有兴趣的可以去看看原文。Phys. Rev. Lett. 120, 145301 (2018) - Crystal Graph Convolutional Neural Networks for an Accurate and Interpretable Prediction of Material Properties (aps.org)

本文含有隐藏内容,请 开通VIP 后查看