面向复合材料带隙预测的两段式集成学习模型构建

2022-11-12 09:03徐燕胡红青刘茜张玉凤丁广太张惠然
关键词:钙钛矿氧化物机器

徐燕胡红青刘茜张玉凤丁广太张惠然

(1.上海电力大学数理学院,上海201306;2.上海大学计算机工程与科学学院,上海200444;3.上海大学材料基因组工程研究院材料信息与数据科学中心,上海200444;4.之江实验室,浙江杭州311100)

带隙对材料的物理化学性质具有重要的影响,是描述钙钛矿型复合氧化物材料十分重要的特征参数之一.例如,钙钛矿太阳能电池器件的光电转换效率[1]、铅卤化物钙钛矿LED器件的发光效率[2-3]等.因此,制备合适带隙的钙钛矿型复合氧化物材料是一项重要的研究工作.通常情况下,直接测量带隙需要消耗大量的时间和资源,即使利用高通量计算也需要较长的时间.如果利用钙钛矿型复合氧化物材料的一些特征参数作为输入数据,使用机器学习方法以目标带隙为导向设计出符合需求、性能优异的材料,将会大大加快新钙钛矿型复合材料的研发.

一般情况下,多采用单一的算法来预测钙钛矿型复合氧化物材料的带隙.例如,Lu等[4]采用6种不同的机器学习回归算法来预测未被发现的有机无机杂化钙钛矿(HOIPs)材料,找出了6种无铅且具有稳定带隙的杂化钙钛矿复合材料适合用于制备太阳能电池.Gu等[5]采用人工神经网络(artificial neural network,ANN)和支持向量回归(support vector regression,SVR)算法预测了25种二元化合物和31种三元化合物的带隙.Jain等[6]用SVR算法来预测454种具有钙钛矿结构的无机卤化物的可成形性能.Liu等[7]利用具有高精度的梯度提升决策树(gradient boosting decision tree,DBDT)来筛选稳态和亚稳态钙钛矿材料.Pilania等[8]构建了一个使用简单的元素描述子集的核岭回归(kernel ridge regression,KRR)模型来预测双钙钛矿复合材料的带隙.Dey等[9]利用不同的机器学习方法如普通最小二乘法(ordinary least square,OLS)、稀疏偏最小二乘(sparse partial least squares,SPLS)和LASSO(least absolute shrinkage and selection operator)回归等来预测227种黄铜矿物的带隙.Lee等[10]也利用OLS、LASSO和SVR等机器学习算法和密度泛函计算相结合的方法来构建预测270种无机化合物G0W0带隙的模型[10].但是,单一算法的预测精度、泛化性能有限,尝试多种算法以及调参也很难实现较高精度和泛化性能[11-12].在材料的研究上,单个的机器学习算法也并不能够总是提供解决特定应用问题所需的准确性[13].而使用集成学习来对材料性能进行预测被认为是一种有效的手段[13-15],也能够解决材料数据量不高的问题[16-17].

由于材料数据的维度较小,为了避免普通集成算法的过拟合,本工作中构建了一个两阶段异质集成学习模型来预测钙钛矿型复合氧化物材料的带隙,利用不同基础学习器来学习输入数据特征中的不同信息,并通过第二阶段的算法将这些学习到的不同信息很好地融合在一起,从而实现模型的较高精度和泛化性能.实验结果表明,在所使用的材料数据量不大的情况下,本工作所构建的集成学习模型在预测钙钛矿型复合氧化物材料的带隙方面比单个机器学习算法有明显的优势,也比常规的集成策略精度更高.

1 方法

1.1 数据集和特征选择

本工作使用的数据集数据来自Materials Project和上海大学材料基因专用数据库,由210种钙钛矿型复合氧化物材料的特征数据组成.这些钙钛矿氧化物材料的特征数据(包括目标属性:带隙)一般是由第一性原理计算所得.根据带隙可以把这210种复合材料分为3类:金属导体(带隙为0 eV)、半导体(带隙为0~4.5 eV)、绝缘体(带隙大于4.5 eV).

为了解决钙钛矿型复合氧化物材料的分类问题,最初收集的19个描述ABX3的特征数据既包含了与几何空间结构相关的特征数据,也包含了和电子结构相关的特征数据.首先,选取与几何空间结构相关的特征数据[18]:晶格常数(lA、lB、lC),位点数(N),原胞的体积(V),晶系(CS),空间群和浓度(D);然后,选取与电子结构相关的特征数据,比如:形成能(EF),定量描述材料热力学稳定性的物理量(EH),A位和B位元素的电负性(xA、xB).最后,把A、B、X位的原子半径数据(rA、rB、rC)扩展为3组描述子(rA/rC,rB/rC;rA+rC,rB+rC;rA,rB,rC)以期获得更有效的特征数据.

因为机器学习是通过训练数据建立模型来预测未知数据的,因此输入数据的形式会影响到模型的准确性.为避免影响带隙的特征数据被隐藏,在进行模型训练之前需要对所选特征数据进行预处理,剔除高度相关的数据来获得最佳数据子集.使用皮尔逊相关系数矩阵对所选特征数据进行了相关性分析,结果如图1所示.从图1(a)中可以看出,几何空间结构数据rA/rC(表示为rA/C)和rB/rC(表示为rB/C)与电子结构相关的数据EH和和xB等特征数据之间相关性较弱.最终,我们从原始的19个特征数据中筛选出lA、N、D、V、CS、rA/rC、rB/rC、EF、EH、xB进行下一步的模型训练.

图1 钙钛矿型复合氧化物材料特征数据皮尔逊相关系数矩阵热力图Fig.1 Comparison of the heat maps of Pearson correlation coefficient matrix among the descriptors for ABX3-type perovskites data

1.2 算法模型构建

图2给出了基于机器学习和异质集成学习的两阶段集成学习模型的基本原理图.第一阶段由3步组成:首先,将包含所需材料部分特征值以及扩展值的数据集进行预处理;然后,将最佳数据子集输入到多个基础机器学习算法来预测目标值;最后,对这些基础机器学习算法的预测能力进行评价,同时每种算法都能得到可以描述材料结构与物性关联的函数.在该阶段,由于回归算法的不同,各基础机器学习算法探索出的结构-属性关联函数也各不相同.这个函数表示为

图2 基于机器学习和异质集成学习的集成学习模型策略图Fig.2 Overall learning process of ensemble learning model based on machine learning and heterogeneous ensemble learning

式中:xn代表输入的第n个基本特征数据;fi(X)代表在第一阶段中由独立的基础机器学习算法所产生的函数

接下来在第二阶段,所有的基础机器学习算法所产生的函数和一些特殊的描述子一起被输入到一个元学习器进而得到一个集成学习模型.第一阶段选取的5种常用基础机器学习算法分别是贝叶斯岭回归(Bayesian ridge regression,BRR)、决策树回归(decision treeregression,DTR)、内置交叉验证的岭回归(ridge cross-validation regression,RCVR)、SVR和弹性网络回归(elastic net regression,ENR).这些独立算法产生的函数fi(X):(f1f5)和一些特殊的描述子Mj:(M1~M4)分别是lA、EH、EF和xB,一起被用作集成学习策略g(fi(X),Mj)第二阶段的特征数据输入.最终,集成学习模型(ensemble learning model,ELM)的输出定义为

在构建集成学习模型的过程中,首先按照7∶3的比例将筛选出的特征数据子集划分为训练集和测试集,训练集用来训练机器学习模型,测试集用来评估机器学习模型的泛化能力.接下来,70%的训练集按照7∶3的比例划分为训练子集和验证子集,分别用来训练和评估集成学习模型.选择哪种集成学习算法主要取决于第一阶段单个机器学习算法的评估结果.在第二阶段,利用9维特征数据(第一阶段5种基础机器学习算法的预测结果和4个最有效的特征数据)作为输入特征数据,继续对钙钛矿型复合氧化物材料的带隙进行预测.最后,经过训练会得到一个元学习器,建立了一个完整的集成学习模型.

2 结果和讨论

首先,与本工作所构建的集成学习模型进行比较的是5种基础机器学习算法.因为这5种基础机器学习算法的不同,它们会从不同的角度给出材料结构与性能之间的关联.而集成学习模型则结合了这些基础机器学习算法和一些特征数据,先利用一个更加综合的模型来探索影响材料带隙的特征数据,再将其与不同的集成策略相比较,从而更全面地评价本工作所构建的集成学习模型.

2.1 单个机器学习算法和集成学习模型的选择

本工作在第二阶段选择了DTR来集成这些基础的机器学习算法.为了解释集成策略的合理性,首先比较了5种基础机器学习算法的预测结果和原始数据值,结果如图3所示.图3中黑色点的重叠程度可以很好地代表带隙的分布.从图中可以看出,使用BRR、RCVR和ENR预测的带隙值主要分布在0~4 eV,使用SVR预测的带隙值主要分布在-2~4 eV,而使用DTR预测的带隙值分布与原始带隙值分布最为接近.

图3 210种钙钛矿型复合氧化物材料的原始带隙值分布和5种基础算法预测的带隙值分布Fig.3 Predicted band gap values of the corresponding base learners and the original band gap values of the 210 ABX3-type perovskites

为了更好地评估5种基础机器学习算法,表1列出了3种评估指标:均方误差(mean square error,MSE),平均绝对误差(mean absolute error,MAE)和决定系数R2[19].MSE可以评估预测数据和原始数据对应点的偏差程度;MAE代表预测数据与真实数据的误差绝对值的平均值,可以更好地反应预测值的真实误差.MSE和MAE的数值越小,则说明预测模型的准确性更高.决定系数R2是表征方程对观测值的拟合程度,它的正常取值范围为(0,1),数值越接近1,表明所构建模型对数据拟合的越好.通过表一数据的对比发现,利用DTR模型预测的结果最好,这也与图1的结果相互印证.实际上,这5种机器学习算法都属于弱学习器,它们都没能给出较为理想的预测结果.这些预测结果也促使我们在下一阶段尝试使用DTR(5种算法中效果最好)来训练元学习器.

表1 预测带隙的5种基本学习算法的评估Table 1 Evaluation of five kinds of base learners for band gaps prediction

2.2 集成学习模型和单个机器学习模型

由于第一阶段所用的特征数据对DTR表现出一定的偏好,在构建集成学习模型的第二阶段选择DTR.在第一阶段5种基础机器学习算法的输出结果(f1、f2、f3、f4、f5)和另外4个特征数值(lA、EH、EF和xB)就构成了第二阶段的训练数据集.

图4(a)给出了5种基础机器学习算法、随机森林回归(random forest regression,RFR)和本模型预测的带隙值和原始带隙值之间的差异.图3(a)中,虚线是由预测值数据点拟合而成,而黑色的实线代表预测带隙值与原始带隙值完全一致,预测值拟合曲线与黑色实线偏离越多说明预测结果越差.从图4(a)可以看出,由本工作构建的集成学习模型预测的带隙值所拟合的粉色虚线与标准的黑色实线偏离程度最小,表明集成学习模型比其他预测模型更加精确.

图4(b)给出了5种基础机器学习算法、RFR和集成学习模型的MSE、MAE和R2值.可以看出,与5种基础机器学习算法相比较,随机森林回归和集成学习模型具有较高的R2值、较低的MSE和MAE值,这也说明本工作所采用集成策略的可行性.正如预期,本工作所构建的集成学习模型具有最高的R2值(0.882),同时具有最低的MSE和MAE值.这意味着本工作所构建的集成策略较好,在钙钛矿型复合氧化物材料带隙预测上具有更大的优势.

图4 5种基础机器学习算法、随机森林回归和集成学习模型的比较Fig.4 Comparison of five kinds of learners,RFR and ELM

由于5种基础机器学习算法各有所长,利用它们探索出的结构物性关系也是不同的,同时也可能是片面的.但是,如果把它们结合在一起则可以在某种程度上弥补各自的不足.因此把5种单独的学习算法结合在一起,并加入一些其他较为重要的特征数据来构建集成学习模型,可以更加有效和精确地预测材料的结构物性关系.

2.3 与其他组合策略的比较

关于数值预测型回归问题,常用到的组合策略是均值法[20],即利用几个基础机器学习算法的预测结果直接求平均值作为最终的预测值.这种方法较为简单但是学习误差较大,数据也会有相对较大的偏差.同时,利用随机森林回归预测的数据值显示,有些样本的预测结果误差较小而有些则误差较大,边界不够稳定.与均值法和随机森林回归模型相比较,集成学习模型的预测结果更加稳定.本工作通过增加一层学习算法的组合策略而构建的两段式集成学习模型,其预测数据值的误差要远小于利用单独机器学习算法预测数据值的误差.

为了更充分地说明问题,本工作还给出了利用均值法、随机森林回归和集成学习模型预测数据值的误差散点图(见图5).图5中,数据点越接近中心的红点代表预测误差越小,这更加直观地显示了本工作所构建的集成学习模型要优于另外两种组合策略.基础机器学习算法的多样性使得整个集成学习模型具有更稳定的边界和较低的过拟合风险,也意味着这种模型具有更强的泛化能力,这将使得这种构建集成学习模型的组合策略变得更有意义.

图5 均值法、随机森林回归和集成学习模型预测值误差散点图Fig.5 Prediction error scatter diagram of the three groups

通过实验结果发现,本工作所构建的集成学习模型比单个的基础机器学习算法能做出更加有效的数值预测,并具有较好的泛化能力.基于堆叠集成策略的集成学习模型在预测钙钛矿型氧化物复合材料的带隙时,其预测能力得到提高,同时也避免了人工选择算法的繁琐过程.

3 结束语

本工作构建了基于支持向量回归、决策树、贝叶斯岭回归、内置交叉验证的岭回归和弹性网络回归这5个基础学习器的集成模型,该模型集合了不同基础学习器的优点,具有更高的预测精度和模型鲁棒性.实验结果表明,在本工作构建的模型中,集成学习方法比单个学习器具有更好的预测效果和更好的泛化性能.作为一个应用示范,本工作利用这种两段式集成学习模型预测了钙钛矿型氧化物复合材料的带隙.与单独的决策树回归模型和随机森林回归模型相比较,两段式集成学习模型的预测结果更加地接近实验值,并且具有更加稳定的边界.与传统方法通过不断调试使模型更加适合原始数据不同,本工作通过多种算法的融合来获得一个稳固的边界,从而提高模型的鲁棒性和泛化能力.该两段异质集成学习模型避免了科研人员反复挑选合适算法的过程,将有助于加快利用机器学习方法进行材料学研究.

猜你喜欢
钙钛矿氧化物机器
机器狗
机器狗
未来机器城
钙钛矿结合钾 太阳能电池效率再提升
氧化物的类型归纳
话说“氧化物”一节的教与学
环保型钙钛矿太阳能电池研制成功
基于含Ni稀土钙钛矿LaNiTiO3的过氧化氢无酶传感器
化学问答