基于特征工程和机器学习的铝基高熵合金稳定性预测

2022-11-12 09:03胡瑞刘庆张光捷李俊杰陈晓玉魏晓戴东波
关键词:决策树合金稳定性

胡瑞刘庆张光捷李俊杰陈晓玉魏晓戴东波

(1.上海大学计算工程与科学学院,上海200444;2.上海大学材料基因组工程研究院材料信息与数据科学中心,上海200444;3.之江实验室,浙江杭州311100)

由于高熵合金颗粒增强的铝基复合材料具有较好的强度、韧性、耐腐蚀性、抗疲劳性和热稳定性等性能,故针对高熵合金增强颗粒的研究具有相当重要意义[1].Liu等[2]通过等离子放电烧结加入5%、具有稳定面心立方(face centered cubic,FCC)-体心立方(body centered cubic,BCC)双相的AlCoCrFeNi高熵合金颗粒,获得了屈服强度增加42%的新型铝基复合材料;Zhu等[3]使用FCC单相Al0.25Cu0.75FeNiCo高熵合金作为增强相提高铝基复合材料的强度和韧性.由于相的稳定性对高熵合金相的形成有较大的影响[4],因此准确预测高熵合金生成相对高熵合金在铝基复合材料上的应用至关重要.

高熵合金中不同元素的特性及元素间的相互作用决定了相的种类和组成,最终影响到高熵合金的总体性能[4-5].Yang等[6]提出,高熵合金的相形成是由一组热力学参数决定的,如原子尺寸差、混合熵和混合焓;Wang等[7]将第一原理方法应用于难熔高熵合金,以预测其在温度-组合空间中的相形成行为;Yeh等[8]应用了高熵合金的相图计算方法(computer coupling of phase diagram and thermochemistry,CALPHAD),并研究了相形成行为,建立了商业热力学数据库.CALPHAD通过直接计算在给定温度和压强下多组分系统的吉布斯自由能的最小值得到了平衡相[9].密度泛函理论(density functional theory,DFT)计算和从头算分子动力学(ab initio molecular dynamics,AIMD)模拟[10]也经常被用来进行高熵合金的设计.然而,这些技术都存在高成本、耗费大量计算时间的缺点[11],因此了解高熵合金相形成的潜在机理仍然是一种挑战[12].

近年来,机器学习在预测高熵合金的相[11]、研究材料和分子的关系[13]、预测耐磨材料的质量[14]、研究影响二元合金固溶度的因素[15]等方面有了一定进展.采用以数据驱动的机器学习方法,从数据集中学习潜在规则并构建模型,能够加快对目标性能的预测[16].利用特征工程从原始特征中选择合适的特征可以提高机器学习模型预测的准确性[17].本工作提出了一种基于结合了特征工程和机器学习的方法来预测高熵合金的相稳定性.首先,依赖数据集对多个模型进行评估,依据评估结果选择预测模型;然后,基于选择的模型使用特征工程抽取和分析了影响高熵合金相稳定性的经验热力学参数;最后,通过选择的特征和模型建立了高熵合金在室温下的相稳定性预测模型,最终达到了提高预测精度的目的.

1 方法

1.1 机器学习流程的构建

根据获得的数据集和预测变量,基于机器学习的高熵合金相稳定性预测模型的构建流程如图1所示.首先,本模型的数据选取自参考文献[18],数据集一共包含407个高熵合金样本,数据集按5∶5随机分为训练集和测试集;然后,进行模型训练与评估,基于10折交叉检验,建立4种回归模型,对相稳定性预测模型进行训练和评估;其次,评估模型时使用了平均绝对误差(mean absolute deviation,MAE)、均方误差(mean-square error,MSE)、拟合系数R2等评价指标,根据评估结果选择性能最好的模型;最后,将基于确定的模型利用特征工程筛选出的影响高熵合金相稳定性的重要因素作为新的输入,建立起新的高熵合金相稳定性预测模型并做预测分析,基于测试集进行独立预测,并进行评估分析.

图1 机器学习的性能预测模型工作流程图Fig.1 Workflow flowchart of machine learning performance prediction model

在训练模型之前通常要对算法进行参数寻优.由于整体的样本集数量不大,故对其他3种回归算法设置默认的参数.而对于随机森林(random forest,RF)算法,其默认的内部决策树(decision tree,DT)数量为500,由于在面对高熵合金小数据集的场景下会导致模型过拟合,因此设定通过迭代选择最佳决策树的个数为40.

1.2 数据集处理

高熵合金数据集分为FCC、BCC、密排六方(hexagonal close-packed structure,HCP)、多相(multi-phase,MP)和非晶态(amorphous phase,AM)这5类相,并包含混合焓ΔHmix、混合熵ΔSmix、原子尺寸差δ、价电子浓度(valence electron concentration,VEC)等14个经验热物理参数特征.在恒定的温度和压力下,根据式(1)得到每个样本的ΔGmix数据.最终获得的数据集中包含407个高熵合金样本、12个特征,以及目标属性ΔGmix:

详细的特征数据示例如表1所示(以2个合金样本为例).

表1 高熵合金数据集的特征参数Table 1 Characteristic parameters of high-entropy alloy data set

针对特定材料属性选择合适的算法训练模型非常重要,数据可以在某种程度上确定机器学习的局限性[19].图2中显示了13个描述符之间的Pearson相关系数的可视化,颜色的深浅对应了特征之间线性相关性的强弱.从图2中可以看出,这些特征之间存在较高的线性相关性,意味着这些特征之间是相互影响的.对于具有高度线性相关性的2个特征而言,在某种程度上这2个特征是可以相互替代的.

图2 特征之间的皮尔森相关性系数可视化展示Fig.2 Visualization display of Pearson correlation coefficients between features

1.3 特征工程

机器学习模型的性能依赖于使用的特征,而特征的选择又非常依赖于特定的预测任务.就收集的这批数据集而言,影响高熵合金相稳定性的特征多达13个.显然,要选择重要的相关特征作为模型的输入是相当困难的.因此,本工作利用特征工程来进行特征选择,最大程度地从原始数据中提取特征以供算法和模型使用[20].对于任何针对预测材料属性的机器学习模型,其性能通常取决于特征的最优数量及特征的意义.尽管可能有许多因素影响材料的目标特性,但是特征的数量必须合理,否则会造成算法的过拟合或欠拟合.可见,特征的选择可以避免算法的欠拟合,提高预测的准确率和效率.通常来说,根据特征选择的形式又可以将特征选择方法分为3种:过滤法(filter)、包装法(wrapper)和嵌入法(embedded)[21].本工作使用嵌入法进行特征选择,即选用的随机森林模型对特征进行拟合训练,得到各个特征的权值系数(特征重要性分数),并根据系数从大到小选择特征.

1.4 机器学习模型选择

关于高熵合金相稳定性预测这一问题需要构建一个回归模型,用于发现热力学参数和相稳定性之间的相关性.通常,不同的机器学习模型适合不同的预测任务.本工作使用多种机器学习模型对该预测任务进行建模,通过对比各个模型在该任务上的表现,最终根据评估指标确定高熵合金相稳定性预测模型.本工作选取了常用的4个模型来进行建模:决策树算法、随机森林、线性回归(linear regression,LR)和贝叶斯岭回归(Bayesian ridge regression,BRR).

1.4.1 决策树

决策树是一种非常基础又常见的机器学习模型.决策树的每个非叶子节点对应一个特征,该节点的每个分支代表这个特征的一个取值,而每个叶节点存放一个类别或一个回归函数[22].使用决策树进行决策的过程就是从根节点开始,提取出待分类项中相应的特征,按照其值选择输出分支,依次向下,直至叶子节点,将叶子节点存放的类别或者回归函数的运算结果作为输出(决策)结果.决策树的决策过程非常直观,易被理解,且运算量相对较小.

基于决策树的构建,可以清楚地获得训练后的决策树预测模型每个特征节点的选择和划分依据.因此,可以直观地看到影响高熵合金相稳定性的参数排序,通常靠近顶层的特征节点对预测目标的影响最大.

1.4.2 随机森林

随机森林回归是使用随机的方式建立一个森林(forest),森林由多个决策树组成,随机森林的每一棵决策树之间是没有关联的.当有新样本进入的时候,森林中的每一棵决策树分别进行判断.随机(random)是指在训练时随机选取特征作为决策节点,并对产生的多个决策结果进行汇总输出,该方法主要应用于回归和分类[23].当将随机森林作为预测模型时,模型的结果是多棵不相关决策树结果的集成.因此,随机森林可以获得更小的误差,并且也可以为特征进行重要性评估,这对于分析高熵合金相的稳定性及其影响因素的相关性提供定量的参考.

1.4.3 线性回归

线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程.通过构建损失函数来求解损失函数最小时的参数w和b[24]:

1.4.4 贝叶斯岭回归

贝叶斯岭回归是利用概率模型估算回归问题.贝叶斯岭回归能估计出一个求解回归问题的概率模型,根据已有的数据进行改变,在估计过程中引入正则项参数.这里,正则项参数并不是严格意义上的定义,而是根据数据进行调整[25].从图2可以看出,有超过一半的参数与预测目标有高度相关性,这使得在训练模型时往往会产生模型过拟合现象.因此,使用极大似然估计加上正则项的贝叶斯岭回归能够抑制模型的复杂度,避免产生过拟合.

2 结果与分析

在本实验中,通过构建4种不同的回归模型(DT、RF、LR和BRR)来预测ΔGmix.表2列出了这4种算法模型的10折交叉验证结果,图3将表2给出的结果结合带误差棒的柱状图进行统计绘制.在交叉验证的10次测试中,表2粗体标记的值为每个模型在10次测试中的最好结果,可以看出RF算法在测试集上的准确率最高.从图3也能看出,模型交叉验证的平均性能还是RF最好,并且RF结果的相对稳定性也最好;DT的稳定性不如RF模型,且2个回归模型预测准确性不够高.显然,在训练样本量不大的情况下,RF决策树集成算法在应对高熵合金数据集时拟合的准确度最高且稳定性最好.

图3 4个模型的10折交叉验证准确度Fig.3 10-fold cross-validation accuracy of four models

表2 高熵合金相稳定性预测的交叉验证结果Table 2 Cross validation results of phase stability prediction of high entropy alloys

为了找出合金体系影响吉布斯自由能的热力学参数,需要基于RF模型进行特征选择.图4展示了基于随机森林回归模型的特征重要性排序.从图4中可以看出,φ和的特征重要性远大于其他特征,表明这2个特征对高熵合金相稳定性有很大的影响.由Ye等[26-27]提出的无量纲参数φ可以看作是一种熵,衡量合金原子大小差异以及化学键是否匹配,且作为一个重要的因素影响到高熵合金能否形成稳定的单相.Zhang等[28]和Tan等[29]的研究结果表明,是通过计算得到的热物理参数对原子尺寸的差值和化学键匹配度的关系,适合用来设计具有单相固溶体的高熵合金.上述学者们的研究也再一次印证了本实验结果.

图4 基于RF算法的特征选择重要性排序Fig.4 Prioritization of feature selection based on RF algorithm

为了查看特征数量对预测效果的影响,本工作根据特征重要性序列对4种算法进行了再一次的训练,按照重要性评分依次输入对应的特征,评价指标为模型的R2值.模型表现的效果如图5所示.从图5可以看到,开始加入2个特征时模型的预测准确性得到了较大的提升.然后随着特征的不断增加,模型的表现效果逐渐趋于稳定.从实验整个表现的效果来看,RF相对于其他3种算法,模型的预测准确度最高,整体波动最小也最稳定.因此,对于需要选择的特征数据和预测属性而言,RF是最合适的选择.

图5 随着特征增加模型测试集的结果比较Fig.5 Comparison of model test set results with increased feature

为了验证本工作找到的影响ΔGmix的关键因素,本工作只用前2个特征来预测ΔGmix(见图6).从图6中可以看到,虽然本实验只用了2个特征,但是预测效果也较好,模型在测试集上的R2达到了0.994,且MAE、MSE的值几乎接近于0,表明本模型的预测结果与计算值的误差很小,同时也说明本模型具有一定的可靠性.为了进一步评估模型的可靠性,对于所得到的2个重要特征需要结合领域知识进一步讨论[30].在合金系统中,原子的大小以及化学键的组合会使合金系统的微观结构种类发生变化.合金体系的熵与微观结构种类的数量呈正相关,故微观结构的数量越多,混合熵越大,体系的混乱程度越大,那么合金体系的吉布斯自由能会逐渐趋近最小值,从而达到一个稳定的状态.在和表2中13个特征的预测效果对比时可以发现,2个特征的预测表现和多个特征的预测表现相差很小,甚至更好.以上也反映了在高熵合金材料的稳定性预测上,模型的表现取决于重要特征,而并不在于所用特征的数量,同时也说明本工作找到了影响ΔGmix的关键特征.本实验结果对于研究机器学习的方法在高熵合金材料的相稳定性以及设计稳定相的高熵合金有一定的参考价值和实用意义.

图6 只有2个特征的模型测试集结果Fig.6 Model test set results with only two features

3 结束语

本工作从高熵合金基本的特征性能参数出发,分别采用RF、DT、LR和BRR这4种机器学习模型对高熵合金的相稳定性进行了预测,并结合交叉检验的方法找到了最优的回归方法RF.经过实验验证,RF方法可以对高熵合金的相稳定性进行有效的预测.本工作还使用基于模型的特征工程方法对特征进行重要性排序后进行特征选择,找到了影响合金相稳定性的关键因素.实验结果表明,由于不同的机器学习算法对数据样本分布的敏感程度不同,进行机器学习预测需要选择合适的方法才能达到理想的效果.另外,有区别地筛选对预测属性影响大的特征,有助于降低过拟合的风险,提升机器学习的精度和效率.本实验结果对研究机器学习方法在预测高熵合金材料性能及发现新型铝基复合材料方面具有一定的参考价值和意义.

猜你喜欢
决策树合金稳定性
结构设计稳定性保障策略研究
对锰硅合金冶炼工艺技术问题的解析与研究
专利名称:一种Al-Cu-Li-Yb合金三级均匀化处理工艺
基于自适应神经网络的电网稳定性预测
粉末冶金含氮高熵合金高温氧化性能的研究
简述一种基于C4.5的随机决策树集成分类算法设计
镁基非晶合金的研究进展
纳米级稳定性三型复合肥
非线性多率离散时间系统零动态的稳定性
决策树学习的剪枝方法