基于PCA-RF的热轧带钢板凸度预测

2023-10-14 07:51赵志挺
机械工程师 2023年10期
关键词:凸度降维建模

赵志挺

(沈阳化工大学机械与动力工程学院,沈阳 110142)

0 引言

板形是指板带材的外貌形状,包含带钢截面几何形状和自然状态下板带材平直度两方面,因此要定量描述板形就涉及到凸度、平直度、楔形、边部减薄和局部高点等多项指标[1]。在热连轧生产中,板凸度是评价带钢质量的重要指标之一,板凸度的好坏直接决定带钢的质量[2]。在生产过程中,板凸度偏差过大会导致生产工艺停止、带钢缺陷和断裂等问题,造成财产和生命安全风险[3]。在实际的生产中,带钢的板凸度缺陷问题一直很严重,带钢板凸度的控制一直是一项艰巨的任务[4]。改进和增强带钢板凸度的控制和预测精度已成为当前轧制领域研究的重点。

学者们开始基于轧制机理建立数学模型,但基于传统数学的热连轧带钢凸度预测模型不能解决参数间的强耦合和非线性等问题,阻碍了带钢凸度控制精度的进一步提高[5]。随着新的轧机和有限元分析的出现,解决了一部分问题,但高昂的经济成本和时间成本使得学者们开始考虑新的更高效的控制方法。随着人工智能和工业大数据的兴起,学者们开始将人工智能方法引入热轧带钢板凸度控制技术。曹建国[6]提出了基于数据挖掘的调整策略,可以有效改善板凸度控制情况,可为宽厚板板形质量控制研究提供参考。孙杰[7]建立了基于随机森林的热轧带钢板凸度模型,能够稳定和精确地预测带钢板凸度。Wang等[8]将思维进化算法和人工神经网络用于预测热轧工艺的型材和平整度,该模型能代替传统的基于数学公式分析的机理模型来研究热轧过程中复杂、非线性的板形控制。Wu等[9]改进局部异常因子的热轧带钢凸度的高斯过程回归预测模型,与传统的高斯过程回归、人工神经网络和SVR比较,具有更好的预测精度和稳定性。以上方法对板凸度控制研究起着重要的作用,但在实际应用过程中,由于轧制工艺参数太多,需要对影响板凸度的关键参数进行挑选,而挑选过程复杂且费时,为了节省时间和降低建模的复杂度,建立高精度、高效率、简单、易实现的板凸度预测模型十分重要。

数据维度过高,会造成数据冗余,建模精度失准,以及建模和调参耗费大量时间,所以对高维数据进行降维处理再建模已成为一种较为成熟的方法。而主成分分析是一种成熟的数据降维方法[10],在各个领域都有较好的应用。在轧钢领域,将主成分分析(PCA)应用于高炉排水[11]、带钢宽度[6]等方面,对于高维数据的降维处理有很好的效果。而随机森林算法是由Breiman[12]在2001年提出的一种高度灵活的机器学习算法,也是一种重要的基于Bagging的集成算法,它在结合许多决策树的基础上进行优化,并进行所需类别(分类)或平均预测的输出(回归)[13]。由于其实现简单、精度高、抗过拟合能力强,开始被应用于化学[14]、交通[15]、钢铁[16]、环境[17-18]等领域。

1 基本算法

1.1 随机森林算法

随机森林通过有放回抽样和随机选择特征生成大量独立的决策树,并将基于这些决策树预测的平均值作为预测最终的结果。RF算法流程图如图1 所示。

图1 随机森林算法流程图

1.2 主成分分析法

主成分分析法[19]是最常用的数据降维方法,它是一种无监督学习算法,能够将高维数据通过线性投影转化为低维数据,并保证数据所含的信息较为完整。主成分分析的步骤如下。

1)数据标准化:

式中:x为样本;μ为均值;σ为标准差。

2)计算协方差矩阵XTX的特征值λ和对应的特征向量ε:

3)对特征向量进行单位化:

4)计算各主成分贡献率和累计贡献率:

式中:bj为第j个主成分贡献率;αp为前p个主成分的累计贡献率。

5)对λ按照从大到小排序,按照特征值大于1,累计贡献率达到85%以上的原则,选出前k个特征,以及对应的k个特征向量为列向量,组成特征向量矩阵P,也为载荷矩阵。

6)计算降维后的数据为X*=XP。

2 基于主成分分析选择关键特征

2.1 数据预处理

热轧生产流程如图2所示,板坯在精轧机的工作辊、中间辊与带钢的相互作用下,从而使带钢达到理想的板凸度。从国内某热轧生产线获取轧制数据,由于轧钢种类多样,为了确保预测的准确性,筛选多钢种轧制数据3万多条,每个样本点包含93个参数(如表1),预测目标为F6精轧机出口的带钢凸度。

图2 热轧生产流程图

由于原始数据中包含空值、异常值和噪声数据,会导致建模误差偏大,所以首先对数据进行预处理。

采用Pauta准则(如式(6)~式(8))去除异常值[20],其中满足式(6)的值为异常值,应当去除。板凸度分布图如图3所示,在两条虚线之间的数据为正常数据,除此之外为异常数据,需要删除,预处理后的样本维度如表2所示。

表2 数据维度

图3 板凸度分布

式中:Sy为样本标准差;y¯为样本平均值;yi为第i个样本;L为样本的数量。

同时利用五点三次平滑方法[21](式(9))对数据进行降噪数理。如图4所示为一部分数据五点三次平滑降噪的结果,相比原数据,降噪后的数据曲线更加光滑。

图4 五点三次平滑法

式中,Yi为 降噪后的yi。为消除量纲,对30 101个样本、93个特征组成的样本矩阵x进行标准化处理。对于样本矩阵x:

式中:p=1,2,…,93;n=1,2,…,30101。

对式(10)进行标准化处理后矩阵为

式中:p=1,2,…,93;n=1,2,…,30101;μ为每个变量的平均值;δ为每个变量的标准差。

2.2 计算主成分

影响板凸度的变量有93个,全部输入就可能会造成维度灾难,导致建模复杂、建模时间长和预测结果失准的问题。因此,本文采用主成分分析法对数据进行降维,并通过计算载荷矩阵来筛选关键控制变量。

由于热连轧过程中带钢凸度主要由F6 精轧机控制,且受温度影响较大,故将F6轧制力、F6弯辊力、F6 窜 辊量、F6后凸度和终轧温度这5个变量直接作为模型的输入项,不再基于PCA进行特征选择。

进行主成分分析前对数据进行相关性验证。如表3所示,由KMO统计量和Bartlett球形度检验值可以得出各个变量存在一定的相关关系,因此,可以采用PCA法进行数据降维及特征选择。

表3 KMO和Bartlett检验

对样本数据进行主成分分析。按照式(2)和式(3)计算矩阵x*的协方差矩阵,再根据协方差矩阵计算出特征值和特征向量,并依次计算出主成分贡献率和累积贡献率,如表4所示。

表4 主成分特征值和方差贡献率

如表4所示,当主成分为8时,特征值为1.440(≥1),累计方差贡献率为85.343%(≥85%),故选取前8个主成分所包含的信息来代替所有信息。

2.3 选取关键变量

由于主成分是对信息的投影所致,无确切的实际含义,故选择对主成分影响最明显的关键变量来代替主要信息。主成分载荷矩阵反映主成分与原始变量间的相互关联程度,原始变量xj在第p个主成分zi上的载荷lij表达式为

式中:i=1,2···,8;j=1,2,···,88;λi为第i个特征值;ωij为特征向量ωi的第j个分量。

根据载荷值来选择关键变量,由于第一主成分包含信息最多,因此第一主成分中选择3个变量,其他主成分中每个只选择1个变量,共计选择10个关键控制变量。

3 实验和结果

3.1 建立PCA-RF模型

根据选取的关键控制变量和板凸度值建立随机森林模型。由于随机森林的性能主要与决策树的个数n_estimators和选择的特征数max_features相关,采用网格搜索来进行参数调整和选择,如图5所示,当n_estimators=100,max_features=8,模型具有最小的RMSE为2.260 3 μm。

图5 基 于RF 的n_estimators 和max_features参数调优结果

3.2 建立其它回归模型

用相同的数据集建立KNN、SVR、GBDT、XGBoost、LightGBM五种主流回归模型,并调参到最优。

采用R2、MAE、RMSE来评估模型,公式如下:

式中:n为样本数量,yi和分别为第i个样本的真实值和预测值。

3.3 各模型性能分析

图6 和 图7 所 示 为KNN、SVR、RF、GBDT、XGBoost、LightGBM模型主成分分析前后的带钢出口凸度预测精度图。由图可知,各模型在5次交叉验证中,经过主成分分析后的各模型精度均有所提升,且RF、GBDT、XGBoost、LightGBM的预测精度均高于KNN和SVR模型,并且在降维后PCA-RF 具有最高的预测精度,其次是PCALightGBM、PCA-XGBoost,最后是PCA-GBDT。这是因为这4种模型均为基于决策树的集成模型,比单个机器学习模型(KNN,SVR)的性能都要好,且RF模型旨在降低方差,拥有比LightGBM、XGBoost、GBDT更好的性能。

图6 PCA降维前各模型板凸度预测精度

图7 PCA降维后各模型板凸度预测精度

为进一步证实PCA-RF模型的可行性,用MAE和RMSE函数来评估模型。图8所示为PCA降维后各模型带钢凸度预测性能对比,其中PCA-RF的MAE为1.485 2 μm,RMSE为2.260 3 μm,均低于其它模型的MAE值和RMSE值,进一步说明了PCA-RF预测精度高,预测偏差小,能有效地对带钢出口凸度进行预测。同时,将该模型的预测时间进行统计,其运算时间均小于500 ms,因此,PCA-RF模型可实现带钢出口凸度的高精度和高实时性预测。

图8 模型预测性能对比

4 结论

针对热轧带钢板凸度预测精度不足和参数维度过大导致建模时间长的问题,提出了一种主成分分析结合随机森林的板凸度预测方法,能够实现板凸度快速建模和精确预测,得出如下结论:1)对于工厂采集的原始数据,进行Pauta准则去除异常值、五点三次平滑公式降噪和标准化处理,为后续建立高精度的模型提供了条件。2)通过对高维数据进行降维,并筛选出关键变量,将数据集由93维降至15维,剔除了一些对板凸度影响不大的变量,极大地降低了建模的时间。3)将PCA-RF方法应用于板凸度预测,通过网格搜索和交叉验证优化模型,并 与PCA -KNN、PCA -SVR、PCA -GBDT、PCA -XGBoost、PCA-LightGBM模型进行比较,结果显示PCARF具有最高的R2为0.982 0,最低的MAE和RMSE分别为1.485 2 μm和2.260 3 μm,且PCA-RF的预测误差集中分布在-3~3 μm,预测误差均小于其他模型,PCA-RF有令人满意的性能。

猜你喜欢
凸度降维建模
混动成为降维打击的实力 东风风神皓极
利用轴线交错修整砂轮凸度曲线的方法探讨
3800mm中板轧机变凸度工作辊辊形研究①
基于精轧平坦度优先的凸度分配策略
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
异步凸度轧制对AZ31镁合金板坯损伤抑制分析
降维打击
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
抛物化Navier-Stokes方程的降维仿真模型