基于循环自编码网络的冷轧轧制力建模方法

2022-10-20 09:04叶国良翟博豪呼子宇赵志伟

计量学报 2022年9期

孙浩, 叶国良, 翟博豪, 呼子宇, 赵志伟

(1. 燕山大学智能控制系统与智能装备教育部工程研究中心, 河北秦皇岛 066004;2. 燕山大学电气工程学院, 河北秦皇岛 066004; 3. 唐山学院计算机科学与技术系, 河北唐山 063000)

1 引言

在钢铁冷连轧生产过程中,轧制力预设值直接影响轧制规程的制定,还影响着产品的厚度和平整度[1,2]。轧制力模型主要包括机理模型和数据驱动模型[3]。基于数学推导的机理模型[4],由于存在很多不确定因素而引入了许多假设,导致预测的轧制力产生很大误差[5]。因此,出现了很多数据驱动技术来建立轧制力模型,以期提高预测精度[6]。

数据驱动是一种新兴的技术,特别是对于有大量数据的工业过程,利用一些易测变量建立回归模型,来预测未知变量[7]。现有文献中大量的研究结果表明,在数据驱动模型中,基于机器学习的方法得到了广泛应用[8],预测精度也得到了很大提升。文献[9]使用主成分分析法对大量输入数据进行特征提取,再使用贝叶斯正则化法对BP神经网络进行改进,简化了网络结构,提高了预测精度。文献[10]将相关性分析与极限学习机结合,先使用灰色关联分析对输入变量进行相关性分析,确定隐含层节点数,再使用极限学习机进行轧制力预报,该模型提高了轧制力的预测精度。文献[11]使用改进果蝇算法与最小二乘支持向量机相结合进行轧制力预测,将果蝇算法的味道浓度判定函数和步长设定方法进行改进,采用分组并行搜索策略,再使用支持向量机进行轧制力预测,提高了预测的精度。文献[12]使用有限元法和神经网络相结合建立预测模型,将摩擦系数作为网络输入参数,利用其与轧制力之间的关系式,采用迭代法对其进行优化,最终将轧制力预测误差控制在10%以内。文献[13]使用互信息筛选出辅助变量作为LSSVM模型的输入参数,使用粒子群优化算法确定LSSVM模型的参数,并将该模型应用到现场中,结果表明有较高的预测精度。这些模型都是浅层且离线的模型,不能进行深层次的特征提取而导致部分有用信息丢失,同时模型还面临着长时间不更新而导致的漂移问题。为同时解决上述2个问题,提出多层循环自编码网络,一方面利用多层网络提取样本的深层次隐藏信息；另一方面利用循环网络能够对最新样本进行增量学习的特点,实现模型的在线更新,从而避免模型漂移问题。在循环自编码网络的训练过程中,使用小批量(mini-batch)梯度下降算法加快网络训练速度，提升网络性能。

2 轧制力模型

本文研究的轧制力模型由特征提取和回归拟合2部分组成。其中循环自编码网络进行特征提取,来获取样本的深层次特征；高斯过程回归模型进行回归拟合,利用提取到的深层次特征进行轧制力预测。

2.1 循环自编码网络

循环自编码网络(AEGRU)是以自编码器(autotncoder，AE)为基础,结合门控循环单元(gate recurrent unit, GRU)网络在序列递归、记忆性、参数共享等方面的优势,进行数据特征提取。

GRU是循环神经网络(recurrent neural network, RNN)的一种,能够解决RNN只可保存短期记忆和其反向传播过程中梯度消失等问题[14]。GRU由更新门和复位门组成,这2个门可以控制隐藏状态下新旧信息的比重[15]。复位门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前一时刻信息被带入到当前状态中的程度。如果把复位门设置为 1,更新门设置为 0,将再次获得标准 RNN 模型。GRU的内部结构如图1所示。

图1 GRU网络内部结构图Fig.1 GRU network internal structure diagram

更新门zt可以用公式表示为:

zt=σ(W(z)xt+U(z)ht-1)

(1)

式中:xt为当前时间步的输入向量;W(z)为输入向量的权重;ht-1为上一时间步的隐藏输出;U(z)为隐藏输出的权重;σ为Sigmoid 激活函数。

重置门rt与更新门zt类似,可以表示为:

rt=σ(W(r)xt+U(r)ht-1)

(2)

(3)

当前时间步的隐藏状态输出ht可以表示为:

(4)

AEGRU网络结构如图2所示。AEGRU网络通过重构输入来提取中间特征,输入数据X首先经过2个GRU Layer编码得到隐层数据即新特征Z,再经过2个GRU Layer解码来重构输入,特征提取的编码过程是在特征之间进行交叉和非线性映射,用来描述序列之间复杂的关系。特征提取的解码过程是利用提取到的新特征Z尽可能的重构输入得到重构数据X′,来保证交叉和非线性映射的合理性。

图2 AEGRU网络结构图Fig2. AEGRU network structure diagram

为了模型能更好的重构输入,使用均方误差Ems作为网络损失函数,可以表示为:

(5)

式中:X为输入样本;X′为重构样本;M为输入的样本个数。

AEGRU网络时序图如图3所示,当前时刻提取到的特征不仅和当前时刻的输入有关,还和网络中保存的历史样本特征有关。t时刻提取的特征Zt由t时刻的输入Xt和t-1时刻网络中保存的特征共同决定。当前时刻的特征提取完成后,网络会更新保存的历史样本特征,用于下一时刻对模型进行及时的在线校正,防止模型漂移问题的发生。

图3 AEGRU网络时序图Fig.3 AEGRU network timing diagram

2.2 高斯过程回归模型

在机器学习中,高斯过程是在高斯随机过程与贝叶斯学习理论的基础上发展起来的方法[16]。高斯过程回归(Gaussian process regression, GPR)是一种基于高斯过程机器学习原理的回归方法,通过贝叶斯推理对输入数据的输出变量进行预测[17]。

GPR是基于训练集中大量的自变量Z和因变量Y来训练模型,然后对新的自变量z来预测相应的因变量y。假设数据集是(Z,Y),其中Z∈RN×D,Y∈RN×1,这个数据集总共有N条数据,每条数据有D维输入特征和一维输出。

在GPR问题中,由于因变量通常是带噪声的,所以将y建模为一个隐函数f(z) 加上1个高斯噪声ε,ε也服从正态分布,即:

(6)

对于数据集中的Z,对Y建模,假设Y服从联合正态分布,即:

Y～N(0,K)

(7)

式中K是关于自变量的N×N型协方差矩阵。

当有1个新的测试输入z,给定其先验分布为y～N(0,K(z*,z*)),根据训练集和测试集数据来自同一分布,可以得到联合分布为:

(8)

式中k*=[k(z*,z1),k(z*,z2),…,k(z*,zN)];k**=k(z*,z*);z1,z2为训练集中的第1，2个样本;z*为新的测试输入。

基于p(Y)的先验分布及联合分布p(Y,y),根据贝叶斯公式可以计算p(y|Y)的后验概率:

(9)

可以得出对y的估计:

(10)

(11)

(12)

AEGRU-GPR模型结构图如图4所示。对于数据集(X,Y),首先将自变量X分成X1和X2两部分,其中自变量X1进行AEGRU网络训练；然后将自变量X2输入训练好的AEGRU网络进行特征提取得到新特征Z。将新特征Z与自变量X2对应的因变量Y组合成新的数据集(Z,Y),并用该数据集训练GPR模型。对于测试数据x首先进入AEGRU网络进行特征提取得到新特征z,然后输入GPR模型得到轧制力的预测值y。

图4 AEGRU-GPR模型结构图Fig.4 Structure drawing of AEGRU-GPR model

3 轧制力预测

3.1 模型输入参数

根据机理模型和实际生产情况确定轧制力模型的输入参数。选取原料宽度B、原料厚度H、轧辊入口处厚度H0、轧辊出口处厚度H1、轧辊的前张力τf、轧辊的后张力τb、轧辊半径R′和出料带线速度V作为模型的输入参数。

本模型选用的是河南某厂1 200 mm四辊五机架的冷连轧生产线的数据,预测模型的输入变量为{B,H,H0,H1,τf,τb,R′,V},输出变量为模型预测的轧制力{F},各参数的工作范围如表1所示。选取第3机架中1 000条连续的数据作为数据集。

表1 第3机架轧制过程变量工作范围Tab.1 The third frame rolling process variable working rang

在得到数据集之后,首先要对其进行归一化处理,因为每个变量有着不同的量纲,不同的变量之间相差很多倍,直接使用原始数据有可能导致某些变量被忽视,故要进行归一化处理。该模型选用线性归一化的方法,就是将每个数据都转换成[0,1]的范围内,进行归一化不但可以提高模型的收敛速度,而且可以提高模型的精度。

3.2 AEGRU网络训练

模型由特征提取和回归拟合2部分组成,使用AEGRU网络进行特征提取,使用GPR模型进行回归拟合。总共使用1 000条数据,其中前750条数据作为训练集,后250条数据作为测试集。训练集中的前250条数据用作AEGRU网络的初始化；后500条数据先进行特征提取,再进行GPR回归算法的训练。最后的250条数据作为测试集,检验模型的预测能力。

在AEGRU网络进行特征提取的过程中,为了提升模型的训练速度,引入了mini-batch梯度下降法。对于传统梯度下降法每次迭代都需要在整个样本集上进行计算,当训练集中的数据量很大时,收敛速度会很慢[18]。而随机梯度下降法是每个样本训练时都对模型参数进行一次更新,虽然大大加快了训练速度,但是会造成过拟合,使模型缺少整体性而不能收敛。mini-batch梯度下降方法就是对上述2个方法的中和,既保证了训练的速度,又使得模型具有整体性,能够收敛。该方法是将每个小批次训练100代,训练完所有小批次再重新对所有小批次进行训练。训练的方式如图5所示。

图5 AEGRU网络训练方式Fig.5 AEGRU network training mode

3.3 仿真与分析

在特征提取过程中,通过试验法选定AEGRU网络中隐藏层神经元数量为10(即AEGRU网络中提取的新特征Z的个数),GPR模型中添加的高斯噪声为0.001。AEGRU-GPR模型的预测结果如图6所示,可以看出,预测值与真实值的散点图基本位于±3%误差带以内,说明该模型拥有较高的预测精度,可以满足实际生产的要求。

图6 模型预测值与真实值对比图Fig.6 Comparison of the predicted value and the real value of the model

为了验证本文模型的有效性,将其与其他的轧制力模型进行比较。这几种模型的预测绝对误差箱线图如图7所示。其中AE模型采用和AEGRU模型相同的层数,相同的神经元数量。支持向量机(SVM)模型中的epsilon取0.001,惩罚系数C取5。在箱线图中,箱子中的线代表了数据的平均水平。箱子的宽度在一定程度上反映了数据的波动程度。箱子上部的圆点代表异常值。对比这几种模型,AEGRU-GPR模型的箱子中线最接近于0,箱子宽度更窄,离群值的离散度比其他模型低得多,这表明该模型不仅有良好的预测性能,而且更加稳定。

图7 不同模型的预测绝对误差对比图Fig.7 Comparison graph of absolute error of different models

为了定量说明这4种模型的预测性能,给出模型预测的均方根误差(RMSE)、平均相对百分误差(MAPE)、决定系数r2，如表2所示。

由表2可以直接看出,AEGRU-GPR模型的RMSE、MAPE均最小,r2最大,说明该模型具有很高的预报精度。对比AEGRU-GPR和AE-GPR模型,可以看出在相同的条件下加入GRU网络后,模型预测误差减小很多,模型的性能有了很大提升。对比AEGRU-SVM和AE-SVM模型,也可以得出加入GRU网络后,模型性能更好。分别对比表2中的前2种模型和后2种模型,可以得出在相同的特征提取条件下,GPR模型比SVM模型预测性能更好。

表2 模型的预测结果对比Tab.2 Comparison of prediction results of the model

为了验证AEGRU特征提取模型的有效性,将AEGRU-GPR与AEGRU-SVM、AE-GPR和AE-SVM模型预测的相对误差进行比较,选取其中100个连续的测试样本,其相对误差曲线如图8所示。从图中可以看出,加入循环神经网络的AEGRU-GPR模型的预测误差曲线波动较小,且保持在±0.03以内,明显优于其他两种没有加循环神经网络的模型。对于AE-GPR和AE-SVM模型,当前预测的轧制力只和当前监测到的数据有关；而加入循环神经网络的AEGRU-GPR模型,能够保留历史样本的特征,对新产生的数据进行立即的在线学习,对模型进行及时的在线校正,能有效防止模型漂移问题,显著提高轧制力的预测精度。

图8 不同模型的预测相对误差对比图Fig.8 Comparison graph of relative error of different models

4 结论

1) 使用AEGRU-GPR建立轧制力模型。针对传统特征提取方法不能提取样本的深层次特征和模型长时间不更新而导致的漂移问题,提出了一种基于循环自编码网络的特征提取方法。多层的网络能够提取样本的深层次特征,增强数据的表达能力。循环网络能够记忆历史样本的特征,对模型进行及时的在线校正,防止模型漂移问题的发生,进一步提高模型预测精度。但该模型只是在特征提取部分加入了短期自学习能力,以后也可以在回归拟合部分加入短期自学习能力,进一步提高轧制力预测精度。

2) 仿真实验表明,该方法实现了轧制力的高精度预测。相比于没有添加循环神经网络的模型,其预测误差均有一定程度降低,性能有了很大提升；且该模型结构简单,能进行在线更新,有自适应能力,能降低生产环境、状态等外部因素对模型的影响。综上所述,AEGRU-GPR模型在实践中有很大的应用前景。