基于L2正则化LSTM的非线性动态系统辨识

2021-03-19 06:13徐宝昌董秀娟

化工自动化及仪表 2021年1期

徐宝昌吕爽董秀娟王健

（1.中国石油大学（北京）信息科学与工程学院；2.中石油北京天然气管道有限公司）

实现良好的控制是提高工业生产过程经济效益、保障生产安全的关键，而实现良好控制的基础就是建立准确的模型。但现有的化工过程辨识方法大多过于依赖实验获得的数据，这严重地限制了其使用范围。随着计算机计算能力的提升，DCS在实际生产中逐渐普及，大量的生产数据被存储在本地或云端，这些数据中蕴含着生产过程的各种动静态信息，如果能充分挖掘DCS中数据的信息，通过一定的模型结构和参数来表达非线性的动态过程，建立良好的替代模型，将能够更好地掌握过程的内在特性，便于研究出更加高效稳定的控制方法，实现对整个流程的故障预测、控制、监督以及经济效益优化等。

为解决上述问题，笔者引入深度学习算法中的模型——长短期记忆（Long Short-Term Memory，LSTM）［1］。 LSTM 在循环神经网络（Recurrent Neural Network，RNN）的基础上引入长短期记忆结构，既考虑了过往信息的影响，也有效地解决了梯度消失或爆炸问题，在手写识别［2］、图像分析［3］及时间序列预测等方面表现出良好的效果。 Yadav A等利用LSTM对印度股票市场进行预测，通过有无状态模型和隐藏层数量对网络进行优化，结果表明LSTM在股票预测上具有可行性［4］；Gonzalez J和Yu W则利用LSTM与神经网络的结合，证明了改进后的方法对于只使用测试输入、不利用以往测试输出的模型而言具有更好的效果［5］；Joohyun W等利用LSTM进行无人水面车辆（SUV）模型的建立，该方法相比传统的线性动态模型降低了浪涌预测误差、偏航率预测误差等，表现出良好的性能［6］。针对基本结构对数据契合不高的问题，学者们对其结构进行了改变或采用与其他模型、方法相结合的思路，如韩恒贵利用LSTM的变体GRU和混合模型进行绝缘双极性晶体管的故障预测，实验结果表明新方法进行故障预测的均方根值为0.075 6，预测效果有了很大的提升［7］；Yu R等提出一种基于序列相关特征的LSTM-EFG模型用于风力发电预测，该方法对遗忘门功能进行了增强，提高了预测的效果［8］。

在实际应用中，LSTM基础网络由于结构和输入数据不足等问题，往往会出现模型过拟合、泛化能力低等问题，为此笔者结合常用于解决过拟合现象的正则化［9，10］方法提出基于L2正则化LSTM辨识策略，并利用非自衡系统TE过程（Tennessee Eastman Process）进行方法有效性的验证。通过实验表明，该方法具有更快的收敛速度，模型泛化能力更强，对所需辨识数据要求更低，辨识得到的模型可以很好地反映系统的阶跃响应过程，预测系统的输出。

1 L2正则化LSTM模型

1.1 LSTM模型

LSTM 是由RNN 发展而来的重要结构，由Hochreiter S和Schmidhuber J于1997年提出［1］，它在RNN的基础上增加了输入门、输出门、遗忘门和记忆单元4个门限，能够对长距离依赖问题进行处理，避免梯度消失或爆炸的问题。 LSTM内部结构如图1所示。

图1 LSTM内部结构

在LSTM的结构中，以t时刻的输入xt和前一时刻的状态信息ht-1作为输入信息，通过内部细胞进行状态单元的填充或移除完成信息更新。原始的LSTM结构的门限由sigmoid函数与矩阵点乘组成，由于sigmoid函数的输出为0～1之间的数字，因此可以描述信息的通过程度，其中0代表移除，1代表全部信息通过。 LSTM网络的前向传播可以表示为：

1.2 基于L2正则化LSTM模型

为增强辨识模型的泛化能力，笔者采用可以对参数进行稀疏化的L2正则化方法对LSTM基础模型进行优化，即在原损失函数上加上L2范数正则化项，得到的损失函数J公式如下：

其中，λ为正则化系数，用于权衡正则项与原始函数的比重；n为训练集样本大小；J0为原始的损失函数；ω为权重；yi为模型实际输出；为模型预测输出。

根据上述公式，权重ω的更新为：

其中，η为学习率。

根据式（7）、（8），可以得到基于L2正则化LSTM辨识策略的权值更新公式：

其中，Wfx、Wfh分别为遗忘门更新时输入信息和上一层状态所对应的更新权重；k为时刻；δf，t为损失函数J对于Wf·［ht-1，xt］+bf的偏导数。

其余权值更新公式同理。

2 实验及结果分析

2.1 数据来源及预处理

笔者采用非自衡系统TE过程作为辨识对象。TE过程是一个实际化工过程的仿真模拟，它是由美国Tennessee Eastman化学公司过程控制小组的Downs J J和Vogel E F提出的［11］，被广泛地应用于过程控制技术的研究［12］。整个TE过程可以被用来进行各种各样的过程研究，主要包括装置的控制策略设计、多变量控制、过程优化及预测控制等。

TE过程包含12个操纵变量和41个测量变量，所给出的已知数据集中包含21个预先设定好的故障，其中16个为已知故障（包含阶跃、随机变量等），5个为未知故障。每一种故障对应两组数据，分别为具有498个数据的训练集和948个数据的测试集。文中笔者选取12个操纵变量作为输入，产品分离器温度XMEAS11的测量值作为输出，具体的训练集、测试集、验证集来源见表1。

表1 实验中涉及的几组数据集组合

TE过程所提供的数据集来自仿真实验，需要进行时序处理才能符合L2正则化LSTM网络的输入形式。同时，为消除不同量纲和数量级带来的影响，需将数据集进行0～1标准化处理。笔者选用以下几种模型评价指标来对辨识效果进行评估，包括ACC （精确度）、MAPE （平均相对百分比误差）、RMSE（均方根误差）及R2（拟合优度）等。其中，MAPE和RMSE的值越小，说明模型建立的效果越好；R2衡量的是回归方程整体的拟合度，R2的值越接近1，说明模型的拟合效果越好。具体评价指标如下：

其中，y-为实际输出的平均值。

2.2 LSTM网络结构设定

文中用前n步时间状态的11个操纵变量数据预测后m步产品分离器温度XMEAS11，即网络输入X={X1（t），X2（t），…，X11（t），…，X1（t-n），X2（tn），…，X11（t-n）}，输出Y={Y（t），…，Y（t+m）}。

利用L2正则化LSTM辨识策略和表1中的第4组数据集进行TE过程辨识，根据网格搜索法确定标准LSTM辨识时的最优参数组合为：隐藏层参数为25，学习率η为0.3，时间步长time_step为2，迭代次数为1 000次。从［0，10］中选取正则化系数λ的值，观察训练集、测试集和验证集的评价指标变化，其中验证集变化曲线如图2所示。

图2 验证集偏差随正则化系数λ的变化曲线

根据仿真结果可以得到：验证集偏差随正则化系数λ的增加先减小后增大，当正则化系数λ=2时，验证集偏差最小，正则化方法使用前后的评价指标见表2。

表2 正则化方法使用前后评价指标的对比

2.3 实验对比分析

现利用支持向量回归（SVR）、BP和基于L2正则化LSTM的网络（L2-G-LSTM）对TE过程进行辨识与比较，得到的训练结果如图3、4所示，评价指见标表3～6。所采用的数据集为表1中的4组数据集。

图3 测试集各个样本预测误差百分比

图4 基于第2组数据集各算法的预测结果

表3 基于第1组数据集的评价指标

（续表3）

表4 基于第2组数据集的评价指标

表5 基于第3组数据集的评价指标

表6 基于第4组数据集的评价指标

从表3～6的结果可以看出，相较于BP和SVR而言，L2-G-LSTM对TE过程进行辨识时，在训练集和测试集上得到的RMSE、MAPE相对较小，R2和ACC更接近于1，得到的拟合模型更加接近真实模型。同时根据预测结果和实际输出的对比，L2-GLSTM在验证集上进行验证时，能够更好地反映出系统阶跃响应的各项指标，综合评价指标和预测结果对比结果，可以充分说明L2-G-LSTM具有更高的泛化能力和更高的辨识精度，能够更好地对非线性动态系统进行建模。实验中的4组数据集分别对应4种情况，无论在哪种情况下L2-G-LSTM网络基本都能得到综合评价下的最优结果，基于这一点说明基于L2正则化的LSTM对于输入数据的要求较低，为化工实际生产过程的建模提供了更多可能。

3 结束语

笔者提出的基于L2正则化的LSTM辨识策略，能够有效地避免过拟合现象的发生，完成对非线性动态系统的辨识。与BP、SVR方法相比，具有更快的收敛速度和辨识精度，在测试集上的误差控制在0.15%左右；在训练集和测试集上的输出偏差控制在0.5℃以下；拟合优度R2控制在3以内，表明对实际数据的动态走势预测良好。从对不同数据集的辨识结果来看，基于L2正则化的LSTM辨识策略能够降低对辨识数据的要求，对含有少量噪声的正常工况数据（表1中的第1组数据）辨识时，仍然得到了良好的辨识效果，为离线辨识，得到“孪生”模型提供了可能。将来应考虑利用其他优化算法对LSTM进行优化，以进一步提高辨识精度。