基于双通道模型的航空发动机剩余寿命预测

2023-12-27 07:18车鲁阳高军伟付惠琛
空军工程大学学报 2023年6期
关键词:双通道注意力寿命

车鲁阳,高军伟,付惠琛

(1.青岛大学自动化学院,山东青岛,266071;2.山东省工业控制技术重点实验室,山东青岛,266071)

航空发动机作为航空飞行器关键部件之一,其健康状态直接影响飞行安全[1]。由于发动机长期工作在高温、高压、强振动等极端环境下,其剩余使用寿命(remaining useful life,RUL)呈现非线性、波动大的特点,使得运营维护问题变得尤其突出[2]。随着工业互联网的发展,各式传感器监测数据爆发式增长,如何有效地对其加以利用成为了解决问题的关键。

目前,对于剩余寿命预测基本分为2种方法:基于物理模型预测和基于数据驱动预测[3]。前者只有当模型参数能够轻松准确地得到,并且有足够的计算资源实时实现时,才有可能取得符合预期的理想精度,且模型的泛化能力差、成本高;后者由于采集技术的不断发展,能够充分挖掘数据特征进行预测,不依赖物理模型且精度越来越高,这些年被广泛研究。

对于数据驱动方法,早期的机器学习方法,如马尔可夫模型[4]、支持向量机[5]、人工神经网络等方法已经展露出不错的数据处理能力,但由于结构简单导致预测精度并不高。随着硬件成熟和人工智能技术发展,深度学习凭借着深层网络结构,能够更好地追踪寿命退化趋势而被广泛应用[6]。文献[7]利用卷积神经网络(convolutional neural networks,CNN)的稀疏连接和参数共享的特点,将其应用在预测发动机剩余寿命上,但是有着容易产生过拟合以及对输入大小敏感的问题。文献[8]运用长短时间记忆网络(long short-term memory network,LSTM),提取设备的时序特征,增强特征与目标的关联性,但同时也存在着模型复杂度高、计算量大的问题。

随着研究的深入,在基础卷积的基础上,文献[9]引入时间卷积网络(time convolutional networks,TCN),利用膨胀卷积和残差结构,获得更大感受野和更快的计算速度。文献[10]利用卷积长短时间记忆网络(convolutional long short-term memory network,ConvLSTM)对基础LSTM进行改进,不仅有着稀疏连通性和参数共享的优点,还能够捕获数据长期依赖关系。文献[11]从Transformer模型中提取出多头注意力机制(multi-attention mechanism,MA),将特征映射到独立的子空间,重新分配特征权重,在航空发动机寿命预测中也取得了不错的效果。但是上述深度神经网络都将重点放在单一网络模型的研究,而每种网络都有一定的局限性,对于退化特征的学习是有限的,因而导致精度难以进一步提升。

为充分利用上述所提网络模型的优势,并弥补其不足,本文开发建立了一种双通道网络的航空发动机剩余寿命预测模型。引入TCN和ConvLSTM,使其分开学习航空发动机退化特征向量,再各自添加多头注意力机制,将所学习特征映射到独立子空间并重新分配权重,重点关注对于发动机退化影响大的特征向量。最后构建一个特征融合框架将两通道网络结合,充分考虑2个网络各自学到的特征权重,用于最终的剩余寿命预测并进行实验验证。

1 理论基础

1.1 时间卷积神经网络

时间卷积网络(TCN)是卷积神经网络(CNN)的一种变体,由膨胀因果卷积和残差模块组成。

在解决时序问题上,需要追溯历史信息,历史信息越久远,隐藏层越多,计算量越大。为了增大感受野又不使得隐藏层过多,膨胀因果卷积引入了一个新的超参数——扩张率d。在不损失信息的情况下,允许模型间隔采样,最下面一层d=1,表示输入时每个点都采样,中间层d=2,表示输入时每2个采样点作为一个输入,通常层级越高所采用的扩张率越大。设一维序列的输入是l={s1,s2,…,sn-1}∈Rn与卷积核f:{0,1,…,n-1}→R,其序列元素s的卷积运算F的表达式为:

(1)

残差模块使信息能够跨越层数传递,从而避免层数过多而造成信息损失。引入批标准化,将每一层网络输入归一化。标准化层后添加激活函数来保证模型拟合非线性数据并用正则化降低模型过拟合的风险。为保持输入和输出一致性,使用1×1卷积置于卷积层后。

1.2 卷积长短时间记忆网络

卷积长短时间记忆网络(ConvLSTM)是在长短时间记忆网络(LSTM)结构的基础上引入了卷积结构,不仅有着稀疏连通性和参数共享的优点,还能够捕获数据长期依赖关系。

其内部运算公式如下所示:

(2)

(3)

(4)

(5)

(6)

ht=go⊙tanhCt

(7)

式中:*表示卷积运算;gt、gi、go分别为ConvLSTM中3个门控机制;(Wf,bf)、(Wi,bi)、(Wo,bo)代表对应门控机制卷积运算中的卷积核和偏差;σ为sigmoid激活函数;tanh为激活函数;xt表示t时刻的输入数据;ct、ht-1、ht分别表示当前时间点的内存向量、前一个时间点和当前时间点ConvLSTM单元的状态输出向量;⊙表示矩阵元素相乘。

1.3 多头注意力机制

将多头注意力机制与TCN和ConvLSTM 2种深度学习算法融合,模型框架如图1所示。两通道网络在每个时间步长都会学习到一个特征。假设某个样本经过网络学习到的特征表示为:

图1 多头注意力机制融合框架

H={h1,h2,…,hn}

(8)

查询矩阵Q、关键字矩阵K、和值矩阵V均为H的线性映射,n为子空间关键个数。缩放点积注意力是多头注意力机制的重要组成部分,其定义如下:

(9)

式中:Q、K和V分别是线性映射格式,定义为Q=Wqei,K=Wkei和V=Wvei;dk表示投影的尺寸。

多头注意力机制通过式(9)的多重自注意力操作将输入特征映射到不同的子空间,获取多个子空间的注意向量,然后将其组合,从而可以多个角度分析嵌入方式之间的相关性,提高模型性能。多头注意力定义如下:

Multihead(Q,K,V)=

Concut(head1,head2,…,headn)

(10)

(11)

2 模型搭建

提出基于双通道模型的航空发动机RUL预测方法框架如图2所示,主要包括数据预处理和网络预测2部分。数据预处理包含传感器数据选择、标准化及时间窗处理,将预处理后的特征输入到搭建的双通道融合网络中,得到最终的预测值。

图2 航空发动机剩余寿命预测方法框架

2.1 双通道网络融合

本文构建的双通道网络融合,经多头注意力机制优化的TCN和ConvLSTM神经网络将各自学习到的时序特征和时空特征通过全连接神经网络进行抽象提取,再经过Concatenate函数实现特征融合,最后对剩余寿命进行预测。

2.2 参数设置

经过多次实验,模型中TCN模块和ConvLSTM模块的主要参数设置如表1和表2所示。表中K、N、d、n分别表示卷积核大小、滤镜数、扩张率大小、神经元数目。卷积核设定为3,滤镜数设定为16。网络超参数设置:迭代次数epochs=100,批大小Batch size=32,模型初始学习率lr=0.01,优化器为Adam,损失函数为均方误差函数(mean squared error,MSE),采用早停法进行训练,监控验证集的损失函数,当损失不再下降时提前停止训练,防止模型过拟合并提高泛化能力。

表1 TCN主要模块参数设置

表2 ConvLSTM主要模块参数设置

所提模型中的多头注意力机制涉及注意力头数的选择,不同头数对于预测精度是有一定影响。为了探究精度最高的参数设置方案,本文设置不同注意力头数:1、2、4、8、16、32、64、128共8种情况。为了防止偶然性,对每一种情况运行实验5次取平均值,得到其预测结果的MAE值和RMSE值如图3所示。可以看到,不同注意力头数对应的预测精度不同且差异较大,注意力头数的增加与准确度的提高没有正负相关性,在本文实验中,当注意力头数为4时的预测模型精度最高,因此后续的实验都在这个参数的基础上进行。

图3 不同注意力头数对比

3 实例分析

为验证双通道模型在发动机剩余寿命预测中的有效性,基于python3.8和Tensorflow2.0框架进行实验验证。

3.1 C-MPASS数据集描述

本实验所用数据来自NASA的C-MAPSS航空发动机数据集。该数据集包含FD001~FD004组数据,本文选取包含一种工况条件和一种故障模式的FD001子数据集作为测试验证所提模型的效果,如表3所示。该子数据集包含训练集和测试集,其中训练集包含从初始到损坏的全寿命数据,而测试集采用的是完整生命周期的部分数据,且对应有相应的RUL标签,关于模块具体信息详见文献[12]。

表3 FD001子数据集

3.2 数据选择

实验采用的FD001子数据集包含的训练数据和测试数据记录了若干运行周期下的s1~s21共21类传感器监测数据。根据参考文献[12]可知,传感器采集的监测数据在发动机整个寿命周期中几乎没有变化,对于RUL预测没有帮助甚至会带来干扰,因此予以剔除。剩余14个传感器数据:在发动机的退化过程中,呈现出明显的上升或下降趋势,可作为有效输入数据对RUL进行预测。

3.3 退化标签设计

在发动机寿命预测问题中,发动机的运行时间越久,退化程度越高,并且这种退化趋势通常不是线性的。因此,在预测发动机寿命时,需要考虑这种非线性的退化趋势,并将其纳入预测模型中。在训练过程中常有发动机的寿命周期循环大于100次或者125次,因此文献[13]中退化标签下降的循环数通常设为125,如图4所示。

图4 发动机退化标签

将拥有200个循环次数的发动机的剩余使用寿命进行分段处理,前75个循环设定同一剩余使用寿命周期。这表示,在模拟发动机运行75个循环之后,其退化程度将会发生明显的变化,按照线性规律退化直至寿命为0。这样的设计可以更好地模拟发动机的实际寿命变化,从而提高预测的准确性。

3.4 评价指标

为了评价比较模型精度,引用了其它相关研究常用的平均绝对误差(mean absolute error,MAE)、均方根误差[14](root mean square error,RMSE)、和PHM竞赛中的评分函数(score function,Score)[15]3个性能指标。式中MAE和RMSE由(12)和(13)定义,式中Et=RULact-RULpred,即为实际RUL与预测RUL之间的误差,n是样本数。

(12)

(13)

在实际工业生产中,对于剩余寿命的低估和高估对机器操作的影响不同。低估会导致多余的停机时间,造成资源的浪费;而高估则可能会导致人员伤亡等安全事故。因此高估应该受到比低估更严重的惩罚。因此为了客观和全面地评估预测模型设计了一个评分函数,来考虑低估和高估对轴承整个生命周期的影响。评分函数定义如下:

(14)

式中:di为预测值与真实值的差值,由定义可知Score值越小,证明惩罚越小,预测效果越好。

3.5 实验设计及结果分析

3.5.1 消融实验

根据上述网络参数、基础环境搭建模型,利用训练集进行训练并在其中抽取20%作为验证,对测试集100台发动机的剩余寿命进行预测。

将本文模型进行部分模块拆解,构成3种消融模型:

1) TCN+多头注意力:去掉ConvLSTM网络通道,构建结合多头注意力机制的TCN单通道网络模型;

2) ConvLSTM+多头注意力:去掉TCN网络通道,构建结合多头注意力机制的ConvLSTM单通道网络模型;

3) 普通双通道模型:去掉多头注意力机制,构建ConvLSTM和TCN的双通道网络模型。

图5展示了3个消融模型和本文模型在测试集100台发动机上的预测结果,其中图5(a)、(b)、(c)在某些发动机上预测效果较好,但是部分发动机存在预测差值大的情况。图5(d)是本文提出的最终模型,总体上预测值与真实值之间误差较小,且几乎都小于真实值,证明该模型能充分地挖掘故障特征并在发动机失效之前提出预警,提高了在实际运营生产环境中的安全性。

(a) TCN+多头注意力模型

定义预测误差等于预测值与真实值差值的绝对值,对4种模型在测试集上的100台发动机进行预测误差求和对比,结果如图6所示,可以更加清晰地看出所提模型的总体误差更小,预测精度更高。

图6 发动机寿命预测总误差

为了更加具体地说明所提模型的有效性,引入评价指标,对上述的4种模型进行量化评估。评价结果如表4所示,可以看出相对于添加多头注意力机制的TCN和ConvLSTM单通道模型,所提模型在MAE、RMSE、Score值上明显降低,这说明将二者结合有助于预测性能的提升。与未加多头注意力机制的普通双通道模型相比,所提模型在MAE、RMSE、Score值上分别降低了14.95%、7.6%、21.02%,这说明通过引入多头注意力机制优化重点特征权重分配,可以提高预测精度。综上,证明所提方法能够很好地捕捉航空发动机退化特征的时序特性,对于剩余寿命作出更为准确的预测。

表4 消融实验评价指标

为了更加直观地显示所提模型与其它消融模型的剩余寿命预测效果,从100台测试发动机中随机抽取4台进行完整寿命预测,预测结果如图7所示。可以看到,本文模型主要贡献在寿命还未开始退化的早期,由于特征信息少,单通道网络模型对于数据的挖掘力度不足导致预测严重偏离真实寿命,而普通双通道和本文模型能够解决这个问题,并且本文模型更加接近真实寿命,初步证明所提方法的性能提升。在寿命正式开始退化时,也是预测值波动剧烈的地方之一,本文模型在4台发动机上表现最好。随着寿命周期临近终点,故障信息增多,网络学习到的信息随之增多,4种模型基本都能较好地追踪寿命退化趋势,这是因为本文所对比的消融模型相对于传统网络模型已经有着较大的改进。需要注意的是,部分发动机由于信号噪声大等原因,导致预测结果波动大、预测精度低如图7(b)所示,传统网络误差大尤其是TCN在整个寿命周期的预测中表现最差,而本文模型预测曲线虽然在未开始退化时期波动较大,但也能随着退化信息的增多而逐渐收敛,证明了一定的鲁棒性。综合来看,本文模型在发动机整个寿命周期的预测过程中,最贴近真实退化曲线,预测准确率较高,具备一定的工业价值。

(a)34号发动机

3.5.2 对比实验

为了验证本文提出模型的优越性,分别构建了其它文献中提出的优秀深度学习方法:CNN-BiLSTM模型[16]、多特征注意力模型[17]、多头注意力模型[18]、CNN-GRU[19]作为对比模型。在FD001测试集上进行误差比较,所得结果如表5所示。其中,文献[16]和文献[19]是基于CNN-LSTM的2种网络改进,本文模型相对于2者中表现更好的CNN-BiLSTM模型在MAE、RMSE、Score值上分别降低了:34.63%、31.31%、37.66%,这说明双通道模型的确在预测准确性上优于单通道网络模型。文献[17]所提模型考虑了多通道提取特征的情况但是本身对于特征的挖掘深度还不足,而文献[18]虽然增加了多头注意力来对特征权重进行再分配,但跟文献[16]、[19]一样缺少对于多模型组合的探索,导致精度无法进一步提升。相对于表现最好的多特征注意力模型,所提模型在MAE、RMSE、Score值上分别降低了10.08%、7.89%、13.37%。

表5 对比实验评价指标

4 结语

本文提出一种双通道结合多头时序注意力机制的航空发动机剩余寿命预测模型。首先,将原始发动机监测信号提取出来,从中选取能够表征退化的特征数据;其次,建立双通道模型,利用TCN更大的感受野和计算速度的优势以及ConvLSTM能够捕捉特征时序特性的特点各自独立处理特征向量;最后,引入多头注意力机制,降特征向量映射到独立子空间,重新赋予权重,关注重点向量,提高预测精度。使用C-MAPSS数据集对模型进行仿真验证,并与原始模型和其它文献中的模型比较,结果表明该模型预测精度更高,综合性能优于其它模型,为航空发动机的剩余寿命预测提供了一种新思路。

未来将在变换工况的情况下,进一步验证所提模型的有效性,尝试通过迁移学习等手段提高模型的泛化性。

猜你喜欢
双通道注意力寿命
让注意力“飞”回来
人类寿命极限应在120~150岁之间
近端胃切除双通道重建及全胃切除术用于胃上部癌根治术的疗效
仓鼠的寿命知多少
马烈光养生之悟 自静其心延寿命
人类正常寿命为175岁
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
采用6.25mm×6.25mm×1.8mm LGA封装的双通道2.5A、单通道5A超薄微型模块稳压器
分类高考能否打通“双通道”