基于卷积自编码与密集时间卷积网络的回转支承退化趋势预测

2021-12-20 08:48张典震杨启帆
振动与冲击 2021年23期
关键词:卷积编码预测

张典震,陈 捷,2,王 华,2,杨启帆

(1.南京工业大学 机械与动力工程学院,南京 211816;2.南京工业大学 江苏省工业装备数字制造及控制技术重点实验室,南京 211816)

回转支承是保障盾构机、风力发电机等大型回转机械进行回转运动的一种关键部件,在其服役过程中,由于受到工作环境、受载情况等因素的影响,往往会出现意外的故障和损坏,造成重大的经济损失与安全隐患。因此,研究回转支承的性能退化趋势预测具有重要意义。

退化趋势预测主要包括构造反映回转支承性能退化状况的健康指标(health indicator,HI)与建立准确有效的退化趋势预测模型两部分关键工作。在健康指标构造方面,由Lei等[1-3]的研究可知,健康指标通常可分为两类:一类是物理指标,如均方根、峭度[4]等一些传统的统计特征,或如Wang等[5-6]研究中的基于等效循环能量、振动信号功率谱密度构造的健康指标;另一类是融合指标,即提取原始信号的时域、频域等统计特征,并通过主成分分析(principal component analysis,PCA)、局部保持投影等算法构造的指标。但这两类指标的构造都过于依赖先验知识,需要人为地提取与筛选特征,构造方法难以适用于不同任务。存在通用性不强、自适应能力差的问题。而深度神经网络具有较强的特征发掘与特征学习能力,能够实现在原始数据中自动提取特征、降维等操作。因此,近年来借助卷积神经网络(convolutional neural networks,CNN),深度信念网络[7]以及堆叠自编码器等深度学习模型的健康指标构造方法被提出,但其中多数方法仍存在依赖人为标注标签以进行监督训练的问题。

在建立退化趋势预测模型方面,较为常见的预测模型包括:自回归模型,BP(back propagation)神经网络,最小二乘支持向量机等[8],但以上传统机器学习模型在处理非线性较强的健康指标时存在一定局限性,预测精度不足。而诸如长短时记忆网络(long short-term memory,LSTM)、门控循环单元网络(gated recurrent unit,GRU)等专门为序列预测任务设计的深度学习模型,具有强大的特征提取与非线性映射能力,在预测精度上往往优于一般机器学习模型,且其各类变体与改进模型层出不穷,李峰等[9]将量子计算技术引入门控循环单元网络进行改进,提升了网络的收敛效率与预测精度。Wang等[10]使用飞蛾扑火优化算法对GRU模型进行自适应参数选择,提升了网络预测效果的稳定性。Wang等[11]在长短时记忆网络中接入多个卷积层以增强网络的特征提取能力,从而提升对健康指标的预测精度。时间卷积网络(temporal convolution network,TCN)是2017年提出的一种用于序列预测任务的深度学习模型,目前已应用在音频合成、机器翻译等方面,且在较多情况下取得了较循环神经网络更优的表现。而在退化趋势预测方面,其研究依然尚缺。虽在于重重等[12-13]的研究中作为预测模型被用于滚动轴承的退化趋势预测任务,但研究中发现,其训练时存在收敛效果不稳定、收敛速度较慢的问题,影响其最终的预测精度,有待改进。

因此,为解决以上问题,本文提出一种基于改进时间卷积网络的退化趋势预测模型:密集时间卷积网络(densely temporal convolution network,DTCN)。首先,基于Dense-Net中的密集连接结构对最初的TCN进行改进,通过进一步增加网络的内部连接,增强对各卷积层所提取特征的复用,进而提升网络的预测性能以及训练时的稳定性;随后,通过对卷积自编码网络(convolutional auto-encoders,CAE)进行无监督训练提取特征,并结合隐马尔可夫模型(hidden Markov model,HMM)建立回转支承健康指标,验证本文所提方法的有效性以及在预测效果上的优越性。

1 基于卷积自编码与隐马尔可夫模型的健康指标构造

健康指标是反映回转支承性能退化状况的关键指示量,也是进行下一步退化趋势预测的基础。以往传统的构造方式中,如均方根(root mean square,RMS)、峭度等物理指标,虽然其构造方式简单,但所包含的退化信息有限,难以全面的反映退化过程。而融合指标如基于多种时、频域特征的PCA指标、HMM指标,则需针对不同构造对象,人为筛选退化趋势明显的特征,通用性较差。因此,本文采用深度学习方法结合卷积自编码网络与隐马尔可夫模型进行回转支承的健康指标的构造。

1.1 卷积自编码器

卷积自编码网络[14]是堆叠自编码网络的一种延伸,两者具有相似的网络结构,均由编码器与解码器两部分网络组成:编码器负责将输入数据映射到低维空间,输出编码特征;解码器负责将编码特征进行重构以得到近似的输入数据。但卷积自编码中使用卷积层代替以往的全连接层,因而具有更强的非线性映射能力。卷积自编码网络的无监督训练过程,如图1所示。其中编码器网络通过堆叠多个卷积层构成,对于任意一个单通道输入x,其多层映射可表示为

图1 自编码网络的无监督训练方法Fig.1 Unsupervised training method for auto-encoder

hk=σ(x*Wk+bk)

(1)

式中:hk为第k层的网络输出;σ为激活函数;“*”为卷积运算;Wk与bk分别为权重与偏差。解码器网络以编码器所输出的编码特征作为输入,通过多个堆叠的反卷积层得到与原始输入尺寸一致的重构输入,其运算过程可由式(2)表示

(2)

1.2 基于CAE与HMM的健康指标构造流程

本文借助卷积自编码网络从原始试验数据中自适应的提取特征,并基于所提取特征对HMM进行训练,进而得到回转支承的健康指标,其流程如图2所示,主要步骤包括:

图2 基于卷积自编码器与隐马尔可夫的HI构造Fig.2 HI construction based on CAE and HMM

步骤1将原始试验数据输入卷积自编码网络进行无监督训练,训练过程包括——从训练数据输入网络后的前向传播得到重构输入;以及计算与原始输入之间的重构误差并反向传播更新网络参数;最终得到训练后的模型。

步骤2将全部数据输入训练后的卷积自编码网络,提取编码器网络所输出的多维特征,并构造特征矩阵。

步骤3取正常阶段数据输入卷积自编码网络后所提取的特征训练HMM,得到模型参数λ。

步骤4将全部特征集作为观察矩阵O输入训练后的HMM,计算似然概率值P(O|λ),并对其进行长度5的滑动平均,作为最终的健康指标。

2 基于改进时间卷积网络的退化趋势预测模型

2.1 时间卷积网络

时间卷积网络的基本结构组成包括以下。

2.1.1 一维全卷积

时间卷积网络中使用了一维卷积,目的是应对一维的时序信号作为输入,全卷积网络的设计是指该卷积层通过对输入数据进行“补零”的方式,实现输入与输出等长。

2.1.2 因果卷积

TCN中的因果卷积,其目的是要保证在序列预测任务中,当对第t时刻进行预测时,仅能使用该时刻前的数据,避免出现将未来的数据用于预测的所谓数据“漏接”的情况[15]。假设输入序列{x0,x1,…,xN},预测t时刻的输出yt,因果卷积的作用就是防止t时刻之后的数据{xt+1,xt+2,…,xN}作为输入用于预测。

2.1.3 扩张卷积

扩张卷积是CNN中的一种经典架构,其作用是能够成指数倍的扩大CNN的感受野,在不改变卷积层输出尺寸的同时,提升网络的性能。其主要通过在普通卷积核的基础上插入间隔的方式实现。

(3)

式中:k为卷积核尺寸;d为扩张系数;下标s-d·i为上一层第s-d·i元素;下标i为第i个卷积层。由式(3)可知,影响该网络感受的参数为卷积核的尺寸与扩张系数,此外,扩张系数的大小与卷积层数密切相关

d=O(2i)

(4)

卷积层的层数同样是影响该网络性能的一个重要参数。因此可确定影响TCN性能的3个关键参数为:卷积核尺寸k,卷积层层数n,扩张系数d。

2.1.4 残差连接

由于TCN通常会采用增加层数的方式来确保足够大的感受野,这就导致了在某些情况下出现网络层数过多的问题。因此,Res-Net网络中的一种跨层连接结构Residual-block被采用。

残差连接是深度卷积神经网络中的一种重要结构,通过建立间隔两层的跨层连接增强对卷积层输出特征图的复用,提升网络的性能,同时也能有效避免因层数过多导致的梯度消散或梯度爆炸的问题。这种跨层连接方式的表达式为

xl=Hl-1(xl-1)+xl-1

(5)

式中:H(·)为第l层的非线性变换;xl为第l层的输出。

2.2 改进的预测模型DTCN

在对实验室回转支承全寿命数据进行退化趋势预测的代码试验中发现,TCN的预测效果不稳定,并不总能达到最优;而且在网络的收敛速度上,相较于其他用于序列预测的深度学习模型(如LSTM,GRU等)较为缓慢,迭代次数要达到LSTM迭代次数的4倍~5倍才能达到相近或者更优的预测效果。针对这一问题,尝试借鉴Dense-Net中的密集连接结构对TCN进行网络结构上的改进。

2.2.1 Dense-Net

Dense-Net是Huang等[16]于2017年提出的一种深层卷积网络,该网络在Res-Net基础上,将原有的跨层连接方式进行拓展,提出了一种不同卷积层之间更为密集的连接方式。Dense-Net中的密集连接结构Dense-block使得网络中的每一层都从前面的所有层获得额外的输入,并将该层的输出特征映射传递给后面的所有层。同时,区别于Res-Net中将不同层输出特征升降维后相加的特征合并方式,Dense-Net将不同层的输出特征沿某一维度进行拼接,保障了信息的完整性,同时最大程度保障了网络的内部信息流通。

Dense-Net中将任意一层连接至所有后续层的密集连接方式可以由式(6)表示,xl为Dense-Net中第l层的输入,[x0,x1,…,xl-1]为从第一层到第l-1层输入的拼接,Hl为第l层进行的非线性变换,l为所在的层数。

xl=Hl([x0,x1,…,xl-1])

(6)

2.2.2 模型结构改进

本文使用Dense-net中的密集连接结构替换时间卷积网络中的残差连接结构,得到改进后的密集时间卷积网络DTCN。

原始的时间卷积网络,是由多个时间卷积模块堆叠而成的,每个时间卷积模块中都包含两个扩张因果卷积层。如图3所示,该模块结构为:扩张因果卷积-BN-ReLU-扩张因果卷积-BN-ReLU,以及一个支路的跨层连接,其中包含一个1×1卷积用于调整数据的通道数,起到升降维度的作用。(BN为批正则化操作,ReLU为激活函数)。

图3 改进前TCN结构(局部)Fig.3 TCN structure before improvement(part)

本文主要对网络中的时间卷积模块进行改动,改动后的每个时间卷积模块中只含有一个扩张因果卷积,每个时间卷积模块之间通过Dense-Net中的密集连接方式建立连接,增强网络内部的信息流通与特征的复用,进而提升网络的预测性能。每个时间卷积模块的结构为:BN-ReLU-1×1卷积-BN-ReLU-扩张因果卷积,如图4所示。通过多个模块的堆叠得到最终的网络。

图4 改进后DTCN结构(局部)Fig.4 The improved DTCN structure(part)

3 退化趋势预测流程

回转支承退化趋势预测的一般流程包括:健康指标构造、训练预测模型、模型测试三部分,如图5所示。

图5 退化趋势预测流程Fig.5 Prediction process of degradation trend

其中,DTCN的训练过程如下。

设长度为n的HI序列数据为{x1,x2,…,xn},将其按一定比例划分,得到训练数据{x1,x2,…,xm}与测试数据{xm+1,xm+2,…,xn}。随后,按预测模型的输入维度l进一步将数据划分为形如式(7)的训练集与测试集,每一行代表一个样本。式(8)为训练集对应的期望输出,将其与训练集样本输入网络进行模型训练。当损失函数不再明显下降时,保存DTCN模型参数训练结束。

(7)

Xtrain_label=[xl+1,xl+2,…,xm]

(8)

4 试验验证

4.1 加速寿命试验

为进一步验证该预测模型的可行性,使用本课题组自主研发的回转支承试验台对某型号单排球回转支承进行加速寿命试验,采集其振动加速度数据进行验证。

回转支承试验台由加载盖、上下法兰及支架等构成的机械部分,以及由液压缸、液压马达组成的液压部分共同完成回转支承的加载与旋转,如图6所示。回转支承在规定载荷下运行至发生破坏停止工作,具体的试验方案参考Lu等的研究。整个试验过程共进行了12 d,采集到从正常阶段到严重退化阶段的全寿命振动加速度数据,如图7所示。

图6 回转支承试验台Fig.6 Slewing bearing test bench

图7 全寿命数据Fig.7 Life cycle data

4.2 健康指标构造

按照第1章中所述的HI构造流程,基于4.1节获得的加速寿命试验数据建立HI,对改进模型DTCN的预测效果进行验证。同时,为验证该自编码指标的优势,选取几种常用的HI进行对比,包括:①RMS指标;②通过PCA融合多种时、频域特征构造的融合指标;③通过隐马尔可夫模型结合多种时、频域特征所建立的指标。

文献[17]综述了能够用于反映回转支承性能退化的多类特征,人为筛选出4种退化趋势明显的时域特征:峰峰值、方差、均方根、峭度。以及3种频域特征:中心频率、均方根频率、均值频率。将这些特征组成特征集,用于构造上述②③两种健康指标HI。同时,为避免滑动平均对HI的评价结果造成影响,以上3种HI在构造时均进行了与本文HI相同的滑动平均处理。全部的HI如图8所示。

图8 4种健康指标HI对比Fig.8 Comparison of four health indicators

为了定量的评价不同健康指标HI的优劣,本文选择时间关联性和单调性以及鲁棒性作为其评价指标[18],如式(9)~式(11)所示。其中:时间相关性表示HI与时间的线性相关程度;单调性表示HI持续增加或减少的趋势;鲁棒性能够表示对异常值的容忍程度。

(9)

(10)

(11)

由于每种评价指标仅能评价HI的部分属性,难以全面地评价HI的适用性,因此,文中使用将3种度量进行混合的HI评价方式,即计算其综合得分,如式(12)。

(12)

根据式(9)~式(11)可得到不同构造方法下健康指标的量化指标评价结果及综合得分Score,如表1所示。通过对比可知,本文方法所构造的健康指标,虽然3种评价指标并不能全部达到最优,但均与其他HI相近,且具有最优的综合评分,因此,认为该指标能够较好的反映回转支承全寿命周期内的性能退化状况。同时,相较于PCA与HMM方法所建立的指标,该指标构造方法无需针对不同对象进行人为的特征提取与筛选,降低了对于先验知识的依赖,具有通用性更强的优点。

表1 不同健康指标的量化指标评价结果Tab.1 Evaluation results of quantitative indicators of different health indicators

4.3 基于DTCN的退化趋势预测

在得到4.2节中的退化指标后,将其划分为训练数据与测试数据,用于模型训练及验证。考虑到应尽早发现并掌握回转支承的性能退化情况,结合图8中所建立的不同健康指标,取正常状态与初期退化状态数据作为训练集,将开始出现显著退化后的数据作为测试集,最终数据集划分为70%的训练数据与30%的测试数据,如图9所示。

图9 CAE-HI的训练集测试集划分Fig.9 Data set partitioning for CAE-HI

为评价不同预测模型的预测准确性,以下均采用均方误差(mean square error,MSE,公式中为EMS)作为预测效果的评价指标,通过计算健康指标HI预测值与真实值的差异反映预测效果。

(13)

由2.1节的介绍可知,对TCN预测性能有较大影响的几个参数包括:卷积层数(范围2~6),卷积核个数(范围22~32),卷积核尺寸(范围3~15);因此,首先对以上参数进行讨论,依次分别调整3个参数,观察对最终预测误差的影响。参数按照C-N-S的形式表示:C为扩张因果卷积的层数,N为卷积核的个数,S为卷积核尺寸,如表2所示。

由表2可知,在一定范围内改变超参数时,相较于原始的TCN,DTCN预测误差的上下浮动范围更小,且预测效果普遍优于TCN,说明DTCN具有一定的泛化性,对参数的变化并不敏感,能够在不同参数下保持相对不错的预测效果,在实际应用中,这一特性能够使模型在保证性能的同时,大大减少人为调参的工作量。此外,在逐渐增大某一超参数时,发现预测误差的变化并不规律。因此,为确定其最优参数,本文在TCN原论文所提供的参数范围内对3种参数进行网格搜索,最终确定最优超参数为6-27-15,其预测误差为0.004 8。在DTCN的训练中,其他超参数设置为:网络的输入维度为10,输出维度为1,最大迭代次数为1 000,使用Lookahead+Adam优化器,Dropout比率为0.5,训练中引入Early-stopping机制防止过拟合。由于这些超参数对模型性能的影响相对较弱,故此处暂不讨论。

表2 不同超参数对DTCN与TCN预测效果的影响Tab.2 Influence of different hyper-parameters on the prediction effect of DTCN and TCN

随后,对本文所提改进模型DTCN的有效性进行验证,损失函数曲线能够较为直观的反映一个模型的收敛情况。因此,将TCN改进前后的损失函数曲线进行对比。DTCN使用以上确定的参数,TCN的超参数按于重重等研究中的设置并同样进行网格搜索,保证其达到最优效果。以对指标HMM-HI的预测为例,通过对比图10中TCN改进前后的损失函数曲线可以发现,DTCN的收敛效果明显改善,损失函数的下降速度更快、波动更小,这说明收敛更加稳定。同时,损失函数最终能下降到更小的值,说明DTCN预测效果较TCN更优,证明了本文中对DTCN网络结构的改进是有效的。

图10 DTCN与TCN损失函数对比Fig.10 Comparison of loss between TCN and TCN

为充分验证DTCN在预测效果上的优越性,将本文所提的改进模型与原始TCN、以及目前在序列预测领域较常用的LSTM、GRU进行对比。由于4.2节中所构造的4种HI均呈现出明显的指数上升趋势,因此,使用指数函数模型对不同HI进行拟合并预测退化趋势的方法同样被引入进行对比。其中,LSTM与GRU的参数设置可参见Wang等的研究,不同神经网络模型设置相同的输入、输出维度,以保证对比的客观性。指数函数模型,由式(14)分别对不同HI的训练数据进行拟合实现预测,其中a、b为拟合中确定的模型系数。5种不同模型的最终的预测误差如表3所示,部分预测结果如图11所示。

表3 不同模型的预测误差Tab.3 Prediction errors of different models

f(x)=a·eb·x

(14)

由表3对比最终的预测结果可知,原始TCN网络仅在对某些指标如PCA-HI、CAE-HI进行预测时,具有与LSTM、GRU相近的预测性能;而在对其他两类指标进行预测时,预测误差较大,结合在表1超参数讨论中,其不同参数下预测性能的较大差异,暴露了TCN所存在的预测性能不稳定的问题。LSTM与GRU作为两种目前常用的序列预测模型,在对不同指标的预测中表现出了相对稳健的预测性能。指数函数模型的预测方法操作简单,基本能够预测出HI的增长趋势,但综合来看,其对于HI细节变化的预测能力并不突出,预测误差相对较大。说明其在HI的长期预测中可能更为适用。由图11的预测结果可以看出,以上4种模型均能够进行退化趋势预测,较好的跟踪回转支承健康指标的变化情况;但本文所提的DTCN模型在对不同健康指标HI进行预测时,均能达到远低于其他模型的预测误差,平均预测误差下降71%以上,对健康指标变化趋势的反映更加准确,说明了DTCN在预测效果上具有优越性,也具有一定的泛化性。由于DTCN采用了多个时间卷积模块堆叠结构,当网络逐渐加深时,其中的密集连接结构将会带来较大的参数量,对其运算效率造成影响。因此,尝试对DTCN进行一些轻量化改进,从而保证其高效且准确是今后将要研究的内容。

(a)DTCN预测结果

5 结 论

本文的主要工作集中在退化趋势预测中的预测模型方面。首先,通过将无监督训练的卷积自编码网络与隐马尔可夫模型结合,尝试构造了一种深度学习健康指标;随后,使用时间卷积网络对建立的回转支承健康指标进行预测,并通过将Dense-Net中的密集连接结构引入TCN,代替以往残差模块的方式对其进行改进,通过试验验证得到以下结论:

(1)DTCN增强了网络内部的信息流通,使卷积层所提取的特征能被尽可能多的利用,从而促进网络收敛,提升预测效果。

(2)通过其他序列预测模型预测结果的对比可知,相较于原始TCN,DTCN的预测效果与收敛速度有显著提升,相较于LSTM与GRU,本文所提方法在预测效果上也更加精确。

(3)基于卷积自编码网络的健康指标,具有与其他健康指标相近的评价结果,能够用于反映回转支承的性能退化状况;同时摆脱了对于人为提取、筛选特征的依赖,构造方式更加通用。

因此,本文所提的DTCN预测模型能够较好地预测回转支承健康指标的退化趋势,准确反映回转支承的性能退化状况,对及早发现潜在故障并进行维护有积极作用。

猜你喜欢
卷积编码预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
从滤波器理解卷积
Genome and healthcare
基于傅里叶域卷积表示的目标跟踪算法