1DAMCNN方法在滚动轴承故障诊断中的应用

2022-12-20 15:43段浩明王娆芬
噪声与振动控制 2022年6期
关键词:空洞故障诊断卷积

段浩明,王娆芬

(上海工程技术大学 电子电气工程学院,上海 201620)

在各类旋转机械中,轴承占有极大比重,轴承是旋转机械中最关键的零件之一,在旋转机械发生故障时,轴承故障较为常见。一旦发生故障,轻则造成经济损失,重则造成人员伤亡。为了避免上述情况的产生,轴承的状态监测以及故障诊断显得尤为重要。

传统的智能诊断方法一般都需要先借助于信号处理技术对采集到的信号进行预处理[1],之后人为提取故障特征并通过分类器进行诊断,比如通过支持向量机(Support Vector Machine,SVM)、反向传播神经网络(Back Propagation Neural Network,BPNN)和随机森林(Random Forest,RF)等来实现轴承故障类型识别。谢志谦等[2]提出一种基于自适应噪声的完备经验模态分解与本征模态函数(Intrinsic Mode Function,IMF)样本熵结合的滚动轴承故障特征提取方法。王建国等[3]针对传统解调分析难以提取轴承故障信息的这一弱点,提出了一种将变分模态分解与最大相关峭度解卷积相结合的滚动轴承故障诊断方法。而上述这些浅层机器学习的故障诊断方法,人工特征提取步骤繁琐,且对方法参数要求较高。其特征选择过程十分依赖于专家经验,无法针对不同任务和数据自动进行特征选择,并未能实现端到端的故障诊断。为了弥补上述缺点,越来越多的学者研究如何将深度学习理论[4]应用在工业领域中。

卷积神经网络(Convolutional Neural Networks,CNN)依靠本身具有自适应提取数据特征的能力,近年来在各个方面得到了广泛的应用。宫文峰等[5]提出了一种基于改进的卷积神经网络滚动轴承故障快速智能诊断方法,使用全局均值池化技术代替传统卷积神经网络的全连接部分;Zhao 等[6]提出了一种卷积双向长短期记忆网络,解决了不同工况条件下轴承的故障诊断;Zhang等[7]提出图像与卷积神经网络相结合的轴承故障诊断方法,将一维振动信号通过傅里叶变换转化为二维图像作为卷积神经网络的输入;曲建岭等[8]设计了基于一维卷积神经网络的轴承故障诊断算法,实现了“端到端”的故障诊断模式;张伟[9]提出了一种基于直接对时域振动信号进行处理的卷积神经网络故障诊断方法;吴春志等[10]使用一维卷积网络进行齿轮箱的故障诊断,实现对故障特征自动提取和分类。

轴承故障产生的情况较为复杂,有时会涉及多种工况。而传统的卷积神经网络诊断模型在复杂工况环境下,由于网络感受野范围有限,难以提取更多的故障特征信息,无法做出准确的诊断与分类。同时,想要充分利用卷积神经网络来有效地提取各种复杂的隐藏特征,往往需要提供大量的数据样本对模型进行训练。但旋转机械发生故障时的样本数据与正常状态下数据相比较少,使得训练样本比例变小时,卷积神经网络的特征提取和诊断效果变差。

综合上述分析,在提取故障特征时,往往是需要的上下文信息越多,需要的卷积核感受野越大。为了改进普通卷积的感受野范围有限的不足,特此将空洞卷积[11]引入到故障诊断中,利用空洞卷积在不增加额外计算量的同时还能扩大感受野范围的特性,实现对故障特征的提取。并将普通卷积与空洞卷积进行融合,捕获更加全面的特征信息,通过普通卷积补全空洞卷积留下的盲点。为了充分利用提取到的特征信息,通过加入通道注意力增强故障特征信息的表达能力。在此基础上,建立了应用于滚动轴承故障诊断领域的端到端深度神经网络模型。

1 基本理论

1.1 空洞卷积

空洞卷积与普通卷积相比,仅在后者的基础上增加零填充,并通过设置不同大小的扩张率(Dilation Rate),在不增加额外计算量的同时扩大卷积核感受野。感受野的计算如式(1)所示。

式中:lk为当前层网络感受野大小,lk-1为前一层网络感受野大小,fk代表该层卷积核尺寸,Si代表i层步长。卷积核大小为3、步长为1的一维空洞卷积如图1所示,两端为填充部分。

图1 空洞卷积

图1(a)表示扩张率为1时的空洞卷积,此时空洞卷积也就是普通的一维卷积,卷积的感受野大小为3。图1(b)表示扩张率为2 的空洞卷积,此时卷积的感受野大小为5。通过调整不同大小的扩张率,就可以获得不同尺寸的感受野,进而可以获取多尺度上下文信息。与一维空洞卷积等效的普通卷积核大小的计算公式如式(2)所示。

式中:Fk代表与空洞卷积等效的卷积核大小,fk为真实卷积核大小,d为扩张率。

1.2 注意力机制

在计算机视觉领域的深度学习网络中引入注意力机制,可以提高模型的特征提取能力,从而达到提高图像分类或目标检测等任务准确性的效果。针对故障诊断问题故障类别多且变化不显著的特点,本文将Wang等[12]提出的通道注意力(Efficient Channel Attention,ECA)引入该领域,借此来提高模型对关键特征信息的提取能力。详细结构如图2所示。

图2 通道注意力

图2 中,X∈RW×H×C代表输入特征,W、H和C分别为特征的宽度、高度和通道维数;GAP代表全局平均池化(Global Average Pooling),它的作用是沿着空间维度对每一个通道进行特征压缩,得到各通道的权重值,其计算如式(3)所示:

式中:y代表压缩生成后的权重,Xc(i,j)为输入特征X中第i行第j列的元素。通道间的信息交互可以通过卷积操作实现,其中卷积核的大小代表通道信息间交互的覆盖范围。其计算如式(4)所示:

式中:Conv1D表示一维卷积,k为卷积核尺寸,σ(⋅)为Sigmoid 激活函数。其中k的大小与通道维数C有关,且通道间信息交互的范围(卷积核k)与通道维数C成正比,表明二者存在非线性映射关系。通常通道维数C常被设置为2的指数倍,故采用以2为底的指数函数来表示这种非线性映射关系。其计算如式(5)所示:

式中:当给定通道维数C时,卷积核的大小k计算如式(6)所示:

式中:|t|odd表示奇数t,γ和b为给定参数。

2 模型设计

2.1 混合卷积

空洞卷积通过稀疏采样扩大感受野,使得邻近各子集卷积之间信息交流不充分,存在局部信息丢失问题。而普通卷积由于卷积核感受野范围有限,存在对全局信息把握不充分的问题。为了解决以上问题,将普通卷积和空洞卷积进行组合,设计了一种混合卷积(Mixed Convolution,MixConv),它主要包含3条分支,分别是左边分支代表扩张率大小为d的空洞卷积(Dilated Convolution,DConv),右边分支代表普通的标准卷积(Standard Convolution,SConv),中间分支代表自身的恒等映射,具体结构如图3所示。

图3 混合卷积

每个卷积层的滤波器个数不同,目的是获取更多的特征信息,在卷积操作后面,加入批标准化层(Batch Normalization,BN)和非线性激活函数层(Rectified Linear Unit,ReLU),提高模型泛化性。各分支的输出特征经过Concat操作进行通道维度上的拼接。这样设计的好处是既增大了普通卷积的感受野范围,又解决了空洞卷积局部信息丢失的问题。同时由于每个分支特征尺度不同,经过Concat 操作后,最终得到的输出特征是多尺度特征,充分利用了上下文信息多尺度特征的优势。当模型的输入特征为Y时,则3 个分支经过Concat 融合特征操作后的输出特征YC数学表达式如式(7)所示。

式中:YD为左边分支得到的输出特征,YS为右边分支得到的输出特征,⊕代表维度拼接操作。

2.2 模型结构

1DAMCNN 模型结构如图4 所示,主要包含16层,由4 层混合卷积(MixConv)、4 层通道注意力(ECA)、3 层最大池化(MaxPool)、1 层普通卷积(SConv)、1 层全局池化(GAP)、2 层全连接(Fully Connected,FC)和Softmax 分类层构成。模型输入(Input)为信号长度,输出(Output)为类别标签。扩张率为d时,网络层的输出尺寸如表1所示。

表1 网络模型中尺寸变化

图4 1DAMCNN模型

3 试验数据分析结果

3.1 数据来源

为了验证本文方法的有效性,选用美国凯斯西储大学滚动轴承故障数据集作为实验数据进行仿真实验。选用采样频率为12 kHz的驱动端故障振动信号数据,包含轴承在735 W、1 470 W和205 W 3种负载工况下的振动信号,各负载工况按照电机转速进行界定,依次分别为1 772rmin、1 750rmin 和1 730rmin。每种负载工况存在3种类型故障,分别是滚动体故障、外圈故障和内圈故障。为了模拟不同的故障程度,每种故障类型包含3 种不同的故障直径,分别为0.177 8 mm、0.355 6 mm 和0.533 4 mm,总计是9 种故障状态。因此,外加一种正常状态,共计有10种类型的标签。

3.2 数据增强

原始故障振动信号数量有限,而样本较少容易发生过拟合,为了提高模型的泛化能力,本文使用重叠采样的方法对数据进行增强,原理如图5 所示。该方法使用固定大小的窗口按照设定的步长在信号序列上滑动并采样,即每一段振动信号与它的后一段信号之间存在部分的重叠,使得分割的数据量增加,从而达到数据增强的目的。

图5 滑动窗口重叠采样

3.3 数据处理

在数据处理过程中,对于不同故障类型信号,首先按照顺序截取一半的信号长度用于生成训练样本,取剩下的另一半信号长度用于生成测试样本。然后使用3.2 节所描述的重叠采样方法对训练样本进行数据增强,窗口大小设置为2 048,滑动步长设置为100,而测试样本以相同大小的窗口按顺序滑动生成,不进行数据增强,中间没有重叠部分。处理后的实验数据集如表2 所示,其中数据集A、数据集B和数据集C 代表轴承在735 W、1 470 W 和2 205 W 3种负载工况下产生的振动信号数据集,每种负载下分别包含6 000 个训练样本和250 个测试样本。数据集D 为3 个不同数据集的并集,一共是18 000 个训练样本和750个测试样本。

表2 实验轴承数据集

3.4 仿真结果与分析

本文仿真环境在Python 环境下利用深度学习框架Keras 搭建,仿真平台配置为Intel i5-9400F CPU 2.90 GHz,16 G内存,Win1064位操作系统。输入的一维振动信号长度为2 048,批次大小为32,模型训练过程中采用早停法(Early Stopping)策略,保存最优模型的各层权重。使用自适应矩估计优化器(Adaptive Moment Estimation,Adam)进行梯度下降优化,学习率设置为3×10-4,迭代次数为100,为了减小模型过拟合的风险,在全连接层后使用Dropout[13],Dropout率设置为0.5。

3.4.1 扩张率对故障识别准确率的影响

对于空洞卷积来说,通过调整扩张率d的大小可以获得不同尺度的感受野,从而使MixConv 获得更多不同尺度的特征信息,丰富故障信号中的特征多样性。在数据集A下探讨空洞卷积扩张率对故障识别准确率的影响,其他实验参数保持不变,仅改变扩张率d的大小。重复进行5次仿真,取平均准确率和训练时间作为评价指标。实验结果如表3 所示。分析可知当空洞卷积扩张率d为2时,本文所提模型效果最好,平均识别准确率达到99.92%,训练时间相比扩张率为1的情况仅仅增加了24 s。因此,后续均选用扩张率d为2的空洞卷积。

表3 不同扩张率的实验结果

3.4.2 不同负载下模型的故障诊断效果

利用表2中的滚动轴承数据集A、B和C对搭建好的1DAMCNN 模型进行训练和测试,据此来验证所提模型对不同负载工况下的故障诊断效果。在相同仿真条件下,重复进行5次仿真,以消除算法随机性对仿真过程造成的影响,Max/Min表示最大/最小值,STD为标准差(Standard Deviation)。

仿真结果如表4 所示,可以发现本文所提方法表现优秀,在不同数据集下多次实验均达到了99%以上的诊断准确率,且标准差较小,说明该模型表现稳定。

表4 不同数据集的诊断准确率/(%)

图6为1DAMCNN在不同数据集下的十分类混淆矩阵,横坐标为真实故障标签,纵坐标为预测故障标签。从图6(b)和图6(c) 可以看出,1DAMCNN 在10种类型中预测标签与真实标签一致,分类准确率达到100%。说明模型在复杂故障情况下能够实现自适应特征提取,且能准确分类。观察图6(a)可知,只有1 个错误分类,该错误为故障程度分类错误而非故障类型分类错误,其他标签分类完全准确。说明本文所提方法无需复杂繁琐的人工提取方法,就能够实现自适应提取特征并准确识别细腻微小特征,达到了防止人工提取特征对诊断过程造成干扰的目的,体现出自身的优势。

图6 十分类混淆矩阵

依托该数据集,已经有不少学者对故障诊断问题进行了研究[13-17],提出人工特征提取结合传统神经网络的分类模型AF-SVM与AF-BPNN、卷积神经网络结合长短时记忆网络的分类模型CLSTM、通道注意力结合卷积神经网络的分类模型SECNN 和二维图像结合卷积神经网络的分类模型GCNN,将本文所提方法的仿真结果与上述文献中的方法进行比较。对比结果如表5所示,AVG表示平均准确率。

表5 不同方法的对比结果/(%)

通过表5 可以看出,6 种不同的方法对于3 种数据集都有较高的诊断精度。其中,本文所提模型综合表现最优,诊断精度达到99.97 %。其中,AFBPNN 模型诊断精度较低,但也达到了90 %以上。说明所有模型对显著故障特征均有一定程度的识别能力。对比分析各模型的诊断精度,发现结合传统神经网络进行诊断的模型诊断精度最低,主要原因是传统的人工提取特征方法由于适用性不强和表达能力较弱,导致泛化能力表现均不如深度卷积神经网络模型。1DAMCNN 模型与之相比,精度提升了3.9%。在4种深度神经网络模型中,CLSTM模型诊断精度最低,这是因为该模型卷积感受野范围有限,未能利用到更广层次的数据特征。1DAMCNN 与SECNN 相比,虽然同样引入了通道注意力,但1DAMCNN引入的额外参数少很多。GCNN在将一维信号转化为二维图像的过程中,原始信息存在一定量的丢失,诊断精度略逊于1DAMCNN。而在本文所提出的方法中,输入为原始一维振动信号,不存在信息丢失的问题,并通过引入空洞卷积和通道注意力,扩大了卷积核感受野范围,有效提取了多尺度故障特征信息,使诊断精度有了进一步的提升。

3.4.3 模型的特征提取能力

考虑到实际生产环境中,轴承故障样本的数据量远少于正常样本,对于轴承故障诊断的识别,模型在小样本下的表现也极其重要。于是本文设置了小样本量下的仿真实验,据此验证1DAMCNN 在少量样本条件下对故障信号的特征提取能力,且对结果进行评估。分别从数据集D 选用样本量为60、90、300、900、1 500、9 000和18 000个训练样本对模型进行训练,测试样本始终为750 个。并通过控制实验变量法,进行对比实验的研究。构造SVM分类器作为基准进行对比。与1DMCNN 相比,1DCNN 中没有引入空洞卷积构造的混合卷积,1DMCNN中没有引入注意力机制,其他的实验参数完全相同,具体结果如表6所示。各评价指标通过重复实验5次得到,表中*/*表示分类精度的平均值和标准差。

从表6 可以看出,当只有60 个训练样本时,1DAMCNN 的识别准确率最高为88.10 %,1DMCNN 的识别准确率超过80%,而1DCNN 的识别准确率只有29.65%,未超过基准SVM的准确率,表现较差。主要原因是1DCNN 卷积感受野范围有限,无法获取到更多特征,而1DMCNN 引入空洞卷积构造的混合卷积后,扩大了卷积感受野,使准确率得到较大提升。当增加到90 个样本时,1DAMCNN的识别准确率超过96 %,1DMCNN 超过了91 %,1DCNN 表现与基准持平;当样本量个数为900 时,1DAMCNN识别准确率超过99%,这说明随着样本量的增加,样本内部隐含的潜在共性特征逐渐凸显出来,训练出来的模型表现越好。

表6 不同样本量的实验结果/(%)

当训练样本从9 000个增加到18 000个,可以看出各模型的准确率虽然也在提升,但提升较小。这种现象表明,要想进一步提升准确率,需要增加大量的训练样本,同时也增加了模型训练的计算成本,却只带来了微小的准确率提升。而本文提出的1DAMCNN 方法只需要极少量样本,就能起到很好的识别效果,从经济学的角度考虑,既减少了计算成本,同时也省去了一部分的时间成本。

同时为了探究样本个数对模型特征提取能力的影响,利用t-SNE(t-Distributed Stochastic Neighbor Embedding)降维技术[18],对测试集D 在1DAMCNN模型中最后一个全连接层下的隐藏特征,进行降维并将其可视化,可视化结果如图7 所示。因篇幅有限,故展示了训练样本量大小为60 和900 时的特征可视化结果。

从图7(a)、图7(b)和图7(c)中可以看出,相同故障类别的特征向同一个中心点聚集,不同故障类别的特征相距较远。1DCNN特征提取能力较差,各类型较为混乱,未能很好区分开。而引入混合卷积的1DMCNN通过提高模型的感受野,增强模型对于特征信息的表达能力。使得分类效果得到很大提升。1DAMCNN 后续引入注意力机制,增强各通道之间的信息交流,改善了空洞卷积可能造成的特征冗余问题。与图7(d)、图7(e)和图7(f)对比可以看出,随着样本量的增多,类与类之间的距离逐渐变远,并且各类型形成簇的范围越来越小,这说明基于该模型不同故障特征的可分性逐渐变强,同样验证了1DAMCNN具有强大的故障特征提取能力。

图7 样本量为60和900时的特征可视化

4 结语

本文提出一种改进的端到端滚动轴承故障诊断方法—1DAMCNN。运用该方法可以直接从原始振动信号中提取特征并完成分类,无需任何振动信号的预处理过程。通过对美国凯斯西储大学滚动轴承故障数据集进行试验研究,验证了该方法的有效性和准确性。并得到以下结论:

(1)采用空洞卷积构建的混合卷积替换了传统CNN 中的卷积层,扩大了卷积感受野范围,提升了故障诊断准确率。

(2)引入注意力机制ECA,通过调整特征通道的重要性,使模型聚焦于具有更多有效特征信息的通道,增强对于关键故障特征提取能力。

(3)相较于其他诊断方法,该方法表现出更强的自适应能力,准确率达到99.97%。并通过小样本量条件下对比实验,进一步证实了所提方法的有效性,该方法对滚动轴承故障诊断具有一定的实用价值。

猜你喜欢
空洞故障诊断卷积
基于包络解调原理的低转速滚动轴承故障诊断
基于3D-Winograd的快速卷积算法设计及FPGA实现
锻造过程中大截面塑料模具钢中空洞缺陷的闭合行为
卷积神经网络的分析与设计
从滤波器理解卷积
数控机床电气系统的故障诊断与维修
基于傅里叶域卷积表示的目标跟踪算法
空洞的眼神
因果图定性分析法及其在故障诊断中的应用
用事实说话胜过空洞的说教——以教育类报道为例