基于图卷积网络的迁移学习轴承服役故障诊断

2022-01-05 02:32彭雪莹江永全
计算机应用 2021年12期
关键词:分类器服役特征提取

彭雪莹,江永全,杨 燕

(西南交通大学计算机与人工智能学院,成都 611756)

(∗通信作者yqjiang@swjtu.edu.cn)

0 引言

为了保证列车服役的安全,预防故障的发生,减少安全隐患,符合发展需求的故障诊断新技术的研究刻不容缓,使用深度学习方法进行轴承故障诊断已经有了很多的成果。Luo等[1]提出了一种基于Fisher 的自适应深度卷积神经网络(Adaptive Fisher-based Deep Convolutional Neural Network,AFDCNN)方法用于小样本的故障诊断,可以自适应地优化模型参数,解决样本数量少时深度卷积神经网络诊断精度下降的问题。Zhang 等[2]开发了一种具有全局属性的并行长短时记忆(Long Short-Term Memory,LSTM)网络,以解决长序列中LSTM 可能导致不正确的特征提取的问题。Wang 等[3]提出了一种将加速度计和传声器采集到的多模态传感器信号进行融合的方法,从原始振动信号和声学信号中提取特征,并利用1D 卷积神经网络(Convolutional Neural Network,CNN)进行融合。李益兵等[4]研究了基于粒子群优化(Particle Swarm Optimization,PSO)的深度置信网络(Deep Belief Network,DBN),通过PSO 优选DBN 结构,用最优的DBN 模型提取故障特征来进行诊断。

然而在实际应用中,工作负荷的变化以及工作环境噪声等因素十分容易对结果产生干扰,而且由于故障会引起机器故障甚至是难以挽回的事故,因此故障是不被允许的,轴承服役期间的真实服役故障数据难以获取,导致真实的服役故障数据较为缺乏。由于深度学习模型往往需要大量的数据进行充分训练,服役故障数据稀缺成了深度学习方法在轴承服役故障诊断上应用的瓶颈。但由于不同设备对故障的容忍度不同,虽然无法获得高铁轴承服役故障数据,但是电动机的轴承故障数据获取相对容易。然而,不同数据的分布是不同的,很难保证在一个数据集上训练的模型能很好地在另一个数据集上工作。同时,不同类型的组件之间、不同工作条件下收集的故障数据都存在较大差异,这些原因都阻碍了轴承服役故障诊断研究的快速发展。

迁移学习为上述问题提供了解决方案,它能把源域的知识迁移到目标域,使其在目标领域能发挥出更好的学习效果。通常情况下,轴承服役故障数据比较稀少,收集真实的故障数据也缺乏标签,想要直接学习服役故障的知识比较困难。迁移学习能利用其他容易获取的数据在数据充足情况下将学习到的知识迁移到数据量少但与其相似的任务中。同时从零开始建立模型是复杂耗时的,迁移学习可以提高学习效率。针对不同工作条件下工作的轴承,Wang 等[5]通过整合可变形的CNN、深度长短时记忆(Deep Long Short-Term Memory,DLSTM)网络和稠密层来构建模型,并实施迁移学习策略,从而能够识别新工况下的轴承故障类型。Wu 等[6]提出了一种基于元学习的迁移学习方法在不同工作条件之间迁移。Chen等[7]提出了一种新的带有约束和辅助分类器的Atrous 卷积深度Inception 网络(Deep Inception Net with Atrous Convolution,ACDIN)故障诊断模型,以解决人为模拟损坏的轴承数据和自然损坏轴承数据之间特征不同的问题,取得了较高的准确度。陈仁祥等[8]设计的改进TrAdaBoost 多分类算法从样本中只选取对任务最有用的知识,使用不同的调整权重的方式,重用有用的数据样本,实现知识迁移。Li 等[9]设计了两种微调参数的方式,即微调最后一层和微调所有层来验证迁移学习在不同的轴承工作条件下的性能。Kang 等[10]设计了深度特征迁移方法去诊断不同工作条件下的故障,减小了源域和目标域之间样本特征的分布差异,减少了子空间变换操作。

针对轴承服役故障诊断困难的问题,本文设计了基于图卷积网络的迁移学习(Transfer Learning with Graph Convolutional Network,GCNTL)轴承服役故障诊断模型,从数据充足的人工模拟损伤故障数据中学习故障知识,并迁移到真实的服役故障上,提高服役故障的诊断准确率。本文的主要工作如下:

1)设计了一种GCNTL 轴承服役故障诊断模型,通过学习数据充足的人工模拟损伤故障知识,诊断真实的服役故障;

2)利用小波变换对原始振动信号提取时频特征,通过图卷积层提取数据特征,并使用Wasserstein 距离度量不同数据分布之间的差异;

3)应用不同数据集的实验结果验证本文提出的GCNTL轴承服役故障诊断模型可以有效地从人工模拟故障迁移到服役故障,同时能在轴承不同工作条件之间迁移。

1 相关工作

1.1 小波变换

小波变换作为一种时频分析方式,满足时频信号分析的需求,能够对时间和频率执行局部化精细剖析,通过定位时间和频率,在不同的条件下分别放大时间和频率的相关细节,提取信号的时频特征,可以减小甚至消除所提取的不同特征之间的相关性。小波变换克服了窗口尺寸不能随着频率变化而变换、且不具备自适应能力的缺点,能够提供一个随频率变化的时频窗口,特别适用于不稳定信号的分析。

假设Z(t)是输入信号,连续小波变换可以表示为:

其中:a为伸缩因子,表示依赖频率的伸缩;τ为时间平移因子;ψ(⋅)为小波母函数,是满足一定条件的基本小波函数。小波函数具有多样性,可以根据信号点的特征推导或构建,小波函数对相同问题的解析会产生截然不同的效果,具有很强的灵活性。

1.2 图卷积网络

GCN 将CNN 从低维的规则网格推广到了高维不规则图数据上,GCN从卷积方式上可以分为两种:空间域卷积和谱域卷积。谱域卷积主要借助图谱理论来实现非规则图上的卷积操作[11],主要通过计算图的拉普拉斯矩阵的特征值和特征向量来探索图的性质。具体来说,图上的卷积定义为:

其中:输入信号x∈RN;U是归一化图拉普拉斯矩阵L的特征向量组成的矩阵;Θ表示被傅里叶域的θ∈RN参数化的滤波器,Θ=Θ(Λ)∈RN×N,是一组可以学习的参数;Λ是L的特征值组成的对角矩阵。

然而在大图中计算L的特征值分解的复杂度很高,导致很难大规模扩展图,且无法在不同的图之间共享参数[12]。为了解决这个问题,Hammond 等[13]设计了用切比雪夫多项式Tk(x)的第k阶的截断展开来近似Θ(Λ)的ChebNet:

为了在减少计算量的同时不影响卷积效果,采用局部一阶近似的方法[14]来限制卷积操作,即令K=1,并进一步近似λmax≈2,网络在训练过程中能适应这种处理方式,则式(4)能表示为更为简洁的式子:

进一步限制参数数量有利于解决过度拟合并能够最大限度地减少每层的运算次数,用单一的参数θ=θ0=-θ1来简化式(5):

GCN中的卷积层的传播规则表示为:

其中:σ(⋅)是激活函数;代表第l层的输出;W为权值矩阵。

1.3 Wasserstein距离

Wasserstein 距离(WD)是衡量两个概率分布之间距离的方法[15],该距离在度量空间(M,ρ)上定义,ρ(z,y)表示集合M中两个样本z和y的距离函数。两个概率分布P1(z)和P2(y)之间的Wasserstein距离定义为:

其中:Γ(P1,P2) 在集合M×M内,所有以P1(z)和P2(y)为边缘分布的联合分布的集合;inf表示对表达式取最大下界。

Wasserstein 距离最大的优势在于,在两个分布完全没有任何交集时或交集非常小时,Wasserstein 距离仍然能够反映两个分布的远近,提供更为平滑的结果用于训练过程中梯度下降法的参数更新。

2 GCNTL轴承服役故障诊断模型

GCNTL 轴承服役故障诊断模型主要分为三个部分:特征提取器、分类器和判别器,如图1 所示。数据的输入分为充足的源域数据和较少的目标域数据:源域数据的数据量大,有标签;目标域数据的数据量少,没有标签。数据输入网络前都经过小波变换生成时频图。

图1 GCNTL轴承服役故障诊断模型Fig.1 GCNTL bearing service fault diagnosis model

2.1 特征提取器

特征提取器主要作用是从源域和目标域数据中提取可传递的特征。特征提取器对特征的提取能力直接影响分类器和判别器的工作,因此特征提取器的特征提取能力是决定模型效果的重要因素之一。

模型的特征提取器由三层GCN 层和一层全连接层构成,每层GCN 后由ReLU 作为激活函数,映射神经元的输出,GCN层的传播规则见式(7)。特征提取器中的全连接层用于整合学习到的特征信息并对特征进行降维。

模型在特征提取器上的目的是寻找一个特征空间,学习源域数据和目标域数据在特征空间的特征映射,减小源域数据与目标域数据之间的数据分布差异,因此,模型在特征提取器上的目标是学习域的不变特征。

2.2 分类器

分类器的主要作用是在模型训练和预测过程中对特征提取器提取的特征进行分类,分类器的性能不仅取决于自身的特征提取能力,也与特征提取器提取的特征准确与否息息相关。

GCNTL 轴承服役故障诊断模型中的分类器由两层全连接层组成,将特征提取器学习到的特征进行降维并映射到样本空间,其中应用Dropout随机丢弃部分神经元。分类器最后一层的神经元个数为故障的类别数,其结果表示故障的标签。

模型要根据特征提取器学习到的特征,识别轴承的健康状况,因此,模型在分类器上的目标是减少源域数据上的故障分类错误,表现为最小化源域数据集上的交叉熵损失函数来最小化分类损失。

2.3 判别器

判别器的作用主要是通过度量源域和目标域经过特征提取器提取的特征之间的分布差异,使得分布之间的差异最小化,从而使获得的源域和目标域之间的特征具有较小的跨域差异。

判别器由三层全连接层组成,每一层全连接层后使用ReLU作为激活函数。模型中,源域和目标域之间的数据分布差异由Wasserstein 距离来衡量,而最大化判别器的损失可以近似Wasserstein距离[15],判别器的损失表示为式(9)。

其中:ns、nt分别是源域和目标域的样本数;Fg(⋅)、Fd(⋅)分别是特征提取器和判别器计算的特征表示。为了防止梯度消失或梯度爆炸,需要给优化目标添加梯度惩罚Lgrad=,h是在源域和目标域上定义的梯度。因此Wasserstein距离可以表示为:

其中:λ作为平衡系数控制梯度惩罚的影响;θw为判别器权重参数。模型在判别器上的优化目标是减小源域和目标域之间的数据分布差异,即最小化Wasserstein距离。

结合模型在分类器和判别器上的优化目标,模型的最终优化目标可以写成:

其中:超参数γ控制域适应的强度;Lc表示分类器的损失函数;θg、θc分别为特征提取器和分类器的权重参数。模型的详细步骤在算法1中给出。

算法1 GCNTL轴承服役故障诊断算法。

输入 源域小波变换时频图Xs,目标域小波变换时频图Xt,邻接矩阵A;

输出 轴承服役故障诊断的准确率。

①初始化超参数,如平衡系数λ、学习率lr,随机初始化网络参数,如权重矩阵W、偏差b;

②计算源域数据和目标域数据经过特征提取器后的特征表示Fg(xs)和Fg(xt);

③根据式(10)计算Wasserstein 距离,并通过模型反向传播更新判别器参数;

④计算分类的交叉熵损失Lc,并通过模型反向传播更新分类器参数;

⑤根据式(11)计算模型损失,其中λ=0,梯度惩罚不应指导特征表示过程,并通过模型反向传播更新特征提取器参数;

⑥转到步骤②继续执行,直至网络收敛或达到预先设定的迭代次数。

3 实验与分析

为了验证GCNTL 轴承服役故障诊断模型的有效性,在4种不同的轴承故障数据集上进行测试。

3.1 实验数据

凯斯西储大学(Case Western Reserve University,CWRU)轴承数据集是从CWRU 轴承数据中心的实验平台[16]中收集的,该实验平台使用电动机进行实验,从电动机轴承测量振动数据。CWRU 轴承数据集实验中使用的轴承是深沟球轴承,所有故障都是人为放电加工的模拟损伤,损伤位置分别在内圈、外圈和滚动体滚道上。轴承故障数据有两种采样频率,即12 kHz 和48 kHz,在驱动端轴承或风扇端轴承上采样获得。每种条件下电动机都有4 种负载条件,分别为1 hp、2 hp、3 hp和无负载。该数据集的轴承有4 种状态,分别为正常状态(Normal Condition,NC)、滚动体故障(Ball Fault,BF)、内圈故障(Inner-Race Fault,IF)和外圈故障(Outer-Race Fault,OF),并且每种故障都有至少3 种不同的故障直径,分别为0.007 in(1 in=2.54 cm)、0.014 in和0.021 in。

智能维护系统(Intelligent Maintenance System,IMS)轴承数据集是从智能维护中心的实验平台[17]上收集的,该实验平台在轴上安装了4 个双列轴承,轴由电动机驱动,旋转速度为2 000 r/min,通过弹簧设备提供6 000 磅(1 磅=0.453 592 4 kg)的径向负载。数据以20 kHz 的采样频率采样,每个轴承有X向和Y向两个采样通道,共8 个采样通道,包含滚动轴承全生命周期的健康状态,轴承3 生命周期结束后的故障形式表现为IF,轴承4 生命周期结束后的故障形式表现为外圈滚动体复合故障(Outer-race and Ball Compound Fault,OBCF)。

2009 故障预测与健康管理(Prognostics Health Management,PHM)轴承数据集是PHM 数据挑战赛[18]提供的工业齿轮箱数据,包含3 个轴、6 个轴承、2 个正齿轮和2 个斜齿轮。轴的速度有5 种,分别是30 Hz、35 Hz、40 Hz、45 Hz 和50 Hz,分别在高负载和低负载两种负载方式下工作。数据是在66.7 kHz 的采样频率下收集的,由2 个加速度计通道和1个转速传感器通道组成。故障部位有轴、齿轮和轴承,实验只选取故障部位在轴承的故障的第一通道数据。轴承的状态为NC、BF、IF、OBCF 和外圈滚动体内圈复合故障(Outer-race and Ball and Inner-Race Compound Fault,OBICF)。

帕德博恩大学(Paderborn University,PU)轴承数据集[19]包含了人为损伤和实际损伤两种轴承故障数据,人为损坏通过放电加工、钻孔、手动电雕刻三种方式模拟损坏,实际损坏由加速寿命测试设备产生,表现为点蚀或塑性变形。轴承以64 kHz 的采样频率采样,一共设置了4 种不同的工作条件。根据设备的损坏深度分为三级:损坏深度大于4.5 mm 为3级,大于2 mm、小于等于4.5 mm 为2 级,小于等于2 mm 为1级。该数据集的轴承有五种状态,分别为NC、BF、IF、OF 和外圈内圈复合故障(Outer-race and Inner-race Compound Fault,OICF),除NC外,每种故障有不同的损伤级别。

数据输入模型前通过小波变换将原始振动信号以256 个采样点为单位生成同时具有时域和频域的特征的时频图,利用滑动窗口依次采样数据,滑动窗口的步长为128。

3.2 实验结果

为了验证GCNTL 轴承服役故障诊断模型的能力,设计了人工模拟损伤的轴承故障到轴承服役故障的迁移实验,实验任务设计如表1所示。任务1、2、3的源域数据来自PU轴承故障数据集中的人为损伤故障数据,在旋转速度1 500 r/min,负载扭矩0.7 N·m,径向力1 000 N 的条件下,故障类型有NC、IF和OF。任务1、4 的目标域数据来自PU 轴承数据集的实际损伤故障数据,在相同工作条件下,故障类型有IF、OF 和OICF;任务4、5、6的源域数据CWRU 轴承数据集选用以12 kHz的采样频率在驱动端轴承上获得的数据,故障类型有NC、BF、IF和OF。

表1 模拟故障到服役故障的迁移任务Tab.1 Transfer task from simulated faults to service faults

在人工模拟损伤的轴承故障到轴承服役故障的迁移实验中,GCNTL 轴承服役故障诊断模型在表1 中的6 个迁移任务中进行了测试,结果如表2 所示。表2 中,将模型结构不变的情况下,不使用迁移学习,直接用源域的知识去诊断目标域的结果作为模型的基准。同时,将MMD和Wasserstein距离作为该模型的不同度量来衡量数据分布之间的差异。从表2 中可以看出,不使用迁移学习的结果较差,从源域学习的知识不能直接作为目标域的知识,且数据之间差异越大,模型越难迁移到目标域上。实验验证了该模型能够从人工模拟损伤的轴承故障迁移到轴承服役故障,并且在大多数情况下,以Wasserstein 距离作为衡量数据之间的分布差异的模型诊断结果略好于MMD作为度量准则的模型。

表2 模型在轴承服役故障上的诊断准确率 单位:%Tab.2 Diagnosis accuracy of model on bearing service faultunit:%

为验证GCNTL 轴承服役故障诊断模型能在不同条件之间进行迁移,在两个数据集上设置了6 个不同的工作条件。在PU 轴承数据集上设计的不同条件之间的迁移实验任务如表3所示。在CWRU 轴承数据集上设计的不同条件之间的迁移实验任务如表4所示。

在不同工作条件之间的迁移实验中,GCNTL 轴承服役故障诊断模型在表3和表4的6个迁移任务中的诊断结果如表5所示。从表5 实验结果可知,该模型在PU 轴承数据集不同条件的3 个迁移任务和CWRU 轴承数据集不同条件的3 个迁移任务中都能在不同的工作条件之间进行迁移,验证了该模型也能从一个工作条件迁移到另一工作条件中,可以用于诊断不同类型的组件和不同工作条件下的轴承故障。

表3 PU轴承数据集上的迁移任务Tab.3 Transfer task on PU bearing dataset

表4 CWRU轴承数据集上的迁移任务Tab.4 Transfer task on CWRU bearing dataset

表5 模型在不同工作条件之间迁移的诊断准确率单位:%Tab.5 Diagnosis accuracy of model transfer between different working conditions unit:%

3.3 实验方法对比

为进一步验证GCNTL 轴承服役故障诊断模型的有效性,在完全相同的任务和数据集上,将该模型与其他6 种故障诊断模型进行了比较,这6 种模型分别是:迁移成分分析(Transfer Component Analysis,TCA)[20],基于CNN 的域自适应故障诊断(Domain Adaptation in Fault Diagnosis,DAFD)[21],基于参数的迁移学习(CNN-fine-tune)[9],域对抗神经网络(Domain-Adversarial Neural Network,DANN)[22],深度卷积迁移学习网络(Deep Convolutional Transfer Learning Network,DCTLN)[23],以及基于特征的迁移神经网络(Feature-based Transfer Neural Network,FTNN)[24],每个模型分别对表1 的6个任务进行了10次测试并取平均值,结果如表6所示。

表6 不同模型在6个任务上的诊断准确率 单位:%Tab.6 Diagnosis accuracies of different models on 6 tasks unit:%

根据表6 的结果可知,由于源域和目标域数据分布差异较大,TCA 和DAFD 依赖于某些手工提取的特征,从模拟损伤的故障迁移到服役故障的效果较差;CNN-fine-tune 模型通过调整模型参数实现迁移,数据分布之间的差异越大,效果越差;DANN 引入了对抗训练使得源特征分布和目标特征分布趋于一致;DCTLN 使用了较多的CNN 层,参数量较大;FTNN采用了伪标签学习将预测的标签分布到目标域中的未标记样本上,用来辅助分类器训练。DANN、DCTLN、FTNN 和本文提出的GCNTL轴承服役故障诊断模型在6个任务上的诊断效果相当,在任务5 上DCTLN 取得了最好的迁移效果,而在其余5个任务上GCNTL模型略好于其他迁移学习模型,GCNTL模型在6 个任务上的平均诊断准确率也略高于其他迁移学习模型。

综上所述,GCNTL 轴承服役故障诊断模型具有诊断轴承服役故障的能力,能够从人工模拟损伤的故障上学习特征表示并迁移到服役故障上,同时能在不同工作条件的轴承故障之间迁移。

4 结语

针对轴承服役故障诊断难的问题,本文提出了GCNTL 轴承服役故障诊断模型,从数据充足的人工模拟损伤故障数据中学习故障知识,并迁移到真实的服役故障上,提高服役故障的诊断准确率。首先通过将源域和目标域的原始振动信号由小波变换转换为同时具有时间和频率信息的时频图,输入到GCN 中进行学习;然后计算源域数据和目标域数据分布之间的Wasserstein距离,通过最小化数据分布差异,构建了一个能诊断轴承服役故障的故障诊断模型。实验结果表明,本文的GCNTL 轴承服役故障诊断模型具有诊断轴承服役故障的能力,同时,该模型也能从一个工作条件迁移到另一工作条件。

猜你喜欢
分类器服役特征提取
同步定位与建图特征提取和匹配算法研究
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
水下智能清洗机器人“服役”
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于AdaBoost算法的在线连续极限学习机集成算法
基于曲率局部二值模式的深度图像手势特征提取