程 翔,蔡 俊
(安徽理工大学 电气与信息工程学院,安徽 淮南 232001)
在现代工业生产环境中,旋转机械是常用的机械设备之一.滚动轴承作为旋转机械的重要部件,一旦发生故障,会极大影响生产,造成严重的经济损失,甚至会导致重大的安全事故.因此,及时准确地识别轴承的故障状态,降低重大事故发生率有重要的意义[1].
滚动轴承在其工作生产过程中常会受到冲击、磨损及腐蚀等因素的干扰,且滚动轴承振动信号本身具有非平稳与非线性特点,因此,如何获取到滚动轴承的故障信息是解决滚动轴承故障检测的难点之一.近年来,随着信号处理技术和机器学习的发展,小波包算法[2]和集成学习[3]也被应用于工业故障诊断领域中.吕作鹏等[4]采用小波包变换(Wavelet Packet Transforin,WPT)和EMD-HHT结合的方法对轴承故障频率进行诊断.姚峰林等[5]将小波包变换与极限学习机结合,通过对轴承数据消噪处理,为滚动轴承的诊断拓展了新思路.王兰兰等[6]基于信号的时域统计指标构建特征空间,并结合随机森林算法对不同转速下的轴承进行故障分类识别,其分类精度较好.以上研究方法未充分考虑实际情况中的数据量和数据不均衡问题,也未考虑到模型训练的时间问题.因此,在实际诊断过程中,必须精简数据量并保留有效的数据特征.
基于上述分析,提出一种基于LightGBM算法(LGBM)[7]的滚动轴承故障模式辨识方法.LGBM算法是机器学习中集成模型的优秀代表算法之一,具有更快的训练效率和更高的准确率等优点,可应对数据不均衡问题.首先,提取出滚动轴承振动信号的时频统计指标;然后,采用小波包算法处理振动信号并提取特征指标;其次,融合时频统计指标和小波包特征指标构建数据样本的特征空间,并利用LGBM算法对滚动轴承故障进行诊断;最后,采用美国凯斯西储大学(CWRU)故障模拟实验台的轴承数据进行实验,采用F1分数对模型的识别结果进行分析评估,验证了该模型在轴承故障诊断上具有良好效果.
(1)时域特征
时域统计特征反映了时间与信号幅值之间的关系,主要分为有量纲和无量纲两大类,其中有量纲的时域特征与设备的转速、载荷等工作状态有着直接关系,而无量纲的时域特征则对以上工作条件不太敏感,仅仅与设备状态相关联.有量纲统计特征主要有均值、峰峰值和标准差等,无量纲时域统计特征包括峭度、偏斜度,波形因子、裕度因子和峰值因子,脉冲因子等.时域统计指标在一定程度上能够反映轴承的健康状态并包含一定的物理意义.
(2)频域特征
轴承故障会导致轴承振动频率的变化,通过对轴承振动信号做快速傅里叶变换(FFT)获得的频谱图中可以看出各频率成分的幅值占比情况,观察频域特征的变化可以粗略判断出轴承的故障种类.一些故障种类在时域统计指标中可能没有充分体现,但是在频域分析中故障种类的差异性特别明显.
小波变换是一种信号的时间和频率(尺度)局部变换的时频分析方法,在时域和频域都具有表征信号局部特征的能力,因而适用于非平稳信号的分析.小波包变换继承了小波变换的时频分析特性,且对小波变换中未能充分分解的高频频带信号进一步分解,填补了小波分析中对高频信号分解较为粗糙的缺陷.小波包能将信号全频带进行多层次划分,可对小波变换中没有细分的高频部分进一步分解,小波包量提取过程为①先使用小波包分解原始轴承信号;②再计算不同频带的小波包分量.假设信号频带为0~fs,原始信号经过i层小波包分解后,频域将被分成2i段,各小波包分量对应的频段分别为:
(1)
(2)
当分解层数为i,百分比能量谱构建为该信号的小波包能量谱特征空间.
轻量级梯度提升机(LGBM)是微软基于梯度提升决策树[8](Gradient Boosting Decision Tree,GBDT)改进提出的分布式决策模型.
(3)
式中,T为决策树数量,gt(x;Θt)表示第t个决策树;Θt表示第t个决策树的参数,参数值通常由经验风险极小化公式:
为有效降低模型损失且考虑到不同任务常采用不同的损失函数,通常选定损失函数负梯度在当前函数f(x)=ft-1(x)处的值近似代替残差,公式为:
(5)
进而在第m棵决策树的节点区域计算使损失函数最小化的输出值,公式为:
(6)
模型进一步更新为:
(7)
最终将初始化决策树与每轮迭代的决策树进行累加,可以得到最终学习器为:
(8)
LGBM 算法模型相比XGBoost而言,采用基于梯度的单边采样(Gradient-based One-side Sampling,GOSS)和互斥特征捆绑(Exctusive Featur Bundling,EFB)两种技术来分别进行样本采样和降低特征维度.
GOSS算法的主要思想是梯度大的样本点会贡献更多的信息增益,因此为保持信息增益的评估准确度,对样本进行下采样时对梯度小的样本点按照比例进行随机抽样,同时保留所有梯度大的样本点.
EFB使用贪婪算法将几个互斥的特征捆绑成一个特征,它以一种近乎无损的方式结合了互斥的特征,从而有效地降低了特征空间的稀疏性,避免了对零特征值进行不必要的运算,加快了计算速度的同时保留了信息量最大特征.
故障诊断框架的试验流程包括:①通过滚动轴承故障模拟试验收集轴承的振动信号;②对采集得到的信号首先运用小波包算法提取百分比能量谱和构建时频统计特征及特征提取处理,初步构建样本特征空间;③随后将提取的样本特征向量输入到算法中进行训练和测试,最终获取最优算法模型并对故障类别进行诊断,整体框架流程如图1所示.
图1 故障诊断流程
诊断具体步骤如下:
(1)滚动轴承数据获取.试验中滚动轴承数据来源于美国凯斯西储大学的轴承数据库,采用斯凯孚公司6205-2RS JEM SKF深沟球轴承[9]作为研究对象.试验台由一个1.5 kW马力电机、一个扭矩传感器/译码器、一个功率测试计和控制电子设备组成,使用电火花加工将单点故障引入测试轴承.试验中使用加速度传感器采集振动信号,振动信号由16通道的DTA记录器采集.采用的数据为驱动端轴承(SKF6205),采样频率为12 kHz.
(2)样本特征空间构建.对获取到的不同故障类型的一维振动信号采用小波包算法获取其能量特征谱,分别构建其时域统计特征和其频域统计特征.综合各个特征维度构建原始数据的样本特征集,并对样本特征空间进行归一化处理.
(3)基于机器学习的故障诊断.对归一化的样本数据划分训练集与测试集.在训练集上通过对样本各特征和故障类型进行斯皮尔曼(Spearman)相关性分析,对样本特征进行筛选.斯皮尔曼(Spearman)相关系数计算公式为:
(9)
式中:X=(x1,x2,x3,…,xn),Y=(y1,y2,y3,…,yn);n为样本数量;xi和yi分别为第i个样本对应特征;ρ(X,Y)是X和Y的斯皮尔曼相关系数.
筛选后的训练样本集送入集成学习类算法(DT,XGBT[10],LGBM)进行预训练,绘制学习曲线比较各算法性能,得到最优算法并对训练集样本数量进行分析筛选.
(4) 最后采用最优算法按“N折平均分类器”对测试集进行评估.该法是建立在N折分层抽样交叉验证法基础上,并采用网格搜索算法对参数进行调节.首先采用N折交叉验证来训练N个模型,并保存这些模型;然后将测试集输入到N个模型中,生成N个预测概率矩阵并求其平均值,对于每个测试样本,将其隶属于概率最大的标签作为预测结果标签.这种方法可以减小单个分类模型的过拟合风险,提高分类模型的泛化能力.同时,取概率均值的方法也可以减少随机性,提高预测结果的准确性和稳定性.
实验数据均在负载状况下,且涵盖了12种单点故障类型.选取部分时域信号和频谱信号如图2所示,采样点数为1 200,采样频率为12 kHz.故障信号为内圈故障,其直径为0.1778 mm,滚动体故障信号直径为0.3556 mm,外圈故障信号直径为0.5334 mm.
图2 时域和频域波形图
(1)分析图2可以发现不同故障类型的振动信号在时域图中的峰值和稀疏程度表现出显著差异,且在频域图上呈现出不同的频率分布和能量集中程度.因此,采用时域和频域统计量可以很好地反映不同故障类型信号的独特特征.
(2)对时域和频域图谱分析,构建时域特征统计量均值、峰值、标准差和波形因子等共19种特征.其中小波包分解层数为3层,能量谱特征为p0~p7.划分训练集样本数为1 706,测试集样本数为427.具体的样本分布情况如表2所列.
表2 故障类型及其样本分配数
表2中呈现的数据分布情况是基于实际工业状况而定.在滚动轴承实际作业中,正常轴承历史数据的数量远远多于故障轴承历史数据.因此,设置训练集和测试集中正常样本数量远多于故障样本数量.
(3)计算训练集各个特征以及标签之间的斯皮尔曼相关系数如图3所示.
图3 Spearman相关系数
从图4可得峭度特征和标签之间相关系数小于0.30,属于弱相关.裕度因子、脉冲因子和峰值因子特征相关度均大于0.99,形成了特征冗余,其中峰值因子与标签相关性最高.因此综合考虑保留峰值因子,剔除峭度、裕度因子和脉冲因子3个指标,重构训练集和测试集样本特征空间.
图4 各算法学习曲线对比
(4)对重构的训练集按比例进行随机抽取,并分别采用决策树(DT)、极端梯度提升树(XGBT)和轻量级梯度提升树(LGBM)进行训练和验证,其中训练集和验证集的比例为8∶2,结果如图4所示.
分析图4数据可知,在验证集上,LGBM算法的准确率均高于决策树和XGBT算法.当抽取的样本比例超过0.7时,LGBM算法的准确率开始收敛.因此选择LGBT算法,并抽取训练集样本总数的70%,即1 194个样本进行后续训练.
(5)将1 194组训练样本数据输入LGBM模型,为保证故障诊断模型在测试集的准确性,以及解决样本数据不均衡问题,对训练数据进行分层随机划分交叉验证,并采用F1分数评估.本文分别选取3~10折分层随机划分交叉验证,数据分为A组和B组,其中A组是未经过斯皮尔曼相关系数法优化特征的训练集,B组是则经过斯皮尔曼相关系数法优化特征的训练集.将训练集的1/5作为验证集,分割比例为8∶2,参数调优采用网格搜索法,优化后的部分参数如表3所列.训练集、验证集和测试集F1分数评估结果如图5和图6所示.
表3 LGBM优化参数
图5 A组数据模型得分
图6 B组数据模型得分
从图5和图6分析可得,经过斯皮尔曼相关系数法优化特征后验证集分数均有提升,模型在测试集上的表现仅有折数等于7时分数略有下降,折数等于10时分数上升,其它折数测试集分数保持不变.因此经过斯皮尔曼法剔除弱特征和冗余特征后,模型泛化能力略有增强.采用“N折平均分类器”在测试集上均有不错的效果,其中采用N=10时测试集F1分数最高为99.65%,其混淆矩阵如图7所示.
图7 N=10测试集混淆矩阵
从图7可看出仅有一例诊断错误,其他均分类正确,可知“N折平均分类器”模型分类效果较好.
不同折数下,A组数据和B组数据的“N折平均分类器”模型训练时间如表4所列.
表4 A/B组训练时间对比
从表4中时间数据对比可知,经过斯皮尔曼相关系数法优化后的训练集特征空间,“N折平均分类器”模型训练时间在不同折数下相比未优化的训练集均有减少.
本文提出一种基于LGBM算法并结合信号时频处理算法的滚动轴承故障诊断手段.采用时域和频域相关统计量以及小波包能量谱构建了信号特征.在算法预处理阶段,通过构建样本学习曲线来比较不同算法的性能,并确定最佳训练集样本大小.在数据特征预处理阶段,采用斯皮尔曼相关系数筛选出弱特征和冗余特征,从而提高了模型的效率和泛化能力.在算法训练阶段,采用分层随机划分交叉验证法建立了“N折平均分类器模型”,并获得测试集的F1分数.研究结果表明采用斯皮尔曼相关系数剔除弱特征和冗余特征有助于模型加速训练和提高模型泛化能力;通过观察学习曲线的收敛变化确定最佳样本数,更加精确地利用有限数据快速完成模型训练,减少了训练成本,通过不同算法的学习曲线对比,选出效率最好的算法;采用“N折平均分类器”可以提高模型的泛化能力.