基于改进KNN回归算法的风电机组齿轮箱状态监测

2021-04-22 00:41刘长良张书瑶王梓齐
中国测试 2021年1期
关键词:离群齿轮箱运算

刘长良,张书瑶,王梓齐

(1.华北电力大学 新能源电力系统国家重点实验室,北京 102206;2.华北电力大学控制与计算机工程学院,河北 保定 071000)

0 引 言

齿轮箱是风电机组的重要机械部件且常年处于运转状态,极易发生故障造成机组停机,给生产带来经济损失。据文献统计[1-2],由齿轮箱引起的故障停机时间显著高于其他部件,因此有必要对齿轮箱进行状态监测。目前齿轮箱状态监测方法研究可分为离线监测和在线监测两种。离线监测主要有油液成分监测[3]和振动监测[4]。在线监测是利用监控与数据采集(supervisory control and data acquisition,SCADA)系统[5]在线采集风电机组运行数据并对齿轮箱进行在线状态监测,因不需额外加装传感器且实时高效,已成为齿轮箱状态监测的研究重点。

基于正常行为建模的状态监测方法是一种目前受到广泛关注的建模方式,其基本思想是根据正常运行状态下的历史数据,对实时值进行估计,步骤主要分为数据处理、状态变量建模和残差分析3部分。根据是否显式包含可估参数,通常可以分为参数建模和非参数建模方法两种。参数建模方法主要有BP神经网络[6-7]、分段支持向量机[8]、深度学习网络[9]等;非参数建模方法主要有K近邻(K-nearest neighbor,KNN)回归算法[10-11]、非线性状态估计(nonlinear state estimate technology,NSET)方法[12]、核密度估计[13]等。参数建模方法具有易于理解且训练速度快的优点,但依托训练样本且模型后期维护困难,不适于风电机组复杂的运行状况。KNN回归算法是一种常用的非参数回归方法,具有思路简单、应用灵活、对异常值不敏感的优点,且不需要像神经网络等前期进行参数或结构的学习和寻优。但KNN回归算法仍需要一定的训练数据,在训练集过于庞大时,会严重影响运算效率。

训练集中常存在离群点和相似点。离群点虽然不会对预测精度产生较大影响,但KNN回归算法距离度量过程需要遍历训练集中每一个训练样本,所以离群点的存在会使运算时间延长。文献[11]提出了一种剪辑算法,剔除了训练集中与样本整体偏离较大的离群点,实现了工业应用中运算效率的提高。相似点中包含大量的相似信息,不仅会占用计算资源,且会使选出用于计算预测值的近邻样本不能达到全面覆盖真实运行状况的期望,适度的剔除可以提升运算效率。文献[14]根据样本相似度剔除了训练集中相似点来缩小训练集,在运算精度和运算效率方面均有提升。

本文针对风电机组状态监测问题,提出了改进距离度量公式的KNN回归算法,并同时剪辑离群点和相似点对训练集进行优化以提升运算效率。以某2 MW风电机组SCADA系统采集数据为例,对风电机组发生故障停机和维修投运后的2组全工况历史数据分别进行实验。对对照组进行实验确定剪辑离群点和相似点的阈值,以实验组基准集的残差为依据,利用SPC技术结合滑动窗口法得到异常率曲线,实现风电机组齿轮箱的状态监测。

1 KNN回归算法及训练集优化

1.1 经典KNN回归算法

KNN回归算法是一种基于实例的学习方法,其核心思想是建立向量空间模型,基于某种距离度量方式,找到训练集中与测试点最接近的 k个近邻点,利用这 k个近邻点对测试集进行预测,在回归问题中常采用平均法,即这 k个近邻点输出的平均值作为预测结果,其步骤如下:

2)遍历训练集中各点 Xi,求其与测试集中某点的欧氏距离 L:

3)对求得的距离大小进行排序,选择训练集中与 X 最近的 k 个近邻点 Xj(1≤j≤k),这 k个近邻点输出的平均值作为 X的输出预测值,即:

经典KNN回归算法中认为测试集实际输出未知,所以在距离计算时不考虑输出值,但在风电机组齿轮箱状态监测问题中,测试集实际输出 y可以由SCADA系统测得,所以本文针对状态监测问题特点提出对经典KNN回归算法距离度量公式的改进。

1.2 面向状态监测问题的KNN回归算法

经典KNN回归算法的本质是根据输入值 X 定量预测得到预测输出值,即,此时输出值y未知;状态监测问题关注当前研究对象是否偏离正常状态,所以选定一个状态特征作为对研究对象运行状态的反映,如本文所选齿轮箱轴承温度,并建立齿轮箱正常运行情况下的模型,在实际生产中,各个状态特征与当前运行状态都存在关联,其实时值可以在线采集,所以状态监测问题的实质是:已知当前实时运行状态和正常行为模型,求得模型输出,并与正常运行状态求偏差,若偏差超过设定阈值,则认为此时研究对象已处在异常状态。其中 X 为其他状态特征(如风速、环境温度等),y为齿轮箱轴承实时温度,为计算得到的齿轮箱轴承温度。本文针对这一特点,改进经典KNN回归算法距离度量公式,使测试集实际输出与输入向量地位等价参与距离计算,改进后距离度量公式如下:

由表1可知,改进KNN回归算法预测精度较未改进提升59.6%,在运算效率基本不变的情况下,预测精度有大幅度提升。

表1 改进KNN回归算法测试

1.3 KNN回归算法训练集优化

KNN回归算法是数据驱动的一种惰性算法,所以运算效率和预测精度很大程度取决于训练集的选取,但由于实际工况复杂,训练集中常存在离群点和相似点对预测过程造成影响,所以在本文提出同时剪辑训练集中离群点和相似点的思路,应用提出的两种剪辑算法分别对离群点和相似点予以剔除以优化训练集。

由于实际运行现场不可避免地存在噪声等因素,且SCADA系统采集数据具有随机性,数据中常存在远离训练集中大部分点的点,即离群点。离群点不能反映风电机组齿轮箱正常工作状态,有可能是存在故障的点。从预测角度来说,当选取 k值较小时,离群点不会影响预测精度,当选择 k值较大时,会造成预测精度降低;从运算效率角度来看,KNN回归算法距离度量会遍历训练集全体,所以离群点存在会使运算效率降低,增加存储成本,因此提出一种改进文献[11]的剪辑离群点流程的训练集优化方法,具体步骤如下:

2)对训练集中每一个点遍历步骤1),得到对应的预测值。

3)求得预测值与实际输出值的相对误差绝对值Qi

式中:yi——实际输出值;

相似点是指训练集中距离较小的点,其过多会使训练集中储存大量重复冗余的信息。从预测精度角度考虑,当选择的 k个近邻点中存在大量相似点而无法覆盖风电机组齿轮箱真实运行状况时会使预测精度下降;从运算效率考虑,相似点会占用计算空间,使运算效率下降,所以在此提出一种改进文献[14]中相似度函数的剪辑相似点算法,具体步骤如下:

其中,Lij表示Xi与Xj之间的距离度量。

2 基于SCADA数据的风电机组齿轮箱状态监测

正常行为建模(normal behavior modeling,NBM)应用于状态监测的基本思想是:根据正常状态下的历史数据建立有关预测量的模型并得到预测输出值,通过模型预测输出与实际输出值的残差判断齿轮箱是否偏离正常运行状态。本文采用结合训练集优化的改进KNN回归算法对风电机组齿轮箱进行状态监测,其具体流程如图1所示。

图1 改进KNN回归算法流程图

1)离线过程:采集正常运行状况的SCADA系统历史数据并进行预处理,包括剔除缺失和异常数据、选取状态向量,结合1.3训练集优化方法对原始训练集进行离群点和相似点剪辑得到新训练集。

2)在线过程:采集SCADA系统实时数据,利用改进KNN回归算法得到预测输出值。

3 风电机组齿轮箱数据预处理及训练集优化算法

3.1 研究对象

本文的研究对象为福建省某风场的一台2 MW双馈式风电机组,型号为Vestas公司的V90-2.0 MW。机组的切入风速为4 m/s,切出风速为25 m/s,齿轮箱结构为二级螺旋齿轮和一级行星齿轮,SCADA系统的采样周期为10 min。该机组于2016年7月13日10:20发生齿轮箱故障导致停运,经维修后于7月18日9:30恢复正常重新投运。

从 SCADA数据库中导出2016年1月 1日0:00-7月13日10:20齿轮箱故障前的运行数据和7月18日9:30-12月31日23:50齿轮箱维修后的运行数据,分别称为实验组(故障前)和对照组(维修后)。数据中可用的运行参数有8个,分别为风速、发电机转速、叶轮转速、风向角、环境温度、无功功率、有功功率、齿轮箱轴承温度。

3.2 数据预处理

齿轮箱轴承是齿轮箱主轴的载体,在选取的参数中,齿轮箱轴承温度能够直观迅速地反映齿轮箱整体运行状况,故选作预测向量。剔除数据缺失、有功功率不大于零、风速小于切入风速或大于切出风速的数据点,并基于拉依达准则去除异常数据后,实验组和对照组分别用14 000组数据进行实验。

经过计算各项和齿轮箱轴承温度的皮尔逊相关系数得到,风速、发电机转速、叶轮转速、有功功率4项与齿轮箱轴承温度存在着正相关关系,可以作为状态向量;环境温度虽然与齿轮箱轴承温度相关性不大,但是由于环境温度的变化对齿轮箱工作环境影响较大,所以把环境温度也作为一个状态向量考虑;由于叶轮转速和发电机转速存在显著的相关性,所以本文选用风速、发电机转速、环境温度、有功功率作为状态向量并对其进行归一化以避免量纲影响。运行参数变化范围及皮尔逊相关系数见表2。

表2 运行参数变化范围及皮尔逊相关系数

实验组和对照组分别以各自数据的第1~7 000号样本作为训练集,第7 001~14 000号数据为测试集,其中第7 001~7 500号作为预测精度基准。本实验基于 Matlab 2019(运行于 Intel i7-10710U CPU,16.0 GB RAM的PC机)进行。对对照组测试集分别应用经典和改进KNN回归算法,其中经典KNN回归算法RMSE为0.040 7,改进后RMSE为0.016 2,较未改进提升60.20%,仿真结果表明改进距离度量公式使预测精度显著提升。

3.3 离群点剪辑

本文对对照组训练集进行离群点剪辑,以对照组基准集的RMSE和测试集运算效率作为根据,确定剪辑阈值θ1并对测试集进行预测,图2和表3为新训练集 DT的样本个数、基准集RMSE及运算时间。

图2 剪辑离群点训练集样本个数、均方根误差

表3 剪辑离群点训练集剩余样本个数、均方根误差及运算时间1)

由图表可以得到以下结论:

1)从运算效率来看,随着阈值θ1的减小,训练集样本个数减少,运算效率随之上升;当θ1≥0.2,训练集样本个数下降缓慢,在 0.1≤θ1≤0.2时,训练集样本个数减少速度上升,之后仍在快速下降,说明离群点大部分处于θ1≥0.2的部分,当θ1≤0.1时,训练集中剩余样本点分布密集,可以认为是有效数据。

2)从预测精度来看,当θ1≤0.05时,RMSE迅速上升,说明此时训练集损失一部分有效训练样本,使预测精度下降。

综合以上分析,选择θ1=0.1,此时预测精度下降3.0%,运算效率提升14.07%,训练集 DT剩余样本数为6 091。

3.4 相似点剪辑

表4 剪辑相似点训练集剩余样本个数、均方根误差及运算时间

图3 剪辑相似点训练集样本个数、均方根误差

分析图表可得以下结论:

1)从RMSE来看,其整体趋势呈现一直上升的状态,即预测精度下降,当θ2=0.035时,相比于原始训练集RMSE降低了88.89%,此时预测精度不符合工程要求和设计预期。

2)从剪辑后训练集样本个数来看,当θ2≤0.01时,训练集样本个数下降速度平缓,当θ2≥0.01时,训练集样本个数下降速度加快,可以认为此时已经基本剔除极端相似的点,当阈值继续增大时,可能会过度剪辑造成预测精度下降。

4 风电机组齿轮箱故障监测实例及结果分析

4.1 SPC技术

统计过程控制(statistical process control,SPC)技术[15-16],主要是利用过程波动的统计规律性对过程进行分析控制。由于齿轮箱故障多表现为某部件温度升高,所以在此只考虑报警上限。本文设定报警阈值的步骤如下:

若 X的取值长期超出式(8)的区间,可以认为过程受到了异常因素的影响出现故障。因此,根据正态分布的均值 μ和方差 σ2可以设计预测残差的预警阈值。

式中:ei——预测残差;

n——测试集的样本个数。

若齿轮箱轴承温度长期高于阈值T,则认为此时齿轮箱已出现显著故障。

4.2 风电机组齿轮箱状态监测实例

图4 预测残差与阈值

式中:N——当前滑动窗口中超出阈值的点个数;

M——滑动窗口长度。

本文取滑动窗口长度为1 000,则齿轮箱异常率如图5所示。

图5 齿轮箱异常率

改进KNN回归算法监测齿轮箱状态得到的异常率曲线在第1~300个滑动窗口处较低且平稳,认为此时齿轮箱仍处于正常运行状态,第300~1 000个滑动窗口处异常率出现逐渐上升现象,认为此时齿轮箱已处于前期故障中,第1 000号窗口后,齿轮箱异常率相较前1 000号窗口异常率迅速上升至较大值,此时异常率远高于第1~300个滑动窗口,且多次出现起伏现象,认为此时齿轮箱已处于严重故障状态。

经典KNN回归算法报警阈值为0.080 8,高于改进后算法报警阈值,在故障预警中会表现出对齿轮箱轴承温度变化不敏感,虽然异常率曲线与改进后趋势相同,但故障预警能力较改进后弱,可能会延误报警。

5 结束语

本文针对风电机组齿轮箱状态监测提出了KNN回归算法建立正常行为模型,并对经典KNN回归算法距离度量提出了改进。应用剪辑算法优化训练集,实现了风电机组齿轮箱的状态监测,得到以下结论:

1)结合状态监测问题特点,对经典KNN回归算法进行距离度量公式的改进,大幅度提高了KNN回归算法的预测精度。

2)对训练集剪辑离群点和相似点进行优化,可以在工程允许的精度损失范围内,压缩训练集样本个数,提升运算效率。

3)结合训练集优化的改进KNN回归算法能够实现风电机组齿轮箱故障的提前预警,且滑动窗口法监测齿轮箱异常率比残差报警方式更直观、清晰,且误报警率低,更适用于工业生产中。

猜你喜欢
离群齿轮箱运算
风电齿轮箱轴承用钢100CrMnSi6-4的开发
重视运算与推理,解决数列求和题
有趣的运算
一种相似度剪枝的离群点检测算法
提高齿轮箱式换档机构可靠性的改进设计
“整式的乘法与因式分解”知识归纳
离群数据挖掘在发现房产销售潜在客户中的应用
杭州前进齿轮箱集团股份有限公司
应用相似度测量的图离群点检测方法
基于遗传退火优化MSVM的齿轮箱故障诊断