基于GP模型和无监督SVM算法的冷水机组的故障检测与诊断*

2021-09-09 04:49张婕妤
山东冶金 2021年4期
关键词:冷水机组向量误差

张婕妤

(山东天瑞重工有限公司,山东 潍坊261061)

1 前言

随着社会快速发展,目前我国建筑能耗约占社会总能耗的30%[1]。暖通空调(Heater,Ventilation and Air Conditioning,HVAC)系统是建筑中最主要的耗能设备,其运行能耗占到建筑总能耗的50%~60%,且运行过程中可能会出现多种故障。数据显示,HVAC系统发生故障导致能耗增加约15%~30%。在我国能源消耗日益增加的今天,提高HVAC系统应用的科学性、合理性以及实施节能环保处理是十分必要的。因此,亟需建立自动故障检测与诊断(Fault Detection and Diagnosis,FDD)系统,对于保持室内舒适性、节约能耗以及延长系统使用寿命具有重要意义[2]。

Katipamula等人[3]描述了基本的FDD方法,并将其定义为定量、定性或基于过程历史的方法。单彪等人[4]研究了基于函数型数据分析HVAC系统的FDD方法,解决了应用于含有噪声干扰数据时,传统主成分分析方法产生较高误报率和漏报率的问题。王海涛等人[5]基于控制原理、质量守恒、能量守恒建立故障分类器,采用残差累积和控制图检测空气处理机组的故障,提高了系统的有效性和可靠性。HVAC系统运行过程中冷水机组较易出现故障,如冷凝器结垢和制冷剂泄漏等问题。在冷水机组的FDD方面,Li等人[6]采用基于密度聚类与主成分分析相结合的方法,提高了FDD的灵敏度和可靠性以及传感器故障估计的准确性。Karami等人[7]基于测量的数据,将无迹卡尔曼滤波器与高斯混合模型回归相结合,通过监测关键节点的变化来检测和诊断发生的故障。一些专家学者基于组件相互依赖性、守恒定律和历史数据相关知识,采用贝叶斯非线性状态估计并融入距离拒绝等技术,检测冷水机组中的能量和液压故障[8]。辛娇娇[9]基于独立成分分析和最小二乘支持向量机(SVM)相结合的方法,建立了冷水机组的FDD模型。文献[10]中介绍了将基本神经网络和辅助神经网络相结合的机器学习方法,以及文献[11]中研究了一类支持向量机(OC-SVM),分别利用监督结构和非监督结构的方式对故障进行检测。

本研究实现了一种无监督的机器学习方法,利用过程历史方法,包括高斯过程(GP)回归和SVM算法进行故障检测。线性GP回归算法为模型权重建立高斯先验,以及为回归器或期望输出建立高斯条件似然。然后,利用贝叶斯规则计算权重向量的后验分布,并输出似然最大化。由此得到了一种以均值和协方差函数为特征的似然分布模型。非线性GP回归算法是通过将数据映射到再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)来构建的,为模型提供了更多的灵活性。利用GP估计一组输出变量,这些变量作为外部变量的函数构成被测组件的预测行为。GP预测概率模型能够计算出预测误差和方差,然后将误差与其标准偏差之间的比值输入到SVM检测算法,该无监督算法通过建立模型确定异常数据值,即具有低相似性、不能用概率模型描述的数据点表示为故障状态。

2 研究方法

2.1 工况研究

针对冷水机组的FDD研究过程中数据集采用的是ASHRAE RP-1043,该数据集是对制冷量(制冷剂选取R134a)为90冷吨的离心式冷水机组实施正常和故障状态的仿真实验得到的。此研究项目是美国暖通空调协会于20世纪90年代发起的,解决了当时冷水机组故障数据缺乏的难题。综合考虑故障出现频率、严重程度以及维修成本等因素,选取了5个典型故障并划分为4个严重级别(SL表示严重级别),如表1所示。

表1 故障类型及严重级别 %

2.2 算法研究

2.2.1 SVM算法和Mercer核函数

采用SVM算法对冷水机组数据集的故障进行检测。SVM算法最初于1995年由Vapnik等人引入,该算法方法很快得到普及并应用到不同的工程问题中。SVM是采用结构风险最小化(SRM)进行优化的学习机器。该准则由两个相反目标的联合最小化组成。第一个是根据现有数据衡量的经验风险。当机器的复杂性很高时,这些数据的观测误差可能趋向于一个任意的低值。此时,由于机器的复杂性在看不到的数据上测量误差将会增加。第二个是由测试误差的单调函数项的最小化组成,其被称为结构风险并取决于机器的复杂性。在线性系统中复杂性随系统参数的范数增加。假如给定一组训练数据xi、yi,其中,1≤i≤N,以及线性估计的形式:

式中w是线性学习机器的参数集,是给定输入量xi的估计输出。SVM准则优化了经验和结构风险之间的权衡,包括函数形式的最小化:

式中yi是期望输出,L(,yi)表示为线性估计的期望和响应之间的距离测度的凸函数。距离度量具有一定的约束条件,并采用拉格朗日优化方法插入到函数中,函数中的子索引p表示原函数,后文进行推导。

SRM原理最初只能进行线性估计,可以利用在高维Hilbert空间中表达算法克服该缺点。采用Mercer核心的函数实现输入数据的非线性转换,将线性SVM的原理扩展到非线性情况。位于输入空间的向量x可以通过非线性变换φ(·)映射到Hilbert空间H中的更高维。Mercer定理表明存在一个函数φ:Rn→H和一个点积:

当且仅当K是Hilbert空间上的正积分算子,对于任意函数g(x):

上式成立,具有点积的Hilbert空间通常被称为RKHS。第一个被证明符合Mercer定理的核是齐次多项式核(公式6)以及非齐次多项式核函数(公式7):

在实际中广泛应用的核类型是平方指数核,其表达式:

在这种情况下,对应的非线性映射是不明确的,其Hilbert空间的维数是无限的。

SRM准则给出了支持向量分类器(SVC)和支持向量回归器(SVR)等有监督学习机。此外,利用无监督学习机器分析数据集,包括OC-SVM和SVDD。因为故障可以被视为异常值,所以无监督方法非常适合于故障检测。OC-SVM利用优化的超平面将数据与原点分开,只允许小部分数据点v位于超平面和原点之间。在这种情况下这些点是异常值。假设数据xi映射到具有一个内核点积K和转换函数φ(xi)的RKHS,构造该形式的线性函数:

式中,w是RKHS中的向量,p为偏差。这两个变量的优化包括以下原始函数的最小化:

其中,0<v<1。函数最小化了结构风险和经验风险(由松弛变量ζj的和表示),松弛变量ζj决定了样本在这个边缘的容错度。1/vN项是结构风险和经验风险之间的权衡,可以证明1/vN控制原点和分离超平面之间的数据数量。

采用拉格朗日优化法求解泛函得到最优的参数值。首先通过向原始函数添加约束条件,每个约束条件乘以拉格朗日乘数αj,然后表达式对所有原始变量求导然后置零:

即原始参数向量w是训练数据的线性组合,其中组合的对偶参数为拉格朗日乘数αj。联合公式12和公式9可将其表示为对偶变量的函数,由此得到判别器的对偶表达式如下:

拉格朗日优化,基于公式12给出了该函数的对偶表示:

式中:

式中,α是包含所有拉格朗日乘子αj的列向量,K是包含所有点积K(xi,xj)的矩阵。f(xi)≤ρ的样本都与非零拉格朗日乘数相关。

另一种用于异常检测的方法是SVDD,该算法的思想利用了约束函数使结构风险和经验风险同时最小化。应用的判据包括找到最小的超球,它能包含几乎所有的数据。在这种情况下,结构风险用球体的半径来表示,而经验风险是球体外的样本的函数。判别函数为:

式中,a是超球中心、ρ是半径。要求同时最小化半径和松弛变量之和(ζj)。松弛变量的总和表示超球外的样本。然后是要最小化的函数:

式中,C代表两种最小化之间的权衡,拉格朗日优化结果:

其中拉格朗日乘子最小化:

上式中的列向量K包含所有的范数K(xi,xj)。最小化结束后位于球体之外的样本被认为是异常值。可以表明,当使用产生单位范数向量的核时,如平方指数核(公式8),OC-SVM和SVDD是等价的。

(3)内创业在本质上是基于行动或者是行动导向的一个概念,它在现存组织边界中运作,并把当前组织的产品、创新、服务、技术、交流、结构和操作往新的方向延伸;

2.2.2 GP算法

采用GP算法估计冷水机组传感器的值,其通过非线性变换表示在Hilbert空间中的估计量φ(·):

假设误差ε来自高斯分布N(0,σ2),建立参数权值w~N(0,∑w)的先验。假设是独立同分布的过程,且独立于观测值xn和参数w,回归的协方差E(ynym|X):

由于∑w是一个正定矩阵,所以φT(xn)∑wφ(xm)是Hilbert空间中的一个点积,则回归序列的协方差矩阵可表示为:

式中K是观测值之间的核点积矩阵。如果数据不包含任何噪声,则观测值的核矩阵等价于回归量的协方差矩阵。例如,xn,yn作为训练样本,并添加一个新的样本x*,样本的预测是f*=wT(x*)。该过程的联合概率分布是一个零平均高斯分布,其协方差矩阵包含新估计的协方差y*。训练回归器y以及两者之间的交叉协方差:

式中,K**=K(x*,x*)、K*,y=KyT,*是所有点积K(x*,xn)的行向量。GP的目标是计算给定训练数据的新样本x*的预测性后验。使用贝叶斯规则,这个后验函数具有另一个高斯函数的形式,其均值和方差为:

在没有噪声的情况下,均值与最小均方误差预测相匹配,而对于任意值的噪声,协方差值σ2与核岭回归预测相匹配。GP的优点是提供了预测的后验分布而不仅仅是预测,其方差相对于之前的方差减小了KTy,*,K-1y,y Ky,*。

2.3 故障检测器的结构

测试了两种识别异常工况的方法。每一种方法都由图1和图2所示的三部分组成。该过程首先根据GP算法的结果估计传感器的值。在图1中,将GP估计的平均值(公式24的第一个表达式)与实际值比较计算估计误差,然后输入到SVND。图2所示的方法略有不同,因为在计算误差后,通过估计的标准偏差(公式24的第二个表达式)对其进行归一化。

图1 提出方法的结构

图2 改进方法的结构

GP使用输入xn(i)来预测输出yn(i),GP输出表示冷水机组传感器值。训练阶段后,GP回归器进入第一个测试阶段。此阶段把正态数据输入到回归估计器。计算测试误差,然后将其输入检测器的下一部分。假设具有正常数据和错误数据,当输入正常情况下产生低错误,但在三个回归输出中显示高错误时,就会检测到故障。

3 实验

实验首先测试了所提出的分析方法的有效性,然后将结果与标准故障检测方案进行了比较。分析方法包括GP-SVM结构,首先仅使用预测误差实现。然后,根据GP算法产生的误差方差估计值识别故障,该结果与独立SVDD和SVND算法的结果进行了比较。

3.1 数据

采用ASHRAE RP-1043数据集。根据冷水机组故障种类和严重级别,选取了故障严重程度为SL1、SL2、SL3、SL4的四组数据样本作为训练集和测试集,具体内容如表2所示。数据集总共24000个样本,包含正常样本和5个故障样本,4种严重程度,样本采样周期为10 s。其中,用于训练的数据由4组19200个样本组成(对应于不同的严重程度),测试样本包括4组4800个样本。

表2 数据集描述

3.2 实验设置

进行了4次不同的训练和测试试验,每一次都有4组训练。第一次训练对应的是GP部分。输入数据是由6种特征构成的6维向量,如表3所示。

表3 特征量选取

通过训练3个GP回归器来预测冷水机组传感器的值,得到预测误差和GP方差。用瞬时预测误差向量除以GP输出标准差来训练SVM。该训练可以认为是无监督的,因为所有涉及的数据都是观察到的,并且在训练期间没有使用故障数据。

对于GP和SVM算法,采用标准的平方指数核KSE(xm,xn)=exp(-σ-2||xn-xn||2),其中,宽度参数为σ。GP结构协方差函数包括指数平方核,估计量偏差k,独立的白噪声:

式中δ(n-m)表示Kronecker Delta,参数K和σn被简单地初始化为1。一些初始化σ从0.1~10的范围产生的结果没有显著差异。SVM结构需要对其核参数C和v进行交叉验证,从测试数据中抽取了20%的数据,并对三个参数进行了验证,其中,σ(0.01-10)和C(1-100)的对数间隔值,SVND(0.01-0.99)线性间隔值。

3.3 评价指标

总体准确率(OAR)通常用作评估分类器总体性能的简单度量,其为正确预测数量除以观测总量。然而,特定于类的性能在FDD中也很重要,其中术语真阳性率(TPR)和假阳性率(FPR)表征了分类器对单个类的性能。对于给定的类,TPR是在所有实际为阳性的样本中被正确地判断为阳性的比率。而FPR是在所有实际为阴性的样本中被错误地判断为阳性的比率。TPR和FPR的计算方法如下:

3.4 结果

在测试阶段,针对所有系统中不同的检测阈值,计算代表TPR与FPR关系的ROC(Receiver Operation Curve)曲线。如图3~图6所示。在所有图中,实线表示GP-SVDD或者GP-SVND的性能,虚线表示SVDD和SVND的性能,以便进行比较。

图3为图1所示结构(结构1)的ROC曲线。其中,该结构中SVDD的输入由误差与外部变量组成。该外部变量也会被送入GP。由图3可以看出,相对于SVDD算法和SVND算法,提出方法有相当大的改进,但当FPR增大时,SVDD和SVND算法表现出更好的性能。图4显示了使用图1结构的方法的运行结果,但GP-SVM算法中的检测器(SVDD或SVND)没有使用外部输入。很明显发现,总体性能改善并不显著,同时,高FPR的TPR略有增加。第一个实验相对于第二个实验性能提高的原因可以简单解释如下:GP-SVM可以区分高误差和低误差的样本;在第一个实验中,机器能够判断出高误差的原因是GP的性能不好或者数据错误,然而在第二个实验中,由于没有使用输入数据,检测器无法区分两者。而图3中的高FPR的TPR降低了,这可以解释为,由于在检测过程中使用了输入数据,GP-SVM中检测器的结构复杂性增加了。

图3 结构1在有外界输入时结果对比

图4 结构1在无外界输入时结果对比

同时,图5显示了图2中结构方法的运行结果,其中GP的预测标准差被用来归一化预测误差。在实验中,也将输入数据用于GP-SVM结构中的故障检测。然而,由于误差被归一化以提高对故障数据和正常数据的区分度,输入测量数据成为多余的。图6显示了图2结构的GP-SVM算法的结果,其中输入没有被送入结构的SVM部分。可以看到,性能没有下降,而且在某些方面略有改善,特别是ROC曲线的斜率更陡,其转折的地方出现在较低的FPR,这可以解释为检测器的复杂性降低的结果。最后,SVDD和SVND之间的比较并不明显,这是因为如果使用平方指数核,这两种结构是等价的,微小的差异可能是两方案之间的小参数验证不一致。

图5 结构2在有外界输入时结果对比

图6 结构2在无外界输入时结果对比

4 结论

提出了用于冷水机组故障检测的基于GP预测器和无监督SVM的新型检测方法。GP算法用于预测冷水机组的测量结果,将冷水机组的运行状况近似为外部变量的响应。然后将GP产生的预测误差及其估计的方差作为SVM检测器的输入,该检测器能够以无监督的方式检测冷水机组的故障,从而实现在线故障诊断。经过实验结果对比,可以发现提出的方法相比单独的SVM在冷水机组的FDD中具有更优越的性能和创新,前者的两种结构均采用无监督训练过程,适合在线运行。

猜你喜欢
冷水机组向量误差
基于物联网的冷水机组节能与安全分析
中央空调系统冷水机组优化控制策略研究
向量的分解
聚焦“向量与三角”创新题
角接触球轴承接触角误差控制
多台冷水机组联合运行优化控制策略
Beidou, le système de navigation par satellite compatible et interopérable
水冷磁悬浮变频离心式冷水机组
压力容器制造误差探究
向量垂直在解析几何中的应用