浅析改进数据挖掘算法在水电厂状态检修系统中的应用

2023-08-29 07:11袁智勇

中国设备工程 2023年16期

袁智勇

（江西赣能股份有限公司抱子石水电厂，江西修水 332400）

水电厂是电力系统的重要组成部分，其运行状态会受到电厂的各种影响因素和外界环境等，所以，对水厂进行合理、有效得调整，使之能够适应不断变化的外部环境影响，因此对整个电网进行在线监测、状态诊断和预测是十分必要。随着我国经济水平的不断提高以及国家政策对节能减排力度加大等因素影响下，火力发电厂在未来将会有越来越多的机组出现故障。而传统方法在分析数据时存在很多问题：如仅依靠经验判断无法准确的确定某个具体电厂运行情况，数据的处理方法比较单一，无法实现对故障类型进行分析，不能准确地揭示出机组运行过程中所存在问题。基于此，本文提出了一种针对水电厂运行状态进行故障诊断的方法，该技术通过对数据集和处理方式以及相关算法分析来实现。

1 数据挖掘技术简述

1.1 数据挖掘的概念

数据挖掘技术是指从海量的、复杂多变的非结构化信息中提取有价值信息的技术，它是基于数据挖掘理论和技术的应用，能够帮助人们发现隐藏在信息中的有用价值，从而提高企业的经济效益，同时也能够帮助人们在复杂多变环境中更好地生存和发展。

1.2 数据挖掘的任务

数据挖掘的任务分为以下几点：

（1）将复杂、冗余性强的信息进行整理，并在其基础上对原始决策变量和潜在观测信号进行预测，建立了基于粗糙集的水电厂状态检修模型。该方法是根据决策变量和潜在观测信号，通过对原始数据进行去噪，得到一个最佳估计，从而提高预测精度。

（2）找出描述并区分数据类或概念的模型，以便能够使用模型预测类标记未知的对象类，并将其分类到一个新的、可解释的对象类中，从而达到描述和区分数据变量之间关系，实现模型预测。

（3）聚类是把数据划分到不同组中，进行组合而产生的一种数据处理技术，它能够将一些具有相同属性的对象分类，对同一组中不同元素之间关系进行分析，并找出其对应的规律，从而使数据能够更加准确。

（4）关联分析的任务是找出数据记录中字段之间的关系，并利用其对数据进行处理。通过关联分析可以发现系统中的问题，并且能够找到事物之间联系，从而提高故障诊断和预测决策过程的效率，进而降低系统的故障率。通过关联分析可以发现事物之间联系，并且能够利用其进行预测，从而为决策者提供有效信息。

1.3 数据挖掘的步骤

在传统的数据挖掘中，主要是通过对原始信息进行抽取，进而得到大量具有特定规律性和预测价值的数据。而随着时间推移以及科技发展进步、技术不断完善等因素都会产生越来越多与之相关且复杂关系较大的异常样本，这些随机变量可能包括许多不同类型，同时由于一些随机过程中不能够被量化处理过，导致无法得到有效挖掘出规律性和预测价值的数据信息。数据挖掘的过程如图1 所示。

图1 数据挖掘过程示意图

（1）数据选择。数据选择是对原始数据进行筛选，将有相同属性的样本集按照一定规则排列进同一堆中，以获得不同的结果。通过对数据进行处理，得到一组具有良好性能和特点的信息，从而将其分类、归类，建立模型并对其进行分类，得到不同的结果，最终将故障对象分为一类，从而分析系统中各类信息之间关系。

（2）数据预处理。数据预处理是将实际的信息转化为可利用、有效和直观表达出来，并能对原始信息进行描述的过程，它是数据挖掘技术的一个重要分支，其主要目的在于利用某种算法对原始信息进行处理，并将这些分析结果转换为可应用于工程实际过程中的有用知识。

（3）模式发现。传统的模式发现多用于人工神经网络，而现在已经有了人工智能，主要是针对模型中不同类型数据进行处理和分析。在实际应用过程中，可以使用多种算法对这些数据信息进行挖掘，从而得到有效的结果，并针对这些数据进行分析，进而获得决策。

（4）模式评估。通过某种度量得出真正代表知识的模式，从而为其提供改进依据，并根据模型的实际情况来对系统进行评估，得出最优结果。通过数据挖掘算法能够得到一个有效的模式评估值。

（5）知识表示。传统的模式评估方法是基于历史数据和模型进行判断，而对于实际情况来说，往往需要对原始指标进行一定程度上的简化处理，而传统的模式评估方法是基于历史数据进行判断，这就使得预测结果与实际情况有很大差异，从而导致误差较大。为了降低这些问题带来的影响和影响，改进了水电厂状态检修系统中常用到一些指标来对原始信息进行处理分析。

2 数据挖掘技术在检修系统中的应用

2.1 数据预处理

数据预处理模块将在线监测所得的数据进行前期处理，并将其进行预处理，然后对这些数据的特点及规律性进行分析，从而得出结论。在实际应用中发现：某发电厂汽轮发电机组状态监测和优化系统是基于人工神经网络技术、支持向量机等算法实现。该方法能够有效地提高电厂运行过程中设备维护与检修效率以及可靠性，通过改进后的水电机组状态诊断模型可以为故障原因准确预测提供依据，通过数据挖掘算法对异常情况进行分析，进而得出结论并提出改善措施以降低风险发生率及损失率。本文引入的数据标准化处理方法可以解决度量单位不一致的问题，具体方法如下：

（1）计算平均的绝对偏差值的方法如式（1）所示：

其中，x1f,…,xnf是f 的n 个特征值，mf是f 的平均值，具体计算如公式（2）所示：

（2）计算标准化的特征值，具体计算如公式（3）所示：

标准化方法将特征项的平均值转化到0，将标准偏差转化为1。

（3）通过公式（4）产生归一化结果。

2.2 数据挖掘算法

数据挖掘算法主要是利用数据中的特征来构建相应模型，将一些具有不同特点且不相关、未知量少等问题进行分析，从而对这些事物或现象做出预测和描述。

（1）K-means 算法。K-means 算法是一种面向机器学习的数据挖掘方法，它以人工智能技术为基础，将计算机语言作为研究对象，基于其在模式分类、聚类等理论之上建立模型。通过对原始状态变量进行再处理和参数估计来实现对问题信息的提取。K-means 算法主要是用来解决数据挖掘中存在的一些问题。它可以将处理过程进行简化，从而提高分析结果的效率。K-means 算法的处理流程如下：首先，随机地选择k 个对象，对其进行分析，然后将k 个对象的函数作为训练集，并根据所选择的方法建立一个模型，通过K-means 算法处理过程可以得到参数，并将其与实际对象的函数进行比较，从而得出结论。通过K-means 算法发现系统中存在大量的故障信息；其次，对原始数据进行预处理和清洗后得到一组新特征点集（即异常指标）；最后，根据所获取到的是某一个特定属性点集（或参数）与另一个特定簇之间比较结果，并计算出当前最优阈值及该最佳阈范围，判断当前最优阈值是否满足该特征点集。通常采用平方误差准则，其定义如公式（5）所示：

（2）改进的K-means 算法。对于k 均值聚类算法来讲，初始质心的选择会对聚类运算结果产生很大的影响，如果选择不恰当，不仅会增加算法的时间和空间复杂度，影响最终结果的质量，而且对算法运行时间和系统性能都有很大的限制。为了使得初始化选择能够更加合理，提高算法的运行时间和性能，本文针对原来随即选取k 个质心的质心选择算法作了一定的优化，设计了一个新的质心选择算法，使得每次的算法计算结果更优，从而实现了改进后k 均值聚类法在水电厂状态检修系统中的应用，实现改进器的多类诊断，提高了系统性能。

3 改进的K-means 算法在故障诊断中的应用

本文从公开发表的期刊中搜集已经确定故障类型的161 组变压器特征气体数据，选择9 组特征气体含量和比值编码作为标准故障样本，具体如表1 所示。

表1 标准故障样本数据

根据上述故障可以得到想要的故障诊断，具体的故障类型诊断结果如表2 所示。

表2 故障类型诊断结果表格

由此可以看出，采用改进的K-means 算法，对气体数据进行聚类分析，可以比较有效地将各种类型的故障诊断出来，其结果可以用来对机组、变压器等设备进行故障分析。

4 结语

电力系统的状态检修工作是一项比较复杂、系统性很强且综合性较强的工程，它要求对电厂运行和管理全过程进行监测，以发现影响设备安全稳定运行以及电网正常供电情况下故障隐患。本文主要探讨了基于改进数据挖掘算法的水电厂状态检修系统，通过分析其应用背景、基本原理和技术，提出了一种基于改进数据挖掘算法进行故障诊断与预测等方面研究，可以很好地对电厂的智能检修提供完整有效的指导，具有很强的应用价值。