基于DBSCAN聚类的电力工程数据完整性分析*

2019-05-31 01:22袁兆祥余春生
沈阳工业大学学报 2019年3期
关键词:电能表电力工程聚类

袁兆祥, 余春生

(1. 国网经济技术研究院有限公司, 北京 102209; 2. 德信东源智能科技(北京)有限公司 科技研发中心, 北京 100088)

随着我国电力营销管理系统、营配系统、生产管理系统和计量自动化系统建设的不断加快,企业逐渐积累了丰富的信息系统应用经验及电能数据资源[1].但国内对电能数据的分析与应用尚处于较为落后的状态,对于宏观电能数据分析缺少预见性、精益性和实时性[2].

结算抄表在电力工程数据管理中起着重要的作用,传统的抄表方式需要工作人员手工录制数据,存在着漏抄、错抄和估抄的问题,这对线损、预测及计费等后续分析工作带来了较大的困难[3-4].而计量自动化系统的投入使用,不仅能有效改善传统抄表方式所带来的困难,且能搜集电网各区域的能耗信息,确保电力供给和电力资源质量的平稳安全[5].大数据采集与监视系统、地理信息系统和高级策略系统的投入使用在提升电力工程建设效率的同时,系统中积累的大量电能数据仍面临着以下挑战:1)数据规范性、准确性和完整性;2)数据搜索与数据聚合;3)系统与数据采集间的数据共享;4)数据计算与大规模数据存储.电力工程数据完整性是电力系统正常运行的基本条件[6-7],是后期高级应用分析的基础.

本文主要研究电力工程数据的完整性,提出了一种基于DBSCAN聚类算法[8-9]的电力工程数据完整性分析方法,从大规模电力工程数据中快速找出所缺失的数据,并对其进行形态分析.

1 DBSCAN聚类算法

DBSCAN(density based spatial clustering of applications with noise)是一种基于密度的聚类算法,该算法根据所设置的半径Eps和样本数目MinPts将待聚类数据分为核心点、边界点和噪声点3类,其中,在半径为Eps的圆内至少包含MinPts个样本的点称为核心点;在半径为Eps的圆内,样本数量少于MinPts个样本且落在核心点邻域内的点称为边界点;而既不是边界点又不是核心点的则被称为噪声点.相比于K-means聚类算法,该算法无需事先确定聚类中心的数量,并可以识别出任意形状的簇类,且具有较强的抗噪声能力.

该算法通过定义直接密度可达和密度相连的概念,来确定每一个样本所属的聚类中心.直接密度可达即对于给定的半径Eps和样本数目MinPts,从样本p直接到达样本q需要满足

(1)

式中,NEps(q)为样本q的样本范围.密度相连即存在样本满足p和q关于半径Eps与MinPts均是密度可达的.具体的DBSCAN聚类算法如下:

1) 设置数据集D、半径Eps和样本数目MinPts;

2) 判断输入样本点是否为核心点;

3) 若输入样本为核心点,找出其邻域内所有直接密度可达点;

4) 重复步骤2)、3),直至所有样本判断完成;

5) 合并一些密度可达对象,并根据所有核心点邻域内的直接密度可达点找到最大密度相连点的集合;

6) 重复执行步骤5),直至遍历完所有核心点邻域.

2 基于DBSCAN的数据完整性分析

传统的数据完整性分析方法取决于一个或多个数据分析师对数据的分析,其性能受分析师对数据熟悉程度的影响.而基于DBSCAN的数据完整性分析方法是基于数据挖掘理论,从电力工程数据中发现潜在的数据缺失风险,该方法能有效应对数据急剧增加的情况,并能实现对数据的高级描述.其主要过程包括:

1) 数据获取.使用电力工程计量自动化系统获取发电场、配电网、变电站和用电数据,并构造数据集.

2) 数据预处理.对采集到的各种数据进行数据清洗、格式统一和归一化处理,得到健康有效的数据.

3) 特征构造.使用预处理后的数据构造有效特征来表征所采集的数据集.

4) 聚类分析.使用DBSCAN算法对数据集各特征进行聚类分析,分析缺失数据的数量分布及同步性特征,为电力工程系统进一步整改提供参考.

2.1 数据获取

电力工程中的数据包括实时电力运行数据、用户档案数据和系统报警数据等.其中,电力运行数据主要包括各类计量终端的通信流量数据、瞬时量数据及表码数据.通信流量数据可以用于判断计量终端的运行状态;瞬时量数据为用户实时用电功率、电压与电流等信息;表码数据为用户累计用电有功表码和无功表码信息.本文使用电能表计量终端每15 min采集一次表码数据,并每隔1 h向智能终端发送一次数据.各数据具体说明如下:

1) 瞬时量数据.包括用户的总有功功率、三相有功功率、三相电流值及三相电压值等用电信息,其部分数据如表1所示.

2) 表码数据.表码数据主要为用户的累计用电信息,其包含的内容如表2所示,其中,费率类型包括总电量、正常情况、高峰、低谷和超高峰等不同时段的计费标准.

表1 瞬时量数据示例Tab.1 Examples of instantaneous data

表2 表码数据示例Tab.2 Examples of table code data

2.2 数据预处理

使用上文采集的瞬时量数据和表码数据进行数据完整性分析.考虑到数据每间隔1 h采集一次,本文主要选取瞬时数据的计量点、时间与功率3类数据,选取表码数据的计量点、时间及正向有功表码3类数据进行后续分析.考虑到智能计量终端可能存在记录时间不齐和通讯故障等问题,导致相应时间上的计量数据整条缺失,本文主要通过分析缺失数据的形态来判断数据缺失的类型.

本文将具体的数值信息进行去值化,使用‘1’表示某一时刻存在瞬时数据和表码数据,使用‘0’表示某一时刻缺失瞬时数据及表码数据.数据预处理过程如下:

1) 扫描采集的数据,获取计量点编码POINTID;

2) 将每一个计量点按照月份和时刻设定为31×24的数组,并初始化为0;

3) 使用数值判断程序判断每个计量点在响应数组位上是否存在数据及其是否为NULL,若存在数据且不为NULL,则给数组的相应位赋值1;

4) 统计每个计量点的数据缺失数量,并记为ERRORNUM.

本文预处理后的部分瞬时量数据和表码数据分别如表3、4所示.表3、4中分别用Pi和BMi(i=0,1,…,23)表示24个时刻的数据值.

表3 预处理后的瞬时数据Tab.3 Instantaneous data after preprocessing

表4 预处理后的表码数据Tab.4 Table code data after preprocessing

2.3 特征构造与特征分析

使用DBSCAN聚类算法分析所采集的电力工程数据前,需针对不同的问题对预处理后的数据进行特征构造和特征分析,以适应相应的问题与模式.本文根据电能表与智能终端数据缺失数量及数据缺失同步性的特点,分别构造了不同的特征组合并进行了有效性分析.

2.3.1 电能表与智能终端数据缺失数量分析

本文分别使用电能表的表码、终端的表码以及电能表的瞬时量、终端的瞬时量分析所采集的电力工程数据的缺失数量.

数据缺失量特征格式如表5所示,表5中显示了所采集数据的全部特征数据缺失数量,其中,M_POINTID和F_POINTID分别为电能表与终端的计量点;电能表的表码和终端的表码缺失数量分别为MBM、FBM;电能表的瞬时量和终端的瞬时量缺失数量分别为MSSL、FSSL;4种特征缺失数量的总和为MISSNUM.

表5 数据缺失量分析特征格式Tab.5 Feature format of data missing amount analysis

为保证聚类分析的有效型,本文排除了运行正常的计量终端及拆除、损坏或无信号的计量终端,即4个特征量均为0和均为24的样本,共统计了53 903个计量终端采集的313 346条有效数据.各特征具体统计结果如表6所示.

表6 各特征缺失数据统计结果Tab.6 Statistical results of missing data with respective feature

从表6的统计结果可以看出,电能表的瞬时量和表码数据的缺失值明显少于终端上的缺失值,由此表明,终端数据的不完整性更严重.分别分析终端和电能表的数据可知,电能表上表码数据的缺失数量比瞬时量的缺失数量少24.7%;而终端上瞬时量的缺失数量比表码的缺失数量少13.2%.分析结果表明,终端上数据的波动情况更为稳定.

2.3.2 电能表与智能终端数据缺失同步性分析

本文将终端和电能表上的表码数据按异或的方式编码,以判断终端与电能表数据缺失的同步性,特征数据构造如表7所示,其中,DIFNUM表示差异值的数量.

表7 数据缺失同步性的特征数据格式Tab.7 Feature data format of data missing synchronization

表7中,XOR0~XOR23分别表示24个时刻终端的表码数据和电能表数据在对应时刻的异或值,用于表示电能表与智能终端数据缺失形态上的差异.其中,表码数据和电能表数据同时存在用0表示,表码数据与电能表数据中有一个缺失时则用1表示.同时,本文删除电能表与智能终端数据缺失同步的情况,即异或数据全为0的数据样本.

3 实验与结果分析

使用本文介绍的DBSCAN聚类算法对提取的电力工程数据进行聚类分析,并分析不同半径Eps时所得到的不同聚类结果.

本文分析了聚类半径分别为5和10的电能表与智能终端的聚类结果,分别如图1、2所示.用不同的颜色表示不同的聚类中心,每个聚类中心显示了类簇样本的数量.图1共有8个聚类中心,图2共有4个聚类中心,两图均表明终端数据的缺失值(FBM、FSSL)要多于电能表数据的缺失值(MBM、MSSL),且大部分数据点的缺失量较少,而缺失值大的数据点只占少部分.

图1 半径为5时的聚类结果Fig.1 Cluster results with a radius of 5

上述实验结果表明,使用DBSCAN聚类算法可以有效地分析电力工程数据的完整性及其缺失的形态分布,且可设置不同的聚类参数,从多角度分析数据缺失的状态.

4 结 论

本文提出了一种基于DBSCAN聚类算法的电力工程完整性分析方法,从电力工程数据获取、数据预处理、特征提取和聚类分析4个层面介绍了具体的分析方法,并使用该方法分析了电能表与智能终端数据缺失数量与数据缺失同步性.对采集的数据进行多角度分析的结果表明,提出的方法可以有效地分析电力工程数据的完整性及其缺失的形态分布,这对于提高电力工程数据的完整性和分析用户的用电情况均具有较好的参考价值.

猜你喜欢
电能表电力工程聚类
试论电力工程管理模式的创新与应用
巧数电能表
BIM系统在电力工程中的应用
基于K-means聚类的车-地无线通信场强研究
认识电能表
电力工程中电气自动化技术的应用
基于高斯混合聚类的阵列干涉SAR三维成像
浅析电力工程管理模式的创新与应用
电子式电能表技术综述
浅析智能电能表常见故障及处理