基于离群数据挖掘的低压窃电行为辨识方法研究

2021-12-07 07:45唐伟宁董冠良
电子设计工程 2021年23期
关键词:离群用电量区段

唐伟宁,刘 颖,于 旭,董冠良

(1.国网吉林省电力有限公司电力科学研究院,吉林长春 130021;2.吉林财经大学管理科学与信息工程学院,吉林 长春 130117)

窃电问题严重危害国家的安全和利益,对供电企业造成了巨大的困扰和利益损失。窃电行为随意更改电路设施,不仅会损坏电路设施,造成安全隐患,也扰乱了国家和人民的正常用电秩序。因此,供电企业需要完善反窃电的技术手段,以提高对于窃电行为的打击力度[1-2]。但目前随着科学技术的不断发展进步,窃电技术手段也在不断进步,且更具有隐蔽性、多样性、快速性和高科技性,反窃电技术具有局限性,很难有效地发现并解决窃电问题[3-4]。

传统的反窃电方法主要有安装反窃电硬件设备、定期对供电系统进行巡检、定期校验电表及群众举报[5]。这些方法难以有针对性地达到反窃电的目的,而且耗费大量的人力、时间和经费,效率不高。在各省市电力公司引进具有电能量数据查询功能和计量异常报警功能的计量系统后,供电企业便可以通过对稽查人员、用电检查人员和计量工作人员的培训来实现对用户用电情况的在线监控工作,计量系统可以对异常的电量、负荷、线损信息进行采集,并能够进行终端报警、主站报警,不仅能够实时监测窃电情况的发生,还能及时发现计量装置故障。但该系统也存在一定的弊端,往往反馈出的信息量很大,但无用信息也很多,且经常发生误报,很难对窃电嫌疑用户进行快速精确定位[6]。

数据挖掘技术在负荷预测、电网规划等方面的研究已经比较成熟,但是很少应用于反窃电管理。为此,该文针对传统反窃电技术的不足,运用数据挖掘技术构建反窃电管理模型,该模型能够更准确、及时地发现窃电行为,对反窃电管理发挥促进作用。

1 低压窃电行为检测

影响用电量特征的因素有很多,比如用电用户的行业特征、地理位置以及气候特征等,每个时间区段包含一个特定的用电模式,所以从时间尺度上对用电量进行分段。为便于对用电数据进行离群检测,需要先对用电数据采用聚类法进行分类,并基于用电频率、距离以及关联规则对异常数据进行离群度计算[7-8]。最后结合数据优化来确定离群阈值,并对离群数据进行计算来判断是否存在窃电行为。

基于离群数据挖掘的低压窃电行为检测流程如图1 所示。

图1 低压窃电行为检测过程

在此基础上,结合反窃电管理业务需求,基于SOA 构建综合信息平台,制定统一的数据模型、对数据进行统一规范[9]。同时,制定一套流程标准,开发出适配各应用系统的基于公共语义的接口,实现数据挖掘、信息集成和业务整合,从而实现从整体抽取各个系统的信息资源,构建面向对象的数据应用平台[10-11]。

根据用户需要,反窃电管理系统的分析结果能够以饼状图、折线图等样式直观呈现,不仅可以直观反馈结果,也大大提高了工作效率。此外,为方便业务人员进行交互式查询、统计与分析,支持反窃电决策过程实施,系统还增加了导入导出功能,以便满足用户复杂业务需求。

2 低压窃电行为辨识

2.1 用电区域划分

设定时间段为t,确定样本数据序列C,样本数列记录公式为:

在时段t内计算用电量,计算公式为:

其中,ei表示在t时间段内的用电量;Cti表示末端电量;Ct(i-1)表示初始端电量。

在确定用电量后,根据用电量对用电区段划分,通过引用量化因子β完成量化处理,量化处理计算公式为:

用电模式类型不同,量化因子β的数值也不同。

将获得的离散用电数据加入到正常的用电量中,分析用电量的波动情况,通过波动分析,实现信息诊断。在时间段t内分析用电的波动量,计算公式为:

分析不同时段的用电量波动方式,对用电区段进行划分[12-13]。

2.2 不同时间段离群数据异常分析

区段内离群数据的计算需要的4 个参数包含每个用电区段的用电持续时间、用电源点位置、起始及结束用电量。但这些数据具有复杂的相关性,且具有自己的量纲属性,所以为了便于后续基于离群算法的数据点分析,需要标准来指标化处理这些参数[14-15]。离散标准化数据处理公式为:

其中,d′表示得到的标准化数据;d表示窃电数据;dmin表示最小数据;dmax表示最大数据。

通过密度聚类离群算法检测窃电数据,分析窃电数据的两个基本参数,分别是邻域半径和阈值。如果选定空间内任意一点,其邻域半径内还存在其他任意数据点,则这两点数据分别在对方的邻域内。同时,以阈值为任一数据点邻域内的数据点数量作为判断标准,若数据点数量超过阈值,则该点被称为核心数据点,若任意两数据点之间的距离小于半径,则这两点可以构成一个聚类。核心数据点邻域内的所有数据点可作为边界数据点,也可以构成一个聚类。其他既不属于核心数据点聚类也不属于边界数据点聚类的数据点则为离群数据点[16]。

聚类的数量取决于不同的用户区段,所以要计算出该数据点到核心数据点的距离,以便于作为指标之一对该数据的离群度进行计算。

2.3 基于关联规则挖掘的用电频率分析

通过关联度和可信度来表示关联规则,对两个不相交的项集之间的潜在关系进行评价计算。关联度的计算方法如式(6)所示。

其中,X、Y表示两个完全不相交的项集;N表示项集内部数据数量;I(X→Y)表示关联度。

可信度计算公式如式(7)所示。

其中,b(X→Y)表示可信度。

在计算电力负荷离群数据之间的关联规则时,为了减少关联规则的计算负荷,对于波动量小于1的用电区段,不考虑在异常关联规则内,只计算其他区段的异常关联规则,超过关联度阈值的项集为频繁项集。

在关联规格分析时,考虑到非频繁项集的关联,将关联度阈值设为0,电区段之间用电量关联越大,则关联度也就越大,反之则越小。根据关联规则确定用电频率。

2.4 基于离群数据挖掘的窃电行为辨识

针对不同用户采用的计量方式也不同,主要有高供高计、高供低计、低供低计。作为不均衡类分布问题,离群数据检测的过程较为复杂,在对其性能进行评测时不能运用以算法准确率为基准的统计。所以在遵循数据挖掘算法通用评价规则的前提下,通过FPR 和TPR 来生成特征曲线,并以特征曲线构成的面积作为判断该算法计算的性能准确与否的指标,面积越大表示算法的计算效果越好。基于离群数据挖掘的窃电行为辨识流程如图2 所示。

图2 基于离群数据挖掘的窃电行为辨识流程图

由图2 可知,通过量化处理用电量数据分析用电频率,以用电地址的波动为基础,构建异常关联规则,并计算出其关联度。根据用电量的波动方向,划分出不同的用电区段,并对区段内的数据运用低密度聚类算法分析离群数据,通过分析结果确定离群距离,将分析结果统计在数据库中。在数据库内同时提取离群距离、关联度和用电频率,然后构建评价矩阵,根据矩阵的精度和召回率可以计算出离群阈值,根据离群阈值对比结果,在众多用户中选定出窃电用户,确定用户的窃电时间。

3 实验研究

为验证基于离群数据挖掘的低压窃电行为辨识方法的有效性,将其与传统的基于层次聚类的低压窃电行为辨识方法、基于K 均值的低压窃电行为辨识方法进行实验对比。设定实验参数如表1 所示。

表1 实验参数

实验设定7 个样本数据量,这7 个样本数据量中包含商用用户和民用用户。同时选用该文方法和两种传统方法对用户用电的特征曲线进行分析,确定主要参数取值,通过优化参数算法,确定给定的量子值,通过分析特征曲线的最大面积,确定内部的半径值,通过研究邻域半径和邻域阈值,实现迭代计算,根据迭代计算结果确定参数值。3 种方法的参数优化情况如图3 所示。

图3 3种方法的参数优化情况

根据图3 可知,随着假正率的增加,该文提出的基于离群数据挖掘的低压窃电行为辨识方法的参数真正率明显高于传统方法。在确定参数后,选用评价矩阵分析离群阈值,根据离群阈值分析结果确定量度,得到的实验结果如图4 所示。

图4 3种方法的调和量度检测结果

根据图4 可知,该文提出的方法调和量度最大可以达到0.951,传统的基于层次聚类的低压窃电行为辨识方法调和量度最大值为0.842,基于K 均值的低压窃电行为辨识方法调和量度最大值为0.739。由此可见,该文提出的辨识方法具有很好的离群数据检测能力。

4 结束语

该文基于离群算法提出了一种对于窃电行为进行有效辨识的新方法,该方法具有较强的计算能力,能够在短时间内实现用电数据的聚类计算,通过计算用电频率、离群距离以及异常规则关联度来进行数据挖掘,并利用评价矩阵的离群阈值来监测窃电行为的发生和窃电地点。实验结果表明,在对不同模式的用电数据进行窃电分析时,相对其他数据挖掘算法,该文方法的工作性能更强。

猜你喜欢
离群用电量区段
02 国家能源局:1~7月全社会用电量同比增长3.4%
01 国家能源局:3月份全社会用电量同比增长3.5%
中老铁路双线区段送电成功
9 月份全社会用电量同比增长6.8%
国家能源局:3月份全社会用电量同比下降4.2%
站内特殊区段电码化设计
站内轨道区段最小长度的探讨
一种相似度剪枝的离群点检测算法
浅析分路不良区段解锁的特殊操作
离群数据挖掘在发现房产销售潜在客户中的应用