一种基于环境特征的智能电能表初值优选型K-means聚类算法

2022-07-25 12:50曹宏宇刘惠颖殷鑫文茹馨陈月
电测与仪表 2022年7期
关键词:初值电能表准确率

曹宏宇,刘惠颖,殷鑫,文茹馨,陈月

(1.国网黑龙江省电力有限公司电力科学研究院,哈尔滨 150000;2.黑龙江省电工仪器仪表工程技术研究中心有限公司,哈尔滨 150000)

0 引 言

智能电能表作为与电力用户紧密联系关键设备,直观地展示用电情况。然而在实际运行中,智能电能表所面临的环境条件是多变的,严寒、高海拔、高湿热、高盐雾、高干热的条件下可能暴露出的更多产品问题。所以,对不同地区下运行的智能电能表针对环境条件(温度、湿度等)进行聚类,同一类中的智能电能表面临的环境特征类似,这样便于有针对性的研究环境特征对智能电能表运行误差的影响。

现有对智能电能表的聚类,是基于电能表运行参数或者负荷条件,缺少利用环境因素对其进行聚类的研究。文献[1]研究了电力负荷曲线的聚类方法,该算法集成了多种算法适用于大规模数据集,但算法复杂度较高。文献[2]提出了一种分布式的聚类算法,使用自适应的K-means算法对智能电能表存储的用电数据进行聚类,适用于大规模数据的聚类。文献[3]利用改进型K-means算法对用电数据进行分析聚类,改进算法注重未知聚类数量的确定方面。文献[4]利用自适应的差分演化K-均值聚类算法实现了对电信用户的分类,该方法的输入变量较多准确率对初始变量的依赖较高。文献[5]提出了一种基于密度的K-means改进算法,改善了K值难以确定的问题。

综上,现有的对电能表的聚类缺少对运行环境的分析,并且聚类算法应用场景较为单一。因此文章对各地环境特征进行了分析并提出选择方法,应用于智能电能表的聚类计算。并且提出初值优选型K-means算法,该方法在传统的K-means算法[6-10]在初值选取和聚类中心移动规则上进行改进使其更加适用于基于环境特征的智能电能表聚类问题。改善了分类结果对初值的依赖性,提高算法的全局搜索能力。这种基于环境特征的初值优选型K-means算法能够对多地运行的智能电能表进行高效、准确地分类,为进一步挖掘环境参数对智能电能表可靠性的影响提供有效地指导。

1 环境特征的分析及提取方法

国家电网计量中心已在黑龙江漠河、新疆恰特卡勒、西藏羊八井、福建湄洲岛四个地区建立了实验基地,四个地区环境特点如下:

黑龙江漠河县,地处中国最北部,年平均气温在-5.5 ℃。12月、1月、2月在零下25 ℃~40 ℃;恰特卡勒属独特的暖温带大陆性干旱荒漠环境,全年平均气温为14 ℃,一年中,以一月份最冷,7月份最热;羊八井,海拔4 300米,年平均大气气压值为0.06兆帕;湄洲岛坐落于莆田市南部,年均气温21 ℃,年均降雨量1 000 mm左右,6月、7月份多雨。每天中温度的变化呈现以下规律:峰值出现在14时左右,谷值一般在日出前约4时左右。

四地区的智能电能表数据实时上传至主站,包含运行误差以及温度、气压、湿度等数据。为达到将智能电能表准确分类的目的,理论上选取的数据越多准确性越高,但随着数据维数的增加会导致计算速度的下降,计算过程中占用的资源较多。因此,需要针对这一问题找到选择环境特征数据的原则。

经过上述分析,四个地区的环境特征为:黑龙江高严寒、西藏高海拔即气压较低、新疆干热、福建湿热。能够代表各地特点的环境因素分别为:最低温度、海拔(气压)、最高温度、湿度。四个因素中选取三个则能够实现四个地区的电能表聚类。根据对四地历史天气情况的分析,在1月~2月最低温度、气压差异较大,7月~8月的最高温度、湿度差异较大。文中选择一年中高温差异较大的一天中14时的温度数据,和低温度差异较大的一天中4时的温度,再增加湿度或气压数据中的一个为每只电能表建立三维数据向量Xi(ai,bi,ci)。这样选取能够使得不同类别的电能表数据差异较大,更有利于得出准确的聚类结果。也可根据不同地区的环境特征选择。需要对向量中的数据进行归一化处理,如式(1)所示,当yi分别为ai,bi,ci时[11]:

(1)

2 初值优选型K-means算法

结合前面所述的环境特征提取原则,综合分析数据集的特征,显然数据集呈现球形聚集的形态。因此,基于距离的聚类方法更适用于不同地区运行的智能电能表的聚类计算。K-means算法是应用较为广泛的基于距离的划分聚类,其原则是同一分组中的距离越近越好,不同分组间距离越远越好[12]。基于环境特征的分类问题中,同一时间处于同一地区的智能电能表环境特征差距不大,且处于不同地区同一时间的智能电能表环境特征差异较大。

K-means算法通常采用欧氏距离[13]作为两个样本相似程度的评价指标,样本集合M={xi|xi∈Rm,i=1,2,…n},其中m表示数据的维数,n表示数据集合的大小。样本xi与样本xj的欧式距离计算公式如下:

(2)

假设样本所属的类别集N={ct|ct∈Rm,t=1,2,…k},k为聚类个数,每一类聚类中心zt由式(3)给出:

(3)

平方误差准则函数为:

(4)

式中nt表示类别t中的所有样本的个数。

K-means算法具有实现简单、快速收敛的优点,但初始聚类中心点的选择对聚类结果影响较大[14]。因此,文中对初始聚类中心的选择方式进行改进,选择初值的方式满足聚类算法要求类别之间差距尽可能大的原则,初值优选型K-means算法计算流程如图1所示。

图1 初值优选型K-means算法计算流程Fig.1 Flow chart of initial value optimization K-means algorithm calculation

具体步骤如下:

(1) 随机选择数据集合中一个数据点作为第一个初始聚类中心;

(2) 计算每个数据点与已选聚类中心的距离;

(3)设置一个阈值ε,如果数据点距离任意已选聚类中心的距离小于该阈值,则去掉该数据点;

(4)计算余下的各个数据点到已选聚类中心的距离和。选择距离已选聚类中心距离最远的点为另一个聚类中心。

(5)

式中z1,z2,...zj表示第1到j个已选聚类中心。重复步骤(2)~步骤(4)直到k个聚类中心全部被选出,然后进行K-means聚类。

在初始聚类中心全部选择完成后,求每个样本点到各个初始聚类中心的距离,将数据点与相距最近的中心点归为一簇。然后更新聚类中心,需要注意的是,在传统K-means聚类中,将每一类中的数据平均值作为新的聚类中心的方式,可能会造成陷入局部最优的结果[15]。因此,文章提出选取数据样本的中位数作为聚类中心的移动方向。

目标函数为式(6),这种聚类中心的选取方式能够有效的减少数据中异常值对聚类的影响,可以改善传统方法易陷入局部最优的情况。

(6)

3 实验结果与分析

国网计量中心在黑龙江、新疆、西藏、福建四个地区建立了实验基地,每个基地现有70个厂家共600只智能电能表自2017年12月至今的运行数据(包括实时误差、负载电压、负载电流等)和环境数据(包括实时温度、气压、湿度、风速等),数据每分钟上传一次至主站。文章在每个地区随机选取100只智能电能表的数据进行仿真分析。提取每只智能电能表2018年2月3日4点温度记为a,2018年8月1日14点温度记为b,2018年2月3日0点气压记为c。每只电能表的环境信息组成一个三维向量记为Xi(ai,bi,ci),其中i=1,2,…, 400。对这400只智能电能表的环境信息进行统计, 得到如表1所示的数据分布情况。原始数据的分布如图2所示。根据文章提出的环境特征提取原则选择的智能电能表的环境数据使得四类电能表的差别较大,四簇数据区分较为明显。这样的原始数据分布便于聚类计算,有效提高聚类结果的准确性。

表1 原始样本数据统计Tab.1 Statistics of raw sample data

图2 原始数据分布图Fig.2 Raw data distribution map

将每只智能电能表提取出的环境信息向量Xi(ai,bi,ci)利用式(1)进行归一化处理后分别用传统K-means算法、文献[1]中的集成算法、文献[2]中的自适应的K-means算法、文献[4]中的差分演化K-均值算法以及文章提出的初值优选型K-means算法进行聚类计算,聚类簇k=4,即初始聚类中心的个数为4个。五种算法各进行100次计算,记录100次计算结果和所用时间。

图3和图4中分别用圆圈、方块、三角、和十字符号代表聚类后的四个聚类簇。由于数据较多符号不清晰,因此,图中圈出了聚类后的4组聚类簇。图3展示了使用传统K-means算法的某一次聚类结果,从图中可以看出这个聚类结果错误的将新疆和福建省的智能电能表归为了一类,将西藏的智能电能表分为了两类。图4展示了使用文章提出的初值优选型K-means算法某一次的聚类结果,准确的将四省电能表聚类。

图3 传统K-means算法聚类结果Fig.3 Traditional K-means algorithm clustering results

图4 初值优选型K-means算法聚类结果Fig.4 Initial value optimization K-means algorithm clustering results

图5是五种算法准确率的对比图,100次的平均准确率分别为54.4%、69.5%、85.9%、76.3%和89.2%。可以得到文中提出的初值优选型K-means算法准确率较其他几种算法有显著提高,准确率提高的原因是初始聚类中心的选择的准确性。文章改进的初始聚类中心的选择方式能够使得所选择的四个初始聚类中心分别在四个簇中,因此聚类结果准确率大幅度提升。

图5 五种算法准确率对比图Fig.5 Comparison of accuracy of five algorithms

表2是五种算法平均耗时的对比。传统算法、集成聚类算法在初始聚类中心的选择上耗时较少,但初始聚类中心的选择会影响后续的迭代次数,迭代次数较多会导致耗时长。自适应的K-means算法和差分演化K-均值算法的复杂度较高因此耗时较多。而初值优选型K-means算法在初始聚类中心的选择上耗费一定时间,但大大缩短了后续的迭代次数,因此相对降低了算法的耗时。综上所述,可以证明文章提出的初值优选K-means算法更加适用于基于环境特征的电能表聚类问题。

表2 五种算法平均耗时Tab.2 Average time of five algorithms

4 结束语

文章研究了基于环境特征的智能电能表聚类算法。针对黑龙江、新疆、西藏、福建四个地区的环境特点,提出了环境特征的提取原则,能够在不影响计算准确度的前提下有效地降低数据维度,从而降低计算复杂度,提高计算速度。对传统K-means算法在初始聚类中心选择方式和聚类中心移动原则进行了改进,提出了初值优选型的K-means聚类算法,提高了聚类算法的准确度和计算速度。最后通过数据的仿真验证该方法的准确率较其他算法平均提升17.7%,计算耗时平均减少0.16 s。

猜你喜欢
初值电能表准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
电能表的计算分类解析
美国三季度GDP初值创两年最高
物理电功率专题练习
《吉普林》欧元区经济持续低迷
细说电能表
轻松面对 “电能表