基于K-means聚类的居民用电行为分析

2022-05-09 02:26赵万旗孙皓月
电脑知识与技术 2022年7期
关键词:means算法

赵万旗 孙皓月

摘要:该文以某小区居民的智能电表用电功耗数据为研究对象,结合K-means聚类算法对其进行聚类,分析居民的用电行为规律。首先对居民原始用电功耗数据进行特征归一化处理,然后采用肘方法确定初始聚类数,最后,利用聚类算法对该小区居民的用电负荷特征曲线进行聚类,分析其用电行为。实验结果表明,K-means算法在对居民用电负荷曲线聚类时具有较高的准确度,电网企业能够据此分析居民用电行为,提供用电个性化服务。

关键词:K-means算法;用电行为分析;智能用电

中图分类号:TP18      文献标识码:A

文章编号:1009-3044(2022)07-0026-03

1 概述

随着智能电表的普及,仪器中产生和传输的数据正以指数增长,在当今智能互联网背景下,使用人工智能技术挖掘这些海量数据,分析其中隐藏的用户用电行为,有利于电网企业根据分析结果精确地为不同用户提供对应的供电服务,避免以往一刀切式管理,追求精细化用电管理,改善供电质量,使电网企业和用户利益达到最大化[1-3]。

本文使用的数据集来自Pecan Street Energy Database,其中包括500多户拥有智能电表的用户能耗数据。实验使用2015年7月收集的216户居民用电能耗数据,搭建聚类模型进行分析。在对能耗数据进行聚类之前,首先采用肘方法得到符合实际需求的K值,然后根据能耗负荷曲线的特点分析不同居民的用电行为,提供高质量服务以满足用户用电的个性化需求[4]。

2 K-means聚类算法

K-Means算法的工作原理是:给定一个常数K,常数K代表数据最终聚类的类别数,第一步随机选定初始点为质心;第二步计算数据集中其他样本点到质心的距离,选择距离此样本点最近的质心,将该样本加入之前所选质心所在的类别中;第三步再次计算修正后新类的质心,即簇中心;重复二、三步的过程,直到达到规定的迭代次数或者质心基本不改变。

在K-means算法中,首先要做的是确定常数K,目前主流的确定聚类数K的方法有肘方法和轮廓系数法。本文将使用肘方法确定常数K。肘方法的核心指标是SSE(sum of the squared errors),即误差平方和。其计算公式为:

其中,[Ci]是第[i]个簇,[p]是[Ci]中的样本点,[mi]是[Ci]的质心,SSE是所有样本的聚类误差。肘方法的核心思想是:取连续要聚类的目标簇数,即K值,在取不同K值时,应用对应的K均值聚类算法。当算法收敛时,计算SSE,其值越小表示聚类效果越好。值得注意的是,在刚开始的时候,随着K值的增大,误差平方和减小的效果显著,但是当K值到达一定值,误差平方和变化缓慢,则认为拐点就是要寻找的目标点,也就是最终要的聚类簇数[5]。

3 居民用电行为分析架构

为了能够准确地分析居民用电行为,需要对原始的带有噪声的负载数据进行预处理,得到较优的能耗负载数据,然后使用相应的算法对其处理,得出最终结果。首先读取原始功耗数据,对其进行清洗、类型转换以及归一化操作。然后对处理后的负载数据分别运用不同簇数的K-means聚类算法,计算出最佳的聚类簇数K。接着使用最佳的簇数,再对负载数据进行K-means聚类,得出每一种分类的负载数据标签。最后根据不同类别下的负荷特征曲线,分析居民用电行为[6-8]。

4 实验与分析

4.1 数据集介绍

本文实验数据采用的是某小区居民家中智能电表的能耗数据,其中记录了从2015年7月1日到2015年8月1日一个月的能耗数据,共有220户。智能电表每隔15分钟采集一条记录,由房屋ID、时间、功耗(单位为KW)三个字段组成,共有  646981条记录。在现实生活中,由于外来其他信号、信息等的干扰,会使数据信息无法稳定、高效地传输,存在数据缺失、异常值等情况[9]。在本案例中,共有10695个缺失值,在做聚类之前,必须进行数据清洗,以提高计算效率及实验结果的准确度。

4.2 数据处理

由于用电能耗数据特征范围差异较大,需要对特征进行归一化处理。归一化常见的处理方法有最大、最小标准化、Z-score标准化、函数转化等[10]。本文对每一条用电能耗数据向量进行单位化,使得每一条能耗数据数值都在(0,1)之间。

为了获得用户不同时间的用电行为,进一步对时间列进行处理。需要对时间戳进行特征构建,挖掘影响能耗负荷中的时间因素。例如,工作日和周末居民的能耗負荷可能存在较明显的差异,某些小区可能在某月的固定几天运行大型电器设备,那么能耗负荷也会相应地增加,这些都是数据挖掘过程中所获得的有价值的信息[11]。具体地,在房屋ID、时间、功耗(单位:KW)三列的基础上又添加了type_day(星期)和day_of_month(每月的第几天)两个字段。

4.3 实验结果和分析

依据获得的数据,随机选取4个用户绘制其当日的用电负荷曲线,如图1所示。可以看出,在2015年7月15日当天,4户居民的用电负荷规律曲线是不尽相同的,下面就使用K-means聚类算法对不同用户的用电负荷进行聚类。

<H:\飞翔打包文件\电脑2022年第七期打包文件1\3.02xs202207\Image\image11.png>

图 1   原始数据可视化

上文已经介绍,使用K-means聚类算法的第一步就是确定聚类簇数K。下面将使用肘方法对聚类的簇数进行评估,使用聚类数范围在1到7之间,建模后观察结果确定分类数目。其具体的步骤是使用一个空列表,依次创建K=1到7的模型,并分别保存每次模型的SSE结果,使用可视化工具将列表显示,结合曲线的特征和实际业务需求,确定最终的聚类簇数,如图2所示。随着聚类簇数的增大,SSE逐渐减小,在聚类簇数小于4时,SSE减小的幅度较快,当聚类簇数大于4时,SSE减小的幅度较为缓慢,最终取K为4。

确定K=4之后,构建一个聚类簇数为4的模型。实验基于Scikit-Learn机器学习库中的K-means算法。经过聚类后的分类如图3所示,图中横坐标表示时间,纵坐标表示归一化幅度。

<H:\飞翔打包文件\电脑2022年第七期打包文件1\3.02xs202207\Image\image12.png>

图 2   聚类簇数与SSE关系曲线

<H:\飞翔打包文件\电脑2022年第七期打包文件1\3.02xs202207\Image\image13.jpeg>

图 3   聚类后居民用电负荷曲线

根据图3的聚类结果可以看出,第1类居民相较于其他3类居民,在0时到10时用电功耗明显偏高,但是从10时到17时左右用电功耗逐渐减少,从17时开始一直到24时功耗又开始增加。

第2类居民在0时到10时用电功耗逐渐减小,从10时到15时其用电功耗低于第1类居民和第3类居民,在此时间段用电功耗基本上与第4类居民的用电功耗相一致,从15时开始,其用电功耗急剧增加,到了20时基本处于用电最高峰,持续到22时开始减少。

第3类居民和第4类居民的用电功耗在0时到8时处于4类居民中用电功耗最低点,之后第3类居民的用电功耗逐渐上升,到18时左右达到用电最高峰,此阶段用电功耗仅次于第4类居民,18时后开始功耗减少,相比相同时段的第4类居民其功耗下降幅度较为缓和。

第4类居民从0时到15时的用电功耗处于相对较低的水平,从15时之后,用电功耗显著增加,到18时达到4类居民中的用电最高峰,18时之后用电功耗急剧下降,持续到24时达到4类居民的用电最低点。

根据以上4类居民的用电功耗曲线规律,结合实际用电场景,得出其在不同情境下的用电消费习惯,电网企业可以推出差异性服务以满足不同类型的居民,实现对用电服务的精细化管理。

5 结束语

当下物联网、大数据、人工智能迅速发展的背景下,智能电器产生的数据量已经非常庞大。电网企业如果通过这些海量数据,使用特定的技术手段挖掘其背后隐藏的经济价值,具有较大的研究意义。本文通过对某一小区居民用电能耗数据进行聚类分析,利用肘方法确定最优聚类数K,分析不同类型居民的用电行为,并提供优质高效的供电服务。结果表明本文所研究的内容具有一定的实用性。

参考文献:

[1] 王亚东,高岩,金锋.智能电表数据分析及应用综述研究[J].信息技术,2015,39(2):64-68.

[2] 王军.试论智能电表对电力需求侧管理的作用[J].中国设备工程,2019(14):202-203.

[3] 张彦涛.智能用电发展现状与趋势分析[J].通信电源技术,2018,35(8):182-184.

[4] 王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33.

[5] 赵莉,候兴哲,胡君,等.基于改进k-means算法的海量智能用电数据分析[J].电網技术,2014,38(10):2715-2720.

[6] 胡阳春.基于改进k均值聚类算法的电力负荷模式识别方法研究[D].成都:电子科技大学,2018.

[7] 王星.基于K-means聚类算法的荆州市居民用电行为分析[J].通讯世界,2019,26(8):276-277.

[8] 蒋勇斌,赵炜,曹晶晶,等.基于k-means聚类算法的用户复杂用电特征挖掘方法研究[J].电子设计工程,2020,28(18):11-15.

[9] 朱瑾.探讨智能电表数据突变产生的原因及预防措施[J].科学家,2016,4(12):73-74.

[10] 赵嫚,李英娜,杨莉.基于PCA和模糊聚类的用电行为分析[J].数据通信,2020(2):36-40.

[11] 王炳鑫,侯岩,方红旺,等.面向“削峰填谷”的电力客户用电行为分析[J].电信科学,2017,33(5):164-170.

【通联编辑:唐一东】

收稿日期:2021-11-15

基金项目:河北省高等教育教学改革研究与实践项目:新兴技术范式下的计算机专业课程教育教学方法创新研究与实践(2020GJJG243);2020年度河北省一流本科课程(计算机网络);2021年度河北省研究生课程思政示范课程建设项目:云计算与高级网络技术(YKCSZ2021162);河北建筑工程学院研究生教育教学改革研究项目:新兴技术范式下的研究生课程教学方法创新与实践(2020YJSJG08);河北建筑工程学院教育教学研究与改革项目:基于OBE理念的SPOC教学模式在计算机专业课程中的探究与实践(2020JY203);河北建筑工程学院教育教学改革研究与实践项目:基于校企深度融合的计算机专业全过程实践教学体系研究(2020JY114);基于新兴网络技术的智慧场馆电气设备能耗管控系统应用研究(项目编号:XY202146)

作者简介:赵万旗(1995—),男,陕西兴平人,硕士,研究方向为计算机网络及信息安全;通讯作者:孙皓月(1980—),男,河北张家口人,硕士生导师,研究方向为计算机网络及信息安全。

猜你喜欢
means算法
应用K—means聚类算法划分曲面及实验验证
K—Means算法及其在卷烟零售门店库存聚类分析中的应用
SIFT算法在木材纹理分类上的应用
基于K—Means聚类算法入侵检测系统研究
基于Weka的Apriori算法在原油产量预测中的应用
基于HSI颜色空间的小麦粉精度自动识别研究
基于百度地图的改进的K—means算法研究
基于数据抽样的自动k⁃means聚类算法