基于LSSVM的用户异常用电行为辨识研究

2021-07-21 03:18梁广明黄水莲
青海电力 2021年2期
关键词:台区用电量用电

梁 捷,梁广明,黄水莲

(1. 广西电网有限责任公司计量中心,广西 南宁 530023;2.南宁百会药业集团有限公司,广西 南宁 530003)

0 引言

在电力系统中,恶意窃电或计量设备故障会导致用户用电数据质量下降〔1〕。此外,低压台区表计等设备的故障目前主要由客户自行发现和报修,电力客服再安排现场工作人员进行处理,这一方面增加95598业务量,另一方面处理周期长,易导致客户投诉。为了辨识出异常用电的用户或故障电表,需进行用电数据异常识别。目前常见的主动识别方法是通过在计量自动化主站采用人工方法排查异常数据,存在计量数据管理工作负担重,且异常数据识别效率低的问题。

文献〔2〕首先通过岭回归模型对用电数据进行训练,然后将训练好的模型用于异常用电行为的自动检测。但回归模型训练时若建模参数选择不当,易出现过拟合的问题。对此,本文提出了一种基于最小二乘支持向量机(Least Square Support Vector Machine,LSSVM)的用户用电异常识别模型。它首先通过LSSVM算法对用户的用电状态进行分类,然后将相应的分类结果与典型低压用户用电异常指标进行匹配,最后通过案例分析验证了本文算法的可行性。

1 用电异常特征分析

南方电网费控电能表目前支持低压居民用户多种类型用电数据的自动采集并上传到计量主站。计量主站可实时监控并存储各用户的电流、电压、有功/无功功率以及功率因数等信息〔3〕。当用户正常用电时,这些用电数据以时间序列的格式存储在计量主站中,数据具有一定规律性,例如表码连续平稳增加,电压围绕额定值小幅上下波动等;当用户用电行为不正常时,电表采集到的用电数据通常会出现某些数值突变,或波形中出现明显峰谷等异常特征〔4〕,这里电力客服关注的用电异常原因主要是未查明的计量设备故障和用户的窃电行为等。

本文建立了包含4种特征指标的用电异常行为典型特征库I,用于在大量数据中区分出存在异常用电行为的用户及其异常出现的时段,其定义如下:

(1)I1表示用电量突变指标,表示当前和历史用电数据之间的差距,定义为最近α天用电量除以最近β个月的平均用电量,即:

(1)

其中:α、β和T分别为当前待分析的日、月和小时时间段数,j∈α,l∈β,k∈T;mi为第i个用户的用电数据。

(2)I2表示单位用电数据采集时间片内用电数据变化的指标,定义为当前用电数据采集时间片内用电量与历史同期用电数据采集时间片内平均用电量的差距,即:

(2)

其中:v代表欧氏距离,不同v值的差异表示绝对用电量之差。

(3)I3表示具有类似特征的用户之间用电数据差别的指标,定义为在单位时间段内,当前用户i的用电数据与具有类似特征的用户集群之间的差距,即

(3)

其中:Ri表示与用户i具有相似特征的用户集,r∈Ri。

(4)I4表示具有“候鸟”特征的用户用电数据差别的指标,定义为在I4特征周期内,当前用户i的用电数据与具有“候鸟”典型特征的用户集群之间的差距。

“候鸟”用户多为外出务工人员,其特征为每年春节等长假前后,该类用户中的外地务工人员像“候鸟”一样返乡,形成用电高峰,其他时候的用电空窗期用户家中无人或仅有留守老幼。可见,该类用户的月用电量均值仅在每年的1~3月春节期间达到用电量高峰,同时负荷出现正常波动,其余月份无用电或用电量极少。据此,本文选择用户用电量时间序列数据集的月均值和月标准差作为异常识别的特征指标,以月为I4特征周期对待分析数据集中各个特征指标ni进行提取。

I4根据原始用电数据的上述特征指标。以欧氏距离作为相似测度,即

(4)

其中:Rq表示“候鸟”典型特征用户集,可通过用户抽样调查确定,p∈Rq。

2 基于客户标签的数据清洗

由于异常用电行为识别的原始数据来源于电网公司计量自动化主站的自动抄表数据,可能存在数据采集缺失,采集异常(零电量,负值或个别偏离曲线过远的异常点)等数据质量问题。其中零电量采集异常表现为整个时间段内用电量为0或缺失严重,其原因主要包括候鸟用户等特殊用户的空窗期,现场检修或计划停电,欠费停电或欠费停电但缴费后系统未自动复电,表计失压、失流、断相、功率因数过低、电流极性接反等表计故障,时钟超差,档案不一致等计量终端故障,或者进户线等计量设备故障等四个方面的非窃电情况,以及窃电情况。

值得注意的是,对这些采集异常的数据,无法通过它判断用户的用电异常与否,且这些数据若直接作为异常识别模型的输入数据,还可能增加训练难度,影响模型的识别准确性。为了通过数据分析辨识出反窃电等客服关注的信息,需通过数据清洗来提高数据的可用性。数据清洗包括检查数据一致性,处理异常值和缺失值等步骤,缺失值、负值以及偏离曲线过远的异常值处理参考文献〔5〕。根据零电量异常的各种情况,本文针对该类异常值给出如下方案进行数据清洗:

(1)读取客户标签:客户标签包括该类用户的户号、电能表编号、购电记录、运维记录、所属区县、线路和台区等用于确认客户身份的信息,同时确定分析时间范围。

(2)分类甄别:a.从营销信息系统导出或由运维人员提供停电数据,匹配客户标签,确定停电影响的用户和时段范围,在后续处理中将其排除。必要时可将该部分异常用户数据以文件形式导出,然后依据用户标签,通过人工复检的方式来判断该用户是否异常。若发现零电量异常值并不属于计划停电或检修停电,可以将其设定为待分析故障进入下一步。b.类似a过程核对剩余电量和购电记录,客户该时段情况的查询结果为“欠费停电”则排除,若客户实际电费余额不为零且有欠费停电操作,则分析为“系统未自动复电”,若查询结果为客户电费余额为零,且无欠费停电操作则进入下一步。c.根据“候鸟”用户特征指标,通过本文第1节“候鸟”特征指标和本文LSSVM模型识别出是否属于候鸟用户。d.类似a过程识别已知的故障用户,即结合系统监测到的信息,例如配电线路或配电变压器是否发生过载或失压的情况,以及近期计量故障运维工单信息识别出是否属于计量设备故障。

(3)数据修正:对上述a、b和c类和其他不属于上述类别的异常数据进行删除。对d类数据,按故障时段取同期时段的平均值补全。

3 基于支持向量机的电力数据异常识别

用户用电异常行为识别从数据挖掘理论的角度可视作对用户用电状态的分类问题。但随着用电异常行为典型特征库I的完善,数据异常识别时对所有用户逐一计算各指标时工作量较大。故本文基于用户用电信息,首先利用LSSVM建立异常用电识别模型,然后通过该模型对各用户的用电状态开展快速异常识别。该识别的目的是根据用户数据样本曲线间的相似程度将数据进行初步筛选,根据当前数据与历史数据的差距大小辨识出正常和异常的数据。

异常用电识别模型的输入是用户用电数据。与其他分类方法相比,支持向量机的优点是对输入空间和训练集的维数不敏感,故本文模型基于LSSVM算法,其基本原理如图1。

图1 LSSVM的基本原理

在图1中,实心点和空心点分别表示正常和异常用电数据的特征点。H是分类面。H1和H2分别是通过最接近分类面且平行于正常和异常数据特征点的直线。H1和H2之间的距离称为分类边距。支持向量机的目标是找到最佳分类面,使正常和异常数据点集之间的差距最大。分类面方程如下:

(wx)+b=0

(5)

其中:x是用电数据的特征点,w,b是分类平面方程系数。

LSSVM进行异常识别,研究对象为历史日训练特征样本集(x1,x2,...,xn),g,h∈n。为找到最优分类面,使其对所有样本均能够正确分类且距离之和最小,应满足以下条件:

yg[(wx)+b]≥1

(6)

其中:yg为用电数据的序列标签。由图1可知,分类边距为2/‖w‖,则问题变为以式(7)为目标函数,式(6)为约束的优化问题:

minΦ(w)=1/2‖w‖2

(7)

为了求解该问题,由Lagrange乘数法,建立辅助函数L

L=1/2‖w‖2-a{y[(w·x)+b]-1}

(8)

式中:a>0为Lagrange算子。为了使得该模型与历史数据的结果差距最小,本文采用最小二乘法对模型进行训练,目的是确定模型参数w*和b*。最小二乘法通过寻找该模型不同参数下的最小方差以获得最优模型参数〔6〕。由于上述二次规划问题的约束最优解必然使得在该鞍点处对w和b的偏导为0,则由线性规划的对偶理论,该问题的对偶问题如下:

(9)

(10)

对偶问题的优化解为

(11)

a*对应的参数值为

(12)

(13)

则可得最优分类函数为

f(x)=sgn{w*·x+b*}

(14)

其中:sgn函数返回一个0~1整型变量,表示识别模型输入的用户用电数据是否异常。

综上,本文用户异常用电识别的主要步骤如下:

(1)根据异常用电用户识别的目的和用电信息采集平台的大数据来源,将所获取的用户用电量测数据分为训练样本与测试数据,构建LSSVM识别模型的输入数据集,并调整该模型的输入数据种类和数据密度,确定最终的特征输入数据集,以平衡算法性能和识别准确度需求。

(2)数据清洗。按第2节所述对缺失点和异常值进行处理。

(3)根据历史数据对LSSVM模型进行训练,确定最优分类函数,然后根据该函数将测试数据分辨出异常数据组;

(4)从异常数据组中提取各类数据的特征曲线,根据专家经验和聚类理论分析其与前文介绍的四类指标的匹配情况,判别是否存在用电异常行为。

4 案例分析

4.1 识别结果分析

为验证本文算法的有效性,以广西某地市的三个低压居民台区为测试样本。该样本包括945个用户1 095天用电量的真实数据。根据本文方法进行异常识别,结果见表1。

表1 样本数据清洗和异常识别结果

由表1可见:根据本文第2节方法对原始测试样本中的异常数据进行分类甄别后,各台区的有效样本规模均下降,平均下降幅度约为13 %,有利于排除正常用户,减少后续用电行为异常检测的误差;各台区中台区1具有候鸟特征的用户数占比较高,达到19.6 %,其它两个小区的该类用户均不超过10 %,结合客户标签和台区信息,占比情况与台区1是商业楼盘,台区2和3是企事业单位的职工生活小区的实际情况相符;对各台区的测试样本,本文方法均能有效辨识出异常用电用户,辨识结果示例见图2。

图2 本文算法辨识结果示例

图2为本文LSSVM算法辨识结果示例,其中黑线为案例中某用电正常用户的月用电量曲线,红线为某异常用户的曲线。从图2可见,用电正常用户的月用电量曲线整体的变化趋势较为平稳,波动较小,使得用电量突变指标较小;而用电异常用户的用电曲线月初为较小的值,但月中旬突然出现较大的用电量波动,用电量突变指标较大,故辨识为异常。查询营销系统发现该用户月中旬有换表记录,进一步调查发现,用电异常的原因是换表时更新客户档案有误,系统档案中的表编号与实际不符造成的。

为比较不同异常识别算法的区别,定义分类准确度评价指标γ如下:

(15)

其中:NTP、NTY、NFP、NFY分别表示算法正确识别的异常电表、正确识别的正常电表、错误识别的异常电表、错误识别的正常电表数量。

图3为k-NN算法〔7〕、随机森林(RF)算法〔8〕和所提LSSVM算法对同一样本集的分类准确度。由图3可见,与k-NN和RF算法相比,本文算法的分类精度比k-NN和RF算法分别高出约4 %和5 %。由于本文算法区别于文献〔8〕的人工智能算法,不涉及随机搜索过程,优化质量不受随机测度的影响,同时区别于文献〔7〕的k-NN算法,优化结果不受到k值初始取值的影响。本文方法理论基础坚实,故能获得更好的分类效果。

图3 不同算法的分类精度

4.2 执行效率分析

为比较不同算法的执行效率,采用文献〔7-8〕和本文算法对上节的样本集进行用户用电数据异常识别。图4为不同算法被执行10次过程中每次执行所用的计算时间。

图4 不同算法的执行用时

由图4可见,识别相同数目的电表,本文方法与文献〔7-8〕中的方法相比,算法的平均执行时间可分别节省约7 %和40 %。本文提出的识别算法基于最小二乘支持向量机算法,该方法算法的复杂性主要取决于输入向量的数目,受样本空间的维数影响较小。本文方法在形成输入样本前对样本规模做了控制,使算法在二次规划问题求解时的矩阵的阶数在可以承受的范围内,故LSSVM算法与其他两种算法,尤其是与基于随机人工智能搜索的RF算法相比具有较高的执行效率。

5 结论

研究了一种基于最小二乘支持向量机的低压用户用电异常识别模型。通过利用LSSVM算法区分电力量测量数据是否存在异常,并将异常数据组的特征数据与典型用户用电异常指标进行匹配,有利于数据运维人员及时发现恶意窃电或计量设备故障。案例分析结果表明,该算法具有较高的分类精度和执行效率。如何推广本文算法的适用范围和建立更丰富的典型异常用电特征库,值得进一步研究。

猜你喜欢
台区用电量用电
01 国家能源局:3月份全社会用电量同比增长3.5%
低压台区三相不平衡治理的换相优化方法
计及分布式光伏的农村配电台区断零故障分析
基于大数据的台区线损管控系统的设计与实现
国家能源局:3月份全社会用电量同比下降4.2%
对输配电及用电工程的自动化运行的几点思考
用电安全要注意
用电监察面临的问题及反窃电对策
基于用电信息采集系统的台区线损管理研究