基于非参数核密度估计的电力市场用户电量异常数据辨识与修正方法

2022-01-21 07:57严明辉潘舒宸吴滇宁崔雪卢少平赵俊
现代电力 2022年1期
关键词:电量修正误差

严明辉,潘舒宸,吴滇宁,崔雪,卢少平,赵俊

(1. 昆明电力交易中心有限责任公司, 云南省 昆明市 650011;2. 武汉大学电气与自动化学院, 湖北省 武汉市 430072)

0 引言

2015年3月份党中央、国务院《关于进一步深化电力体制改革的若干意见》(中发[2015]9号)印发后,迎来了新一轮的电力体制改革。改革坚持市场化方向,以建立健全电力市场机制为主要目标,电力市场的建设也随着新一轮电改的推进而逐步前行。

随着电力现货市场建设的不断推进对交易结算环节中电量数据的可靠性与准确性提出了更高的要求。计量系统实际运行过程中,由于用户侧电表运行中出现的故障等问题,会出现跳表、死数等问题导致电量数据良莠不齐,造成数据的缺失与异常。对异常数据进行辨识与修正,保证电力市场用户电量数据的准确性,有利于维持电力市场的安全稳定运行。

关于电力系统异常数据的辨识,国内外专家学者已经提出过许多方法,有基于统计学的方法[1-2]、基于聚类的方法[3-8]、基于神经网络的方法[9]、基于密度估计的方法[10]以及基于T椭圆图的方法[11]等。

而电力市场用户异常电量数据的修正,各省份已编制出台的电力现货市场交易规则[12]中采取的传统的方法有插值法、相似日均值填充法等。这类传统修正方法的处理方式较为粗糙,无法对异常电量数据进行精确修正。为更加准确地修正电量数据,国内外学者提出了各种算法来修正异常数据。

文献[1]以历史负荷数据为基础,基于统计学的方法计算同一时刻电量数据的均值与方差来对异常数据进行辨识和修复。文献[3]采取基于模糊负荷聚类的方法进行负荷异常数据辨识与修正,利用模拟退火遗传优化的模糊c均值聚类算法获取负荷的特征曲线,并用于异常数据的辨识与修正,但该方法的修正效果依赖于聚类中心的准确度与聚类曲线的相似性。文献[4]以模糊c均值聚类算法为基础,引入快速爬山函数法对聚类算法进行优化,提取特征曲线进行不良数据的辨识与修复。文献[13]采取BP神经网络的方法进行负荷异常点数据的预测并应用于修正,但因网络各层间的权值和阈值确定不合理影响了修正效果。文献[14]采取基于聚类训练样本的遗传算法优化的径向基函数(radial basis function,RBF)神经网络对负荷数据进行预测并将其应用于异常数据修正,改进了神经网络结构参数选取的问题,但对样本数据的规模有较大的依赖性。

以上文献所述方法均应用于电力系统负荷数据处理,或是多用户负荷不良数据的辨识与修正,针对单一电力市场用户的异常电量数据的辨识与修正涉及较少。本文采用非参数核密度估计的方法对单一电力市场用户的电量数据进行研究,发掘其历史数据中的潜在规律,进一步提高异常数据辨识与修正的准确性。

核密度估计(kernel density estimation,KDE)方法是一种常见的非参数统计方法。从数据本身出发,对数据分布特征与分布规律进行描述,在各个领域都有其广泛的应用。文献[15-16]通过建立非参数核密度估计模型进行风电功率概率区间预测,结果符合真实误差分布,且概率区间预测效果良好。文献[17]则采用高斯核密度估计对电力系统短期负荷区间进行预测,也取得了良好的效果。

本文提出基于非参数核密度估计的电量数据辨识与修正方法,以期准确辨识电量异常数据。

1 基于非参数核密度估计的特征曲线提取方法

非参数核密度估计基于概率统计的思想,与参数估计相比,其无需利用经验对有关数据做出假设作为先验分布,对数据分布不附加任何假定,从数据样本本身特征出发,研究其分布特征,具有更加广泛的应用能力。因此,非参数核密度估计方法在应用领域受到了高度的重视。本文对样本用户一个月的电量数据进行非参数核密度估计,提取出一条日电量特征曲线,并将其应用于异常数据的辨识与修正。

1.1 特征曲线提取方法

该方法在电量特征曲线提取中的具体步骤如图1所示。

1)某用户第i日与第j日96点日电量数据为Xi=[xi1,xi2,…,xi96]T与Xj=[xj1,xj2,…,xj96]T,则该用户共n日电量数据为

2)非参数核密度估计中常见核函数有Uniform核函数、Triangle核函数、Gaussian核函数以及Epannechnikov核函数等。有文献指出核函数的选取对估计的渐进性质几乎没有影响,并且由于Gaussian核函数具有任意阶连续导数,有优良的可导性,且计算相对容易,故而本文采用Gaussian核函数作为非参数核密度估计的核函数K,其计算公式为

式中c为大于0的常数,K(x)满足:

3)根据非参数核密度理论计算该用户历史负荷数据第k时刻负荷值xk_num对应的概率密度函数fk(xk_num),其表达式为

式中:T为时序k下的样本点数目;h为窗宽;xik为第i日k时刻的电量值。

4)使用式(4)计算该用户各时刻对应的概率密度函数,形成最大概率密度向量曲线,Xmp=[xmp_1,xmp_2,…xmp_k,…,xmp_96]T,其中xmp_k为fk(xk_num)取最大值时xk_num对应的数值。

5)计算参与特征曲线提取的样本日i的电量向量Xi=[xi1,xi2,···,xi96]T相较于最大概率电量曲线向 量Xmp=[xmp_1,xmp_2,···xmp_k,···,xmp_96]T的 权 重wi,计算公式为:

式中 λ为用于调整di对wi的影响程度的可调参数,且 λ∈[0,1],而di为

6)对参与电量特征曲线提取的各样本日的日电量曲线按式(7)进行加权叠加以获得该用户的特征曲线,其计算公式为

1.2 窗宽的选取优化

在非参数核密度估计的应用中,窗宽h的选取对最终结果的影响至关重要。窗宽h选择过小,将使样本的局部波动特征对最终结果造成过大的影响,单一样本对整体模型影响较大,导致最终结果平稳性较低。窗宽h选择过大,将使核密度估计的预测精度降低,导致最终结果误差较大。

目前,求取窗宽h主要基于均方误差(mean squarederror,MSE)准则、积分平方误差(integrated squared error,ISE)准则和均匀积分平方误差(mean integrated squared error,MISE)准则。MSE准则仅考虑非参数核密度估计在某一个点处的估计优劣,ISE准则依赖于参与非参数核密度估计的样本,在不同次观测中将得到不同的结果,而MISE准则考虑了估计的全局优劣性[18]。故而本文采取MISE最小的方法来进行窗宽的选取优化。MISE的定义为

式中:结果的第1项是期望值与实际值之差平方的积分;第2项为估计值的方差积分。

将式(8)进行泰勒展开后求解可得:

将式(9)中的无穷小量忽略后,即可得到渐进积分均方误差(asymptotic mean integrated square error,AMISE):

对该结果求导,导数为0时,AMISE最小,此时最佳窗宽为

2 异常数据的辨识

采集到的电力市场用户电量数据中,常见的数据异常类型有数据缺失、数据异常跳变、表计死数造成的电量为零等。通过综合利用特征曲线与历史电量数据中所蕴含的信息,得到用户电量数据的可行域矩阵,可较为准确地辨识出电量数据中存在的异常数据,具体方法如下文所述。

1)对于历史电量数据样品集U,计算出该用户历史电量数据在同一时刻的最大值与最小值:

2)通过对比提取得到特征曲线Xd=[xd_1,xd_2,···,xd_96]与历史数据的电量最大最小值,应用式(13)可计算出历史数据域的上下限:

3)由电力公司结合历史经验确定各类电力市场用户允许变化的阈值系数Kt,计算出电量数据可行域的上下限:

4)利用计算出的可行域上下限形成电量数据的可行域矩阵,该用户的可行域矩阵为

当Xnew中 第i个 分量满足xnew,i≤xd_i时,利用式(17)计算待检数据下限:

当待检曲线的上下限均处于可行域范围内时,则认为待检曲线数据正常,无异常数据。当出现越限情况时,即可辨识出异常数据。

对识别出的异常数据,需由电力公司联系电力用户确认是否由突发情况或计划停电等因素引起的用电行为异常。若异常用电行为客观存在,则应对异常电量数据予以保留。

3 异常数据的修正

对于电力市场用户电量数据出现异常数据情况可根据出现异常数据点的个数分为单点数据异常与多点数据异常。

由于电力市场用户电量是由表码读数相减间接计算得到的,表码数据的单点异常将导致电量数据两点出现异常。此时采用插值的方法进行电量修正不仅计算简单,误差也较小。

当电量数据出现多点异常时,使用插值的修正方法将导致较大的误差。与传统的仅考虑异常数据点的相似日均值填充法不同,本文采取的修正方法还考虑了异常数据区间前后的正常电量数据中所蕴含的信息,使误差进一步降低。

通过电力市场用户电表出现异常数据区间前后的表码读数相减可得出异常数据区间的总用电量,与特征曲线对应的区间总用电量进行比较,再将特征曲线对应数据点的数据按比例进行缩放作为修正后的数据。实现方法如下所述。

根据1.1节所述方法提取得到用户日电量特征曲线Xd,通过电力市场用户异常数据区间前后的表码读数相减可得异常数据区间的总用电量Et,再根据特征曲线对应区间的总用电量计算出缩放比例Kd,即

式中:Et为 异常数据区间的总用电量;ei为特征曲线第i个异常数据出现时刻的电量数据;n代表异常数据点个数。

则第i个异常时刻的电量数据修正值为

4 算例分析

4.1 算例介绍

《广东电力市场结算实施细则》电量数据拟合办法中将电力市场用户的日期类型按时间属性分为工作日、双休日、国家法定节假日3种。参考该细则的日期类型划分,本文将某省电力市场用户2018年12月份工作日电量数据作为样本数据进行算例分析,该数据集以每15 min为一个数据点,共计 21×96=2016个数据点。在该数据集中随机选取数据点将其作为异常数据点,利用本文所提方法进行异常数据的辨识与修正,并将修正结果与线性插值方法、神经网络预测方法和相似日均值填充方法进行比较。

图2为该用户12月份工作日每一日的日电量曲线与所提取出的特征曲线。

4.2 异常数据辨识

根据该用户的类别由历史经验确定该用户允许变化的阈值系数为Kt=1.3,经计算可得该数据集的可行域如图3所示。

随机选取12月18日的第34至37数据点,将12月18日的第34,36数据点的电量数据放大为实际值的2倍,第35,37数据点的电量数据缩小为实际值的0.2倍作为异常数据点,采用本文所提方法进行异常数据的识别。

将异常电量数据曲线映射至可行域,其结果如图4所示。

从图4中可以看出,经过放缩后的数据点映射至可行域后明显越过了可行域的上下限,被识别为异常数据点,证明本文所提识别方法可准确识别出异常数据。

4.3 连续4点数据异常

对上例中选取的4个异常数据点分别利用线性插值、相似日均值填充、神经网络预测和本文所提方法进行修正,修正结果如图5所示。

表1为各方法的修复结果。相对误差结果如表2所示。进行100组随机试验后,各修正方法的平均相对误差如表3所示。

表1 电量数据修正结果对比Table 1 Comparison of corrected results of electric quantity data kW·h

表2 连续4点缺失情况下不同算法相对误差对比Table 2 Comparison of relative errors from different algorithms under four consecutive missing points %

表3 连续4点缺失情况下不同算法平均相对误差对比Table 3 Comparison of average relative error from different algorithms under four consecutive missing points %

从表1—2可以看出在修复电量异常数据点的数据时,各种方法都存在一定的误差,本文所提方法充分考虑了电量异常数据点前后数据的有效信息,因此修正误差在以上4种方法中最小。

从表3可以看出,通过100组随机试验后,线性插值方法所造成的平均相对误差较大,相似日均值填充与神经网络方法造成的平均相对误差接近,本文所提修正方法所造成的平均相对误差仍是最小的。

4.4 连续16点数据异常

在12月份工作日内随机设置连续16个电量异常数据点,分别采用4种方法进行数据修复。图6为随机设置的一组异常电量数据的修复结果。

本例中将12月20日的第35至50数据点作为异常数据点,由图6可知,在异常点数目较多时,线性插值方法已无法准确地描述曲线的变化趋势,误差较大。

在经过100次随机试验后,统计所得各种方法的平均相对误差如表4所示。

表4 连续16点缺失情况下不同算法平均相对误差对比Table 4 Comparison of average relative errors from different algorithms under sixteen consecutive missing points %

从表4中可以看出线性插值方法由于连续异常数据点较多,仅利用异常数据区间前后的表码读数无法还原异常数据点真实电量的变化规律,因此修复结果的误差较大。本文所提修正方法不仅考虑了异常数据区间前后的表码读数,还根据历史数据提取出了异常数据区间的变化规律,修正结果所造成的平均相对误差仍为几种方法中最小的,准确度最高。

4.5 连续多点数据异常

通过上述2组算例验证了本文所提修正方法的优越性。为了进一步验证本文所提方法的准确性,本文分别将连续异常数据点数目设置为2—96,再对4种方法分别进行100组测试,取其平均相对误差。修正结果的误差曲线如图7所示。

从图7中可以看出除线性插值的相对误差随异常点个数的增加不断增大外,其余几种方法随着缺失点数目的增加都有很好的适用性。除线性插值方法外的误差曲线如图8所示。

从图8中可以看出,相似日均值填充方法与神经网络方法在异常点个数不同时表现各有优劣,而本文所提方法在连续多点异常数据的修正表现上始终保持误差最低,准确性较高。

5 结论

为了解决在电力现货市场结算环节中所面临的计量电量数据异常问题,本文提出了基于非参数核密度估计的电力市场用户电量数据辨识与修正方法。本文所提方法可准确识别出电力市场用户的电量异常数据并对其进行修正。算例分析结果表明,与各省份已出台的电力现货市场交易结算规则中的线性插值、相似日均值填充方法以及神经网络方法相比,本文所提方法在连续多点电量数据异常的修正过程中准确度最高,可为电力现货市场结算环节中对日分时电量数据异常处理问题提供技术支撑。

猜你喜欢
电量修正误差
储存聊天记录用掉两个半三峡水电站电量
修正这一天
物联网智能燃气表电量自补给装置
对微扰论波函数的非正交修正
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
精确与误差
九十亿分之一的“生死”误差
Pro Tools音频剪辑及修正
压力表非线性误差分析与调整