基于EMD-RVM的风电场机组分组功率预测

2021-05-20 08:41张晋华黄远为
分布式能源 2021年2期
关键词:风电场分组聚类

张晋华,冯 源,黄远为,阎 洁

(1.华北水利水电大学电力学院,河南省 郑州市 450045; 2.新能源电力系统国家重点实验室(华北电力大学),北京市 昌平区 102206; 3.华北电力大学新能源学院,北京市 昌平区 102206)

0 引言

风电功率预测技术能够较好解决风电调度困难、备用增加等问题[1-2]。现阶段大型风电场具有风电机组数量多、地理位置分布较广阔等特点,风电场内每台机组的功率输出都有其不同的输出特性[3]。如果能够对机组进行合理聚类,便于调控、提高预测时效性和降低风电机组的维护保养费用,对提高风电场整体运营效率有益[4-6]。

国内外学者针对风电机组分组功率预测已经进行了大量研究。文献[7]采用支持向量机(support vector machine,SVC)算法,利用风速、风向及风电机组位置为输入对象,选取概率最大的分类结果来代表整个风电场的全年运行情况,该算法降低了风电场单机等效建模的误差。文献[8]提出一种基于构造扩散距离的风电机组分类聚类算法,该方法利用风机的实测数据建立基于高斯权重的Markov转移矩阵,最终得到最佳的风电机组聚类结果。文献[9]利用自组织特征映射网络和基于模拟退火遗传算法的模糊C均值两种聚类算法,建立了风电发电机组的优先级分类模型。比较了两种聚类算法,证明优化操作使用遗传模拟退火模糊C均值聚类算法(simulated annealing and genetic algorithm-fuzzy C-means clustering algorithm, SAGA-FCM)算法可以减小相对于自组织特征映射方法的风力发电场的总疲劳损伤,减小了风力机损耗,并验证了优化调度前对风电场进行分类的优越性。文献[10]基于优化相关向量机算法对风电机组进行分类,基于分类结果建立各机群的预测模型,验证了分类预测的必要性。

上述研究证明了合理的机组分类能够简化风电场分组模型、提高预测精度。但是,现有研究仍然存在以下不足:①现有的方法主要研究风电场机组的分组建模算法,但很少涉及关于机组数目是否影响聚类结果的研究。②由于风功率时间序列的非线性和波动性,增加了聚类结果的不确定性,现有研究缺少聚类输入对分组预测精度的影响进行分析。

针对以上问题,提出一种基于戴维森堡丁指数与聚类算法的风电场机组分组功率预测方法,同时将经验模态分解(empirical mode decomposition,EMD)应用到机组聚类和功率预测中。研究算例表明,合理的机组分组个数对聚类精度的提升有较大帮助;针对高相关性的固有模态函数(intrinsic mode function,IMF)进行建模分组,不仅有效降低了信号的波动性,最大程度地还原了真实信号,基于经验模态分解-相关向量机(empirical mode decomposition-relevance vector machine,EMD-RVM)预测模型的结果也表明,聚类精度的提高有效提高了预测效率和预测精度。

1 风电场分组模型

1.1 风电场分组模型输入变量的选取

模型输入和参数设置直接影响数学模型的质量。风电场分组模型的建立,必须从影响风电场模型分组实效性的2个重要输入参数入手,即分组模型的输入变量和风电场分组数[11]。

各机组的输出功率受风速、风向、温度和压力的影响,包含诸多关于机组的信息,能较好代表风电机组的运行特性。然而,考虑到风机或仪表的故障对功率数据的污染,仅仅将实测功率作为模型的单一输入变量,可能会对分类结果带来较大误差。

因此,在现有的风电场实测数据中,选择实测风速、实测功率作为模型输入,比较分析以功率、风速为单一变量和二者相结合的复合变量对分类准确性的影响,为风电场群模型建立时输入变量的选择提供合理依据。

1.2 聚类算法的选取

1.2.1 K-means聚类算法

在给定聚类组数K值的条件下,n个样本数据经过多次迭代分成K组,使聚类之后各组数据与所在组的聚类中心的距离总和最小[12]。对于n×m维向量的数据集X(t)=(x1,x2,…,xn),K-means算法模型的目标函数为:

(1)

K-means算法的建模步骤为:

(1) 输入机组分类数目K值和待聚类的N个样本数据对象(K≤N);

(2) 初始聚类中心选为与分类数目相同的K个样本对象,并保证样本的随机性。

(3) 按照距离最近原则,将计算得到的每个样本对象与聚类中心的距离,赋给最近的类;

(4) 新的聚类中心选择为(3)步中每类数据对象计算得出的平均值;

(5) 重复(3)(4),直到聚类中心不再发生变化。

K-means聚类算法具有算法简单、无监督学习的特点,在处理大数据集方面应用广泛。除K-means算法外,本文另采用遗传算法优化蚁群聚类[13]和谱聚类[14]两种聚类算法,分别以风速、功率和两者的组合作为风电场分组模型的输入变量,对场内风电机组进行分组,将着3种算法进行对比。

1.2.2 戴维森堡丁指数

戴维森堡丁指数(davies bouldin index,DBI)是一种非模糊型的集群评估指标[15],其定义为

(2)

式中K表示为数据集的所有聚类个数。

类间距离表示为第i个类vi与第j个类vj的欧氏距离,即:

Dis(i,j)=‖vi-vj‖

(3)

Si为类间标准误差,表示为第i个聚类Ci中每一个数据点x与该类的中心点vi之间的欧氏距离标准误差和,即:

(4)

其中Ni表示第i个聚类Ci包含的数据对象个数。

本文采用DBI作为聚类算法的准则函数,DBI的分子表示类别内的距离,DBI的分母表示类别间的距离。良好的聚类结果应满足同一类别之内的相关性较大,而类别之间的相关性较小,即分子尽可能小,分母尽可能大。因此,对于不同的分组数,其DBI指数越小,则说明聚类个数与真实聚类个数误差越小[16]。

1.3 经验模态分解

EMD是由N E Huang于1998年提出的信号处理方法[17]。经验模态分解是一种自适应的数据处理或挖掘方法,根据信号中频率或波动趋势的不同将原始信号分解成为一系列IMF。IMF分量是具有时变频率的震荡函数,能够反映出非平稳信号的局部特征,这保证了分解过程中保留数据的本身特性。

由于风电场机组实测数据的非平稳性和振荡性,为了消除机组聚类误差,首先对风电场机组的实测数据进行经验模态分解,得到多个具有不同特征尺度的本征模态函数IMF和一个残余序列r。EMD分解功率时间序列x(t)的主要思路如下:

1) 寻找信号全部极值点,对极大值做3次样条插值形成上包络线,对极小值做3次样条插值形成下包络线。

2) 计算上下包络线均值m1(t),将原始时间序列x(t)与m1(t)的差定义为

h1(t)=x(t)-m1(t)

(5)

若h1(t)满足IMF的条件,记h1(t)是x(t)的第一个IMF分量。

3) 若h1(t)不符合IMF条件,将其视为新序列信号,重复前两个步骤,直到满足条件停止。

4) 将c1(t)从原始信号x(t)中分离得到:

r1(t)=x(t)-c1(t)

(6)

5) 将得到的差值r1(t)作为初始时间序列,重新进行步骤1)~步骤4),得到n个IMF分量以及一个最终剩余量rn(t)。

直至rn(t)≤δ(t)停止循环,δ(t)为限定值。

1.4 相关性分析法

相关性分析是研究2个或多个随机变量之间相关程度的一种统计方法,相关系数r用于判断变量间的关联性及关系紧密程度,其绝对值越大,二者相关性越强[18]。设2个样本变量为xi和yi,相关系数为

(7)

1) 0<|r|≤0.3,基本不相关;

2) 0.3<|r|≤0.5,低度相关;

3) 0.5<|r|≤0.8,中度相关;

4) 0.8<|r|≤1,高度相关。

式(8)表示机群内每台机组与其他机组的相关性平均值。假设某一组机群内机组数为n,计算得出组内各台机组之间的相关系数,取最高者作为该分组机群的代表性机组。

(8)

风机的实测功率受地形、季节、风向和风速等多种因素的影响,与各机组的出力特性有直接的联系。因此本文考虑对各机组的实测功率之间的关联度进行分析,进而选出组内有代表性的风电机组。

2 K-means分组功率预测模型

2.1 模型构建

选用K-means聚类算法,风电场机组分组功率预测模型按照图1的结构框架进行建立,上半部为分组模型,下半部为预测模型。

具体步骤包括:①根据已知风电场数据,选择历史风功率数据作为风电场机组分组模型的输入变量;②风电场机组分组个数K由戴维森堡丁指数求得;③分别采用K-means聚类、遗传算法蚁群聚类和谱聚类这3种聚类算法根据机组相似性划分场内机组;④对划分好的机组,进行EMD分解得到一系列具有不同特征尺度的IMF分量;⑤根据相关性去除伪分量,将分解后的结果重构以后,重新作为K-means聚类算法的输入,进行场内机组分组;⑥对分组后的每组机群分别建立(EMD-RVM)功率预测模型,得到各机组群预测功率;⑦最后将各机组群预测功率叠加,得到整场预测功率。

图1 分组功率预测模型结构Fig.1 Grouping power prediction model structure

2.2 相关向量机算法

相关向量机(relevance vector machine,RVM) 是2000年提出的一种稀疏概率模型算法[19],是基于贝叶斯框架构建的小样本概率学习方法,获得回归函数和概率分类函数,权重的数量相应减少,这使得获得稀疏模型成为可能。在解决小样本、非线性及高维模式识别等问题中,RVM用较短的时间完成了预测,具有许多特有的优势[20]。

构建RVM预测模型的步骤分为下面几步:

1) 对原始风电功率数据进行预处理,在原始数据层面尽可能减小数据污染,剔除由于机组或仪器故障导致的缺失和不合理数据。

2) 选择几组不同的核函数和参数对步骤 1)得到的数据进行优化训练,优化过程中要进行多步迭代,因此这步消耗的时间最多。

3) 在不同核函数训练集中选取误差最小者作为合适的核函数,相对应的参数即为最优参数。

4) 选择上一步得到的最优参数对样本进行学习,如果对得到的预测误差不满意,则返回步骤 3),重新选择参数进行学习,如对结果满意则执行下一步。

5) 输入数据集,进行预测,最后进行误差分析。

2.3 预测精度评价指标

评估风电预测结果的指标通常基于均方根误差(root mean squared error,RMSE)和平均绝对误差(mean absolute error,MAE)。均方根误差主要考察预测误差的分散程度和整体精度,平均绝对误差主要考察预测误差的平均幅值[21]。公式分别式(9)和式(10)。其中,均方根误差能给出更好的评价,故本文选用均方根误差作为预测精度的评价指标。

式中:Pai和ppi分别为i时刻的实测和预测功率;PN为风机额定功率;n为预测模型的样本个数。

3 算例分析

3.1 数据

本文研究数据来源于北方某风电场的33台1.5 MW机组群,获取的数据主要为系统采集的33台风电机组2011年1月1日到6月10日的实测风速、实测输出功率数据,时间间隔为15 min。剔除因机组限电、故障、检修等原因造成的异常数据,时间点并不是完全连续的,一共采集到了6 839个数据点。功率预测流程如图2所示。

图2 功率预测流程图Fig.2 Power prediction flow chart

3.2 数据分析及预处理

3.2.1 数据分析

为了降低数据的维度和计算的复杂度,合理选择模型的输入变量是重要一步。样本数量不够大,结果没有代表性;样本数量太多,结果存在较大误差。本文拟合了不同机组输出功率间的相关散点图如图3—4所示。

通过数据拟合分析可知,不同机组输出功率间的相关性也不同,如图3所示,5号机组和6号机组间的风电出力相似性要明显高于5号和16号机组间的风电出力相似性。图4中的不同机组风速相关散点图也印证了这一点,即对于同一型号的风机,风速的相似性很大程度上也反映了风电出力的相似性。

3.2.2 预处理

为了降低高维复杂数据对聚类算法精度的影响,在筛除不合理数据后,利用式(11)—(14)对33台机组数据进行降维处理。同时考虑到实测功率和风速的量纲不一样,数值区间跨度较大,因此按照式(15),即归一化的标准公式对降维处理后的数据进行归一化处理。

图3 不同机组输出功率相关散点图Fig.3 Scatter diagram of output power of different units

图4 不同机组风速相关散点图Fig.4 Scatter diagram of wind speed of different units

3.3 机组最佳分组个数结果分析

K-means算法、遗传算法优化蚁群算法和谱聚类3种算法分别采用实测风速、实测功率、二者同时考虑作为分组模型的输入变量。分组个数较少时,机组没有代表性;分组个数过多时,容易出现不合理孤立机组的情况,从而降低计算效率。因此将分组个数取值设定为2~8,戴维森堡丁指数(λDBI)随分组个数变化的曲线如图5所示。

从图5可以看出,K-means、遗传算法优化蚁群算法和谱聚类算法的DBI都随着组数的增加而呈下降趋势,当组数从2增加到5时,相应的戴维森堡丁指数明显下降。当分组数增加到6、7或更多时,预测精度的提高很小,不能弥补由于分组数量增加而造成的大量计算损失。通过以上分析,可以得出本算例的最佳分组个数为5。三种聚类算法下,按风速、功率作为单一变量和二者复合变量得到的预测均方根误差如表1所示。

由表1分析可知,风速是影响风电场分组结果的主要因素,对于不同的算法,功率也可作为聚类的重要补充。考虑风速和功率同时作为输入后聚类效果反而没有单一输入好,这可能与风速有较强的规律性,并不过度依赖算法有关。

本文分别选取功率作为K-means聚类算法的输入,风速和功率同时作为遗传算法优化蚁群算法的输入,风速作为谱聚类算法的输入对机组进行聚类。同时选取K-means聚类算法进行经验模态分解后的数据重组。

3.4 EMD分解及伪分量的去除

以3号机组为例,用于建模的历史风功率数据共有2 880个时间间隔15 min的数据点,功率原始序列如图6(a)所示。

由图6可知,该功率时间序列被自动分解为9个IMF分量及1个残差r10。但由于采样率不足及样条插值的原因,IMF分量谱中存在许多与信号无关的低频成分。如果对每个IMF分量都进行建模,不仅增加了工作量,降低工作效率,而且由于模型过多容易造成误差积累,降低预测精度。

图5 不同分组个数与戴维森堡丁指数的关系Fig.5 Relationship between the number of different groups and Davidson-Boding index

表1 不同分组模型预测误差对比Table 1 Comparison of prediction errors of different grouping models%

图6 EMD分解的功率分量Fig.6 The power component of EMD decomposition

因此可以根据信号各个IMF分量和原信号的相关系数来去除伪分量。具体做法是:计算各个IMF分量与原信号的相关系数,设置阈值为相关系数序列中最大值的十分之一。

各个IMF分量与原信号的相关系数如表2所示。此时,阈值为0.076 37,所以只有IMF1、IMF2、IMF3和IMF7被保留下来了。考虑到孤立点和噪声数据对聚类算法的影响,首先对功率序列进行经验模态分解处理,尽管这些处理会导致部分信息的丢失,但更多的是噪声信号和孤立点的滤除,重构信号与原信号的相关系数为0.995。

表2 各IMF分量与原信号的相关系数Table 2 Correlation coefficient between each IMF component and the original signal

将分解后的结果重构,作为K-means聚类算法的输入对全部33台机组的数据做模态分析然后聚类,对这每个分组分别建模,建立的模型称为EMD-K-means分组模型。

3.5 代表机组选取及功率预测结果分析

表3为同一组机群内5台风电机组(5号,6号,7号,8号和9号)间的功率相关性系数。从表3可见,功率相关性系数平均值最高(0.969)的是5号机组,其他4组的代表机组都选择为相关性最高的机组。

表3 组内机组间功率相关性系数Table 3 Inter-unit power correlation coefficient

根据戴维森堡丁指数的结果分析,将风电机组分为5组,分组模型的结果如表4—5所示。4种分组模型将实例风电场划分为5组机群的运行时间如表6所示。

表4 K-means分类结果Table 4 K-means classification results

表5 EMD-K-means分类结果Table 5 EMD-K-means classification results

表6 分组模型运行时间对比Table 6 Grouping model run time comparison

由表6可知,谱聚类算法的运行时间最短,为0.27 s,主要是因为谱聚类对给定数量群的结果是唯一的,不需要迭代计算,算法识别样本向量中的关键信息而忽略了次要信息,计算复杂度低。遗传蚁群算法的全局优化耗时长,计算时间最长,为238.53 s。K-means算法由于聚类结果的可变性,需要10次迭代计算才能选出最佳的分组结果,这使得它们的运行时间更长。但经过EMD分解后的重组聚类由于降低了数据的复杂度,缩短了运行时间,较好的提升了运行效率。

每组风机选取960个数据作训练样本,192个数据作为测试样本,采用改进的EMD-RVM算法预测未来24 h风电场短期功率。在Matlab平台下,对EMD分解后的各分量分别构建RVM预测模型,将这些预测分量进行叠加获得最终预测值。同时,对分组风机使用RVM预测和实测值进行对比,预测结果如图7所示。

图7 未来24h功率预测值与实测值对比图Fig.7 The comparison between the predicted power value and the measured power value for 24 h in the future

图8 风电场输出功率预测值和实测值间的相对误差概率分布Fig.8 Relative error probability distribution between the predicted and measured output power of wind farm

图8为风电场输出功率预测值和实测值间的相对误差概率分布情况,根据图8所示,分组预测后得到的预测功率相对误差分布柱状图比未分组的误差分布柱状图更瘦高,在零附近分布的更多。这说明对风电机组进行分组预测准确度更高一些。

几种模型的误差指标,见表7。由表7可知,相对于单纯的RVM模型,基于EMD-RVM具有较高的预测精度。其绝对误差(MAE)降到了6.95%,均方根误差(RMSE)降到了9.67%,运行效率也有提升。而且在各预测点的值与实际值的接近程度都有了一定提高。RVM模型和EMD-RVM模型的预测误差均小于未分组模型的预测误差。实验证明,机组分组预测方法不仅保证了预测的准确性,而且提高了运算效率。

表7 不同预测模型预测误差对比Table 7 Comparison of prediction errors of different prediction models

4 结论

本文提出了一种基于戴维森堡丁指数的风电场机组分组功率预测方法,将经验模态分解引入到机组聚类和预测中。以北方某风电场的实测数据为算例,得出以下结论:

1) 仿真算例表明,机组的分类个数受聚类算法的影响,合理的风电场机组分类对风电功率的预测具有促进作用,提高风电功率的预测准确度的同时提高了计算效率。

2) 经验模态分解可以很好地解决原始风功率序列的波动性,还原真实信号的同时有效提高了聚类精度。同时,聚类的准确性也为预测的精度提供了保障。

本文仅从外部对聚类数据进行早期的预处理,降低复杂度,但机组聚类算法还有待完善;本文仅考虑了风速和功率作为聚类的依据,后续仍需考虑其他变量因素,如风向等参数。

猜你喜欢
风电场分组聚类
基于K-means聚类的车-地无线通信场强研究
分组搭配
基于PSS/E的风电场建模与动态分析
怎么分组
巴基斯坦风电场环网柜设计
分组
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
含风电场电力系统的潮流计算
海上风电场工程220KV海底电缆敷设施工简介