基于高斯混合模型的光伏发电功率概率区间预测

2021-09-13 02:27郑常宝胡存刚
科学技术与工程 2021年24期
关键词:正态分布出力高斯

周 帆, 郑常宝,, 胡存刚,*, 芮 涛

(1.安徽大学电气工程与自动化学院,合肥 230601;2.教育部电能质量工程研究中心(安徽大学),合肥 230601)

随着世界经济的进一步发展,大力发展可再生能源逐渐成为人们共识。可再生能源中太阳能的开发利用已成为当前能源转型中的重要领域。光伏发电是一种利用太阳能的有效方式,但光伏发电的高随机性和易波动性会影响电网的稳定安全运行,所以光伏发电功率的预测技术显得十分重要。

传统的光伏发电功率预测方法多为时间序列预测法[1-2]、回归模型预测法[3-4]和神经网络法[5-6]等确定性点预测方法,但确定性的点预测包含的信息有限,难以表征光伏出力的不确定性[7]。为了获得更精确的光伏发电功率信息,减小光伏出力变化对电力系统带来的不利影响,光伏发电功率概率区间预测的研究逐渐受到重视。其作用主要体现在:①在制定含光伏的电力系统的鲁棒调度计划时可提供准确的出力波动范围[8-9],避免由于调度计划过于保守、优化区间过大造成的经济性损失;②更准确的光伏发电功率信息可以为潮流的计算提供帮助[10-11],为系统调度提供参考。

目前,光伏发电功率概率区间预测的研究中多假定光伏发电预测产生的预测误差服从于单一分布模型。文献[12]采用正态分布估计光伏出力预测误差, 将光伏点预测结果叠加上一个正态分布构成光伏概率型预测模型。文献[13]将光伏输出功率预测误差看待为正态分布变量,综合风光荷出力成本等目标,建立电力系统经济优化调度模型。文献[14]结合实际数据,将光伏出力短期预测误差分布近似为正态分布,并据此配置储能装置容量来平滑功率波动、提高系统经济性。文献[15]通过求取概率分布函数来计算一定置信水平下的光伏出力预测区间。但正态分布不能很好地描述光伏发电预测误差分布的多峰性,应用范围有一定局限性。文献[16]采用了t分布模型替代正态分布对光伏发电的预测误差进行拟合比与正态分布进行对比,有效提高了预测精度。文献[17]通过实验数据分析得出t分布是分析光伏预测误差的合适分布。但单一的分布模型对光伏发电预测误差的拟合能力有限,在处理多变天气时具有局限性,所得到的结果也不够精确。近年来,Copula理论开始应用于电力系统分析中[18],文献[19]采用Copula 理论对风电和光电功率的预测误差进行建模,考虑风电场和光伏电站的相关特性,提高了预测结果的准确性。文献[20]利用Copula函数实现了任意点预测对应的光伏实际出力的条件概率分布的估计,并通过仿真验证了所提出的方法优于常用的正态分布的预测误差估计方法。然而Copula模型会因不同的形式而产生不同的分析结果,在实际应用中对Copula函数形式的选择仍存在难度。

为此,提出一种基于高斯混合模型的光伏发电功率概率区间预测方法,针对光伏发电功率预测误差进行聚类,划分成不同天气类型后,分别采用高斯混合模型对误差分布进行拟合,并通过计算指定置信水平下的置信区间获得出光伏发电的区间预测结果。该方法采用的高斯混合模型在描述光伏发电功率预测误差分布的多峰性和不对称性等方面相较于典型单一分布模型具有明显优势,所得区间预测结果更准确,适用性较高。

1 天气情况对光伏发电预测的影响

1.1 典型天气类型的划分

光伏电站的发电量与外界天气情况有很大关系,不同天气情况所造成的影响不同,光伏发电功率的预测准确性也有差异,考虑外界环境因素造成的影响很有必要。根据常见的气象因素如温度、云量和日照辐射等可以对天气情况进行分类[21]。采用K-means聚类算法[22]对光伏出力历史数据进行划分,将天气状况划分为晴天、阴云天、雨天3种典型天气类型,并分别在3种天气类型下建立相应预测误差的分布模型,进而得到相应置信水平下的区间预测结果,为更准确的描述光伏出力的实际情况提供了参考。

1.2 不同天气类型下预测误差特性分析

文中以中部某地区光伏电站的历史数据及相应天气数据为数据集,采用人工神经网络模型对其光伏发电量进行虚拟预测获得光伏出力预测值。将一年的数据采用K-means聚类算法分成三类,分别将各类天气下的光伏出力实测值和预测值归一化,其散点图如图1所示。

图1 光伏出力预测值-实际值散点图

如图1所示,光伏出力的预测出力与实际出力在晴天下的误差最小,散点图最接近一条直线。由于光伏出力易受到云量影响,在阴云天出力会相对较低,光伏出力也容易产生波动,预测出力与实测出力的相关性较晴天时偏低,而在雨天时这种差异更为明显。由上述分析可知,在研究光伏发电功率的概率区间预测时需要考虑外界天气对预测误差分布的影响。针对不同的天气情况采用合适的分布模型进行拟合并计算出对应的区间预测结果。

2 基于预测误差分布的概率区间预测

2.1 预测误差定义

光伏发电预测误差εt′定义为光伏电站的实际发电功率与预测功率之差再比上该光伏电站的总装机容量,可表示为

(1)

2.2 高斯混合模型

光伏预测产生的误差服从一定的概率分布,并且在理论上应属于高斯分布。但是因为光伏预测易受到天气情况的影响,预测误差表现出不同的分布特征,单一分布并不具有普遍适用性。

本文方法采用高斯混合模型对预测误差拟合,进而得出区间预测结果。高斯混合模型是多个单高斯概率密度函数(probability density function,PDF)的线性组合,通过调整高斯混合模型的各个组成参数,包括成分数、权重系数、均值和每个成分的协方差矩阵,来精确描述各种概率密度分布。高斯混合模型通常被用来对多维随机变量的联合PDF建模。单个高斯分布PDF可表示为

(2)

式(2)中:μ和σ2分别为高斯分布的均值与方差。

高斯混合分布的PDF可表示为

(3)

(4)

2.3 模型参数求解与概率区间预测

根据给定的功率误差样本{x1,x2,…,xn},求解参数值可以用极大似然估计法,高斯混合模型的优化方程为

(5)

式(5)是一个非凸优化方程,选择最大期望(expectation maximization, EM)算法来求解模型参数,它通过迭代和求解模型参数来实现[23]。通过输入每个部分设置的初始值来计算对数似然函数,直到模型的参数并收敛到局部最优解。在得到分布模型后,通过求解该分布模型的累计概率函数,计算得出指定置信水平下的置信区间,进而获得光伏发电概率性区间预测结果。

3 模型评价指标

3.1 拟合效果评价指标

采用正态分布、t分布、逻辑斯特分布及高斯混合模型对不同类型的预测误差进行拟合。为了分析不同分布模型对光伏发电预测误差的拟合效果,选取以下3个评价指标来评估拟合效果。

拟合分布模型PDF的离散化处理公式,可表示为

(6)

均方根误差(root mean square error, RMSE),该统计参数是拟合数据和原始数据对应点误差平方和的均值开根号,对于统计数据中过大或过小的数据很敏感,所以能够较好地反映出误差拟合的精密度,其值越小越好,其计算公式为

(7)

平均绝对误差(mean absolute error, MAE),该统计参数是表示拟合数据和原始数据绝对误差的平均值,可以通过其值表征实际分布函数与拟合函数的差异大,其值越小拟合精度越高,其计算公式为

(8)

确定系数R2,该统计参数的分子部分表示原始数据与拟合数据的平方差之和,类似于均方差;分母部分表示原始数据与其均值的平方差之和,类似于方差。根据R2的取值,来判断拟合的精度,其取值的范围为[0,1],其值越接近1,拟合的效果越好,其计算公式为

(9)

3.2 区间预测结果评价指标

本文方法利用分布模型对预测误差进行拟合后获得相对应的PDF,计算得出对应置信水平下的置信区间,进而获得光伏发电波动范围。为评价获得的光伏发电区间预测结果,选取区间覆盖率(coverage probability, CP)和区间平均带宽(normalized average width, NAW)来比较不同误差模型所得的区间预测结果。二者计算公式分别为

(10)

(11)

CP表示所评价区间预测效果的指标,其值越大,代表预测区间包含的实际功率点越多。但较宽的预测区间也可以包含全部的功率点,并不能完全体现出区间预测的精准程度,所以加入NAW来共同评价区间预测结果,它反映了预测区间的平均带宽。当评价同一置信水平下的区间预测结果时,NAW的值越小代表该区间预测结果越优。

4 算例仿真

4.1 基础数据

为了验证本文方法的有效性,以中部某地区的光伏电站的数据集为统计样本,数据集包含2018年6月—2019年6月的实际光伏出力以及光伏电站内部自带气象系统所统计的温度、湿度、辐射度等气象数据,时间分辨率为15 min,使用MATLAB软件对其进行仿真验证。为方便分析,文中将光伏出力与预测误差均进行了归一化处理,将晴天、阴云天、雨天分别记为A、B、C3种类型。

4.2 模型准确性对比

分别采用几种典型的单一分布模型和高斯混合模型3阶(gaussian mixture model-3,GMM-3)对按天气情况分类之后的预测误差进行拟合并比较拟合效果。通过前述的EM算法对GMM-3的参数进行求解,得到的参数如表1所示。

表1 高斯混合模型参数估计值

图2为在各类预测误差天气时,分别采用正态分布、逻辑斯特分布、t分布、GMM-3分布模型对预测误差进行拟合得到的结果。

从图2可以看出,只有在A类天气时,预测误差比较符合正态分布,而其他情况正态分布的拟合效果较差,对于多峰和尖峰的拟合度都不够。t分布相较正态分布而言对尾部拟合的效果较好。逻辑斯特分布对于尖峰的拟合较好。但这3种分布对误差分布的多峰现象的拟合仍有些不足。GMM-3相比于其他单一分布,对误差分布的多峰性和不对称性有更好的拟合效果,优于其他单一分布。

图2 A、B、C类天气预测误差拟合

4.3 拟合评价指标对比

采用3.1节的拟合评价指标对4.2节的拟合结果进行定量评估,结果如表2所示。

表2 不同分布模型下各误差类型拟合指标统计

结合表2中3种拟合优度评价指标可看出在不同类型的误差分布中,对于正态分布、t分布、逻辑斯特分布和GMM-3分布从前至后MAE和RMSE依次呈现减小趋势,而R2则表现为逐渐增大趋势。由上述结果可知,GMM-3在拟合效果上优于其他3种模型,尤其在图2(b)、图2(c)的误差分布表现出明显的多峰性和不对称性的情况下,GMM-3的RMSE较单一分布中效果最好的逻辑斯特分布分别下降54%和31%,MAE分别下降54%和24%,R2分别提高了11%和28%。

综上分析,本文方法采用的GMM-3在拟合光伏发电功率预测误差时相对其他分布模型的准确性更高,更为灵活,且误差分布越复杂,其优势相较于单一分布模型越明显。

4.4 区间预测结果对比

为了进一步论证本文方法的有效性,利用4.2节中所得到的相应的PDF,分别采用单一分布模型中效果较好的逻辑斯特分布和本文方法对2018年9月中不同天气类型的3 d的光伏发电功率进行区间预测。图3为置信水平为90%时,基于逻辑斯特分布和GMM-3的光伏发电区间预测结果。从图3可以看出,由于天气类型的不同,预测区间的带宽也不同,验证了文中对误差分布按天气划分的必要性,且在3种天气类型下,GMM-3的预测区间结果均优于逻辑斯特分布。

图3 逻辑斯特分布及GMM-3的预测区间

利用3.2节的区间结果评价指标在90%的置信水平下对2018年9月的光伏发电功率的区间预测结果进行定量分析,结果如表3所示。

表3 区间预测结果评价

由表3可知,在相同置信水平下,逻辑斯特分布与GMM-3所得到的预测区间在不同天气类型下的CP为100%,均可以覆盖所有的实际出力点。但它们的NAW不同,GMM-3的NAW较逻辑斯特分布的NAW下降了10.5%,证明了本文方法在进行光伏出力区间预测时的有效性。

5 结论

精确的光伏出力范围是鲁棒调度和随机优化调度的基础。提出了一种基于高斯混合模型的光伏发电功率概率区间预测方法,得出以下结论。

(1)光伏发电功率与当地的天气有密切关系。在研究其预测误差分布特性时,有必要将数据划分成合适的天气类型再进行分析。

(2)相较于单一分布模型,高斯混合模型在拟合光伏发电功率预测误差时精度更高,形状更灵活,更好的适应了误差分布的多峰性和不对称性。

(3)本文方法可以针对不同天气类型给出相应的区间预测结果,其预测精度和效果均优于采用单一分布模型得到的结果,准确性和有效性较高。

所采用的光伏发电功率确定性点预测方法较为简单,为进一步提高预测精度,可以考虑较为复杂的神经网络模型如贝叶斯、循环神经网络模型进行建模预测。在预测前也可以采用聚类算法对神经网络的输入样本数据进行处理。后续可以进一步围绕上述内容展开研究。

猜你喜欢
正态分布出力高斯
关于n维正态分布线性函数服从正态分布的证明*
生活常态模式
数学王子高斯
天才数学家——高斯
正态分布及其应用
“出力”就要做为人民“出彩”的事
基于实测数据的风电场出力特性研究
从自卑到自信 瑞恩·高斯林
汽车内饰件用塑料挂钩安装力及脱出力研究
高考正态分布问题例析