DPCA-POA-RF-Informer在多情景光伏多步预测中的应用

2024-01-28 03:56胡烜彬纪正森许晓敏
智慧电力 2024年1期
关键词:鹈鹕聚类发电

胡烜彬,纪正森,许晓敏

(1.华北电力大学经济与管理学院,北京 102206;2.新能源电力与低碳发展北京市重点实验室,北京 102206)

0 引言

大力推广光伏发电是实现“双碳”目标的关键一步[1],但光伏发电的波动性与不确定性缺陷给电力系统的稳定运行带来挑战。因此,准确预测光伏发电系统的功率,对于未来光伏发电大比例接入电网、维护电网运行的稳定性[2]、促进光伏产业积极发展[3]有着积极的意义[4]。

近年来,不断有学者研究光伏功率相关的预测模型。根据预测变量进行分类,光伏发电预测可以分为单变量预测和多变量预测[5];根据预测过程可以分为直接预测[6]和间接预测[7];根据时间尺度可以分为超短期预测[8]和中长期[9]进行预测。针对预测模式的不同,光伏发电功率预测主要通过物理方法[10-12]、统计方法[13]与机器学习[14-18]等方法来实现。物理方法与统计方法较为简单,不适合非线性光伏序列,所以目前更多的研究使用机器学习模型。但传统机器学习模型学习深度较浅,无法完全提取光伏发电数据相应深度非线性特征和时间序列动态特征,因此需要采用深度学习以提高预精度。目前深度学习主要包括长短期记忆网络[19-20](Long Short-Term Memory,LSTM)、卷积神经网络[21](Convolutional Neural Network,CNN)、循环神经网络[22-23](Recurrent Neural Network,RNN)等。文献[24]通过将LSTM 与时间卷积神经网络(Temporal Convolutional Network,TCN)2 种模型联用对光伏功率进行预测,在精度上优于单一使用TCN 和LSTM 模型。但传统深度学习模型在进行光伏功率预测中处理长序列的能力较弱,容易出现梯度消失等问题,同时难以捕捉全局信息,导致模型的预测性能下降。而目前Informer 模型[25]作为新兴的预测模型,在处理长序列数据以及捕捉全局信息方面与传统深度学习模型相比具有较大优势,Informer 通过Self-Attention 机制可更好地处理长序列数据。但单一使用Informer难以取得较高预测精度,需要与相关模型结合才能取得较好的预测效果,文献[26]提出了Informer 与最大信息数模型、变分模态分解相模型相结合的组合模型对短期负荷进行预测,结果表明,该模型相比其他深度学习模型具有更高的预测精度和泛化能力,且比单一使用Informer 模型预测效果更好。目前在预测领域Informer 组合模型主要进行单步预测较多,进行多步预测较少,因此本文采用Informer 组合模型对光伏功率进行多步预测。

本文提出了一种基于密度峰值聚类(Density Peak Clustering Algorithm,DPCA)、鹈鹕优化(Pelican Optimization Algorithm,POA)、随机森林(Random Forest,RF)和Informer 模型的多情景光伏功率多步预测模型。首先通过DPCA 模型对天气情况进行聚类分析,其次采用POA-RF 对光伏数据序列进行特征筛选,最后采用Informer 模型对光伏功率进行多步预测,结果表明本研究所提模型的预测精度较高,具有较好的适用性。

1 预测模型相关理论基础

1.1 密度峰值聚类

DPCA[27]是近年来提出的新型聚类算法,该算法能够快速搜索并找到数据点中的密度峰值,设待聚类的数据集X={x1,x2,…,xn},其对应的指标集为Ix={1,2,…,N},基于数据点xi和xj间的距离为dij,对其中每一数据点,计算2 个重要参数:局部密度ρi和距离δi。对于局部密度ρi,本文采用高斯核函数来计算局部密度,即:

式中:dij为数据点xi和xj;dc为截断距离。

将所有数据点在二维坐标平面图中可直观地看出同时具有较大的ρ值和δ值的数据点即为聚类中心。

1.2 随机森林

RF[28]是一种集成的机器学习方法,它可以分析复杂的交互特性,对特征重要性的计算效果较好,因此RF 可以用作高维数据的特征选择工具。本研究采用基尼指数(Gini)来衡量特征的重要性,若有n个特征(x1x2…xn),计算每个特征xi重要性的具体步骤为:

1)从原始训练数据中通过bootstrap 方法随机选择K个新的样本集,构建K个回归树,每次未选择的样本构成K个袋外数据。

2)假设样本集有n个特征,则从每棵树的每个节点随机提取m(m

3)通过基尼系数进行评分,并计算特征重要性。基尼指数的计算为:

式中:IGini,m为在节点m中基尼指数;pmk为类别k在节点m中的比例;|K|为样本总数。特征xi在节点m中的重要性计算公式如式(4)所示:

1.3 鹈鹕优化算法

POA 是一种种群算法[29]。POA 优化参数主要分为2 个阶段,分别为探索阶段和采集阶段。

1.3.1 探索阶段

鹈鹕向猎物位置移动,移动的公式为:

式中:ai,j为第i只鹈鹕在第j维的初始状态;P1为第一阶段;为第一阶段的第i只鹈鹕在第j维的新状态;I为1 或2 的随机数;pj为目标在第j维的位置;Bp为优化目标函数值;Bi为第i个候选解的目标函数值;else为其他情况。

若目标函数值发生变化,则鹈鹕将移动位置Xi如式(6)所示:

1.3.2 采集阶段

在此阶段鹈鹕将进行狩猎过程,如式(7)所示:

在采集阶段后,鹈鹕状态将会更新,如式(8)所示:

式中:Xi为第i只鹈鹕的位置;为第i只鹈鹕的新状态;Bi为目标函数的初始值;为基于第二阶段的目标函数值。

1.4 Informer预测模型

Informer 是在Transformer 基础上进行改进的一种编码器-解码器结构的深度神经网络模型。Informer 模型可有效减少网络规模,提高运算速度。

Informer 模型由编码器和解码器组成,其中编码器是由多头稀疏概率自注意力机制和蒸馏操作堆积而成,编码过程如式(9)所示:

式中:Q为查询向量;K为键向量;V为值向量;d为防止梯度消失而增加的比例因子;Softmax 为激活函数。

Informer 的解码器使用标准解码器结构,该结构多头概率稀疏自注意层、全注意力层和全连接层组成,用遮挡注意力机制,全连接层输出最终的预测结果将解码层的输入分解为2 部分,即部分历史数据和目标占位序列,目标占位序列长度为要预测的长序列长度,采用0 值进行序列占位,从而实现对长序列的预测。解码器在时刻t对输入序列的解码过程如式(10)所示:

1.5 DPCA-POA-RF-Informer预测模型构建

本文提出的DPCA-POA-RF-Informer 组合模型对多情景光伏发电功率的多步预测主要包括3个步骤:

1)天气状况分类。根据不同的气候数据,采取密度峰值分析对天气进行聚类分析,得到不同情景下的光伏数据。

2)因素筛选。通过POA 优化随机森林的决策树数目和深度2 个参数进行光伏序列特征筛选,筛选出的因素将作为多步预测的输入变量。

3)多步预测。在研究最佳记忆步长的基础上采用Informer 模型进行光伏功率的多步预测,并采用标准化均方根误差(Normalized Root Mean Square Error,NRMSE)、标准化平均绝对误差(Normalized Mean Absolute Error,NMAE)、决定系数(R-Square,R2)来评估预测模型性能。NRMSE,NMAE 的值用ENRMS,ENMA表示。对于预测值yˉ={yˉ1,…,yˉn},真实值y={y1,…,yn},误差指标计算公式为:

基于DPCA-POA-RF-Informer 多情景光伏功率多步预测模型流程图如图1。

图1 DPCA-POA-RF-Informer混合模型预测流程图Fig.1 Prediction procedure for DPCA-POA-RFInformer hybrid model

2 算例分析

2.1 密度峰值聚类分析

本研究收集了澳大利亚爱丽丝泉(Alice Springs)的光伏电站的实际运行数据,数据采样间隔1 h。在剔除异常数据后,基于密度峰值模型进行聚类分析。聚类后3 种天气状况如表1 所示。由表1可知,不同天气具有不同的气象特征,验证了聚类的合理性。

表1 3种天气状况对比分析Table1 Comparative analysis of three weather conditions

结合表1 可以看出,晴天的温度和辐射也最高,相应的平均发电量最高,而风速、湿度和雨量最小,具有理想的发电天气条件。雨天的辐射量最小、降雨量最大,导致发电量最低,不利于光伏发电系统发电。而阴天对应的发电量较高,温度高、辐射量大、降雨量少的特点,有利于光伏系统发电。

2.2 基于POA-RF的光伏功率预测特征筛选

数据集共存在11 个潜在因素影响光伏发电功率,本文采用POA 优化的RF 模型中的数目和深度2 个参数,根据重要性程度准确选择少量具有代表性且能够准确反映光伏发电功率预测结果的因素。POA-RF 方法的优化过程和结果如图2 所示。

图2 适应度曲线Fig.2 Fitness curve for optimization process and results with POA-RF

各因素的重要性如表2 所示。为选择代表性较强的气象因素,将重要性程度大于0.5 的5 个指标作为多步预测模型的输入序列。

表2 各气象因素重要性程度Table 2 Importance degree of meteorological factors

2.3 模型构建与预测

为评估所提模型的性能,本节将所提出的Informer 模型与光伏功率预测常用的模型进行比较。根据2.2 节,输入模型的相关变量为X2,X6,X7,X10,X11 本文预测模型在python3.7 环境下进行,训练集和测试集的比例为8:2,通过4 天共96步的数据预测未来1 天共24 步的光伏发电功率。以测试集中连续3 天的预测效果进行分析,预测效果如图3 所示。

根据图3 的预测结果,DPCA-POA-RF-Informer模型的拟合效果较好,模型具有良好的泛化能力,说明DPCA 算法可以对不同天气情况进行有效分类,POA-RF 能够剔除冗余变量提高模型输入数据质量,Informer 模型能够对非线性光伏时间序列进行较好的模拟,所以DPCA-POA-RF-Informer 模型能够很好地追踪复杂序列的变化,得到精度较高的预测结果。

2.4 比方法分析

为进一步验证本文方法的有效性,本文通过与LSTM,CNN,RNN 模型比较,预测结果如图4—图6和表3 所示。

表3 3种天气不同模式多步预测结果比较Table 3 Comparison of multi-step forecasting results between different models under three weather conditions

图4 雨天天气不同模式多步预报结果比较Fig.4 Comparison of multi-step forecasting results between different models under rainy weather conditions

图5 晴天天气不同模式多步预报结果比较Fig.5 Comparison of multi-step forecasting results between different models during sunny weather

图6 阴天天气不同模式多步预报结果比较Fig.6 Comparison of multi-step forecasting results between different models under cloudy weather conditions

在雨天中,Informer 进行3 天多步预测NRMSE,NMAE,R2的值分别为5.88%,3.97%,97.91%,在晴天天气中,Informer 进行3 天多步预测NRMSE,NMAE,R2的值分别为5.69%、3.60%、98.35%,本研究所提模型在3 种天气情况中均能取得最高的预测精度。

从表3 结果可知,在4 种模型中,Informer 模型在3 种天气状况下的NRMSE,NMAE 和R2的表现效果最优,LSTM,CNN 和RNN 的表现效果相对较差,说明Informer 模型拥有更好的预测精度。相对于LSTM,CNN 与RNN 模型,Informer 模型在光伏多步预测中的优势主要来自于其对长期依赖关系的建模能力、多头注意力机制以及编码器-解码器架构的有效性。这些设计使得Informer 能够更好地挖掘时间序列数据中的信息,并生成更准确的光伏多步预测结果。

3 结论

针对光伏功率发电不确定性较大的问题,本文建立了一种DPCA-POA-RF-Informer 混合预测模型。采用DPCA 聚类对原始光伏数据进行划分,利用POA-RF 进行数据降维,在各天气类别中采用Informer 得到最终光伏功率预测值。仿真实验结论总共有3 点:

1)应用密度峰值聚类算法根据气象数据对天气状况进行分类,各天气状况之间具有明显差异,验证了分类的合理性,提高了预测模型的训练速度。

2)通过鹈鹕算法优化随机森林模型参数,通过POA-RF 模型从气象因素中选择出合适的气象特征作为模型的数据输入变量,提高了光伏数据的质量。

3)与其他深度学习模型相比,DPCA-POA-RFInformer 模型可以有效地进行光伏功率预测,预测结果表明,该模型在精确度上明显优于其他模型。

猜你喜欢
鹈鹕聚类发电
“发电”
假如鹈鹕过人的生活
柠檬亦能发电?
大嘴鹈鹕怼世界
养只鹈鹕当跟班
基于DBSACN聚类算法的XML文档聚类
摇晃发电小圆球
基于高斯混合聚类的阵列干涉SAR三维成像
摩擦发电
一种层次初始的聚类个数自适应的聚类方法研究