基于K-means++和混合深度学习的光伏功率预测

2021-09-23 06:47陈振祥林培杰程树英陈志聪吴丽君
电气技术 2021年9期
关键词:修正气象卷积

陈振祥 林培杰 程树英 陈志聪 吴丽君

基于K-means++和混合深度学习的光伏功率预测

陈振祥 林培杰 程树英 陈志聪 吴丽君

(福州大学物理与信息工程学院微纳器件与太阳能电池研究所,福州 350116)

光伏发电输出具有较强的波动性,影响电力系统的调度管理。对此,本文提出一种基于K-means++和混合卷积神经网络(CNN)与长短期记忆(LSTM)网络的光伏功率预测模型。首先,利用K-means++对历史数据集进行分类,选取合适的数据集作为训练集;其次,搭建以历史功率为输入的LSTM模型获得待修正预测功率值,采用卷积神经网络挖掘气象参数与光伏功率的非线性关系,获取修正系数,对待修正预测功率值进行修正,提高预测精度;最后,在点预测模型的基础上,给予输入参数一定的随机波动,进行多次预测,获取预测误差集,进而获得预测区间。通过澳大利亚沙漠太阳能研究中心光伏电站数据集,选择LSTM、CNN-LSTM及K-LSTM算法进行对比,验证了本文方法具有较高的预测精度和稳定性,且能实现准确的输出功率区间预测。

光伏功率预测;K-means聚类;卷积神经网络;长短期记忆网络

0 引言

光伏发电因绿色环保、能源取之不尽的优势,得到世界各国的关注和推广应用。据国际能源机构预测,到2030年,全球光伏发电容量的安装量将超过1 700GW[1]。然而,天气变化等因素使光伏发电表现出较强的间歇性和波动性,严重影响电力系统的管理调度[2]。因此,准确预测光伏输出功率,有利于电力系统运行和规划,提高系统安全稳定性[3]。

随着不断探索研究,国内外在光伏功率预测领域已取得一定的成果。根据预测方法,可大致分为物理方法、统计方法及人工智能方法。物理方法基于物理方程实现预测,需要大量的传感器获取物理参数,实际应用受到一定限制。传统的统计方法通过回归分析等方法来映射发电量和历史数据间的关系,但处理非线性数据效果不理想[4]。相比之下,人工智能技术具有处理复杂的非线性问题的能力和更强的容错性[5]。长短期记忆(long short-term memory, LSTM)网络优越的时间序列问题处理能力,能很好地映射序列数据与目标输出之间的非线性关系[6]。光伏功率输出具有很强的时间相关性,文献[7]以历史功率数据作为LSTM的输入,简单方便,获得较好的预测效果。但气象参数是光伏发电的直接影响因素,能直接体现光伏发电的变化性[8]。文献[9]将相似时间段气象参数结合历史功率,利用LSTM模型进行预测,进一步提高了预测的准确性。同时,数据的差异性也会影响预测模型的性能,K-means聚类能快速对数据集进行分类,鲁棒性强,文献[10]采用K-means对数据集进行预先划分,历史功率结合气象参数通过Elman神经网络进行预测,提高了预测精度。此外,气象因素间也具有关联性,如从中提取价值信息,也可提高预测准确度。文献[11]采用卷积神经网络(convolutional neural networks, CNN)获取风力和风速间的相关性,提高了风速预测的精度。CNN内部采用局部连接和参数共享,具有强大的特征自提取能力,可充分提取输入气象参数间的相关性[12]。相比点预测,区间预测给出了未来时刻光伏功率输出的预测误差分布,包含更多信息,在实际应用中,更符合电力系统的管理和调度需求。

因此,为结合历史功率和气象参数预测光伏功率的优势,提取气象参数和输出功率的非线性关系,本文提出一种混合聚类算法和深度学习的光伏功率预测方法。首先,利用K-means++对数据集进行划分,选择合适的数据集作为训练集,搭建LSTM模型获得待修正功率值,然后利用皮尔逊相关性分析选取关键气象参数,构造二维气象矩阵,结合CNN模型提取气象因素的自相关性和互相关性,对待修正值进行修正,提高预测精度;并且通过给予输入参数一定的随机波动,多次预测获取误差数据集,准确地实现区间预测。此外,为了验证算法的性能,选择LSTM、CNN-LSTM及K-LSTM算法进行对比。

1 K-means++算法划分数据集

K-means算法是典型的硬聚类算法,具有简单、快速的特点。但是,标准的K-means依赖初始质心的选取,不同选取方案的聚类结果有所区别。对此, D. Arthur等人提出改进K-means,即K-means++,改进初始质心的选取方法,显著改善聚类结果的最终误差[13]。K-means++的实现过程如下:

1)随机选取一个样本作为第一个质心1。

3)重复步骤2),直到选出个聚类质心。

4)计算数据集中的每个样本与个聚类质心的距离,并将其划分到距离最小的聚类质心对应的 簇中。

5)根据式(2)更新每个簇的质心C

6)重复步骤4)和步骤5),直到聚类质心的位置不再改变。

在本文中,采用K-means++聚类算法将光伏电站的历史功率数据集划分为不同簇类,使得每个簇类具有独特的功率特性,并作为预测模型的训练集,降低数据差异性的影响。聚类结果的好坏与样本特征值的选取有关,为进一步提高数据集划分效果,选取常用于序列分析的五项统计指标(标准差、偏态系数k变异系数v、峰值系数ur及总功率sum),归一化后作为样本的特征值,其公式为[10]

式中:为每小时步长为5min的采样点数,=13;mean为小时平均光伏功率;P为每个时刻的光伏功率;min和max分别为指标的最小值和最大值。式(8)为归一化公式。

此外,在该算法中,值需预先给定,其在大多数情况下是难于估计的。本文采用轮廓系数来评价聚类效果,越趋近于1,说明聚类效果越优。结合试错法来选取合适的值,最终确定数据集划分的类别数。轮廓系数计算公式为[14]

式中:()为簇内不相似度,表示样本到同簇类其他样本的平均距离;()为簇间不相似度,表示样本与其他簇类各样本的最小平均距离。

2 选取关键气象参数和构造气象矩阵

2.1 选取关键气象参数

已有大量研究将太阳辐射度及其他气象参数作为模型输入参数,用于估算光伏功率输出[15]。同时,预测模型的性能高度依赖模型输入与输出之间的关联性。因此,研究气象参数与光伏功率输出之间的相关性,对光伏功率预测具有重要的意义。

本文采用澳大利亚沙漠太阳能研究中心(DKASC)的多变量气象因素数据集,结合皮尔逊相关系数(Pearson correlation coefficient)分析法[16]分析各气象因素与光伏输出功率的相关性,选取关键气象参数作为CNN修正模型的输入。相关系数2计算公式为

式中:为采样总数;X为第时刻气象参数;mean为该气象参数的平均值;Y为第时刻光伏输出功率;mean为光伏输出功率的平均值。

表1 气象参数与光伏功率输出相关性分析结果

2.2 构造气象矩阵

不同的气象参数不仅会影响光伏功率输出,它们之间也会相互影响。表2为关键气象参数之间的相关系数2。由表2可得,关键气象参数之间呈现出较强的互相关性,共同作用于光伏功率输出。将气象参数的耦合性和关联性纳入模型中,可进一步提高预测模型的性能。但是,一般的输入方式很难挖掘其中的互相关性。为此,将每小时的关键气象参数构造成一个二维气象矩阵(见图1)作为输入,直观地表示序列数据特征,以便于CNN提取各气象参数的自相关性和互相关性,进而建立气象参数与光伏输出功率之间的非线性关系,提高预测的准确性。

表2 关键气象参数之间的相关系数R2

3 基于混合深度学习的光伏功率预测模型

3.1 长短期记忆网络

Schmidhuber等人提出LSTM,改进了传统循环神经网络(recurrent neural network, RNN),在网络结构中增加了对信息进行分析处理的特殊单元(cell),解决传统RNN无法处理长期依赖的问题,有效克服传统RNN梯度消失和梯度爆炸问题[17]。

图1 二维气象矩阵

LSTM的结构如图2所示,每个cell由遗忘门、输入门及输出门构成。遗忘门将上一隐藏层状态值h−1和当前输入x拼接起来,通过sigmoid函数()决定丢弃哪些旧信息。输入门和tanh层决定从h−1和x保留哪些新信息,结合遗忘门丢弃的信息,得到当前的信息状态C。输出门结合tanh层决定h-1、xC中哪些信息输出作为当前隐藏层状态值h。遗忘门、输入门、输出门计算公式如下[9]。

遗忘门为

输入门为

输出门为

式中:Ch分别为遗忘门、输入门和输出门的输出;和为各个门的权重和偏置。

图2 LSTM结构

3.2 卷积神经网络

二维卷积神经网络被广泛应用于图像和二维数据处理领域。通常,CNN基本结构由卷积层、池化层及全连接层组成[18]。卷积层是CNN核心部分,通过内部的卷积核在输入图或输入矩阵上水平和垂直滑动,在卷积核的接受域内计算卷积,提取相应特征为特征图。池化层对特征图进行特征降维,减少冗余信息,进而提高网络计算效率。全连接层通常位于CNN的最后一部分,对最终提取的大量特征进行非线性组合,获得目标输出。卷积层、池化层和全连接层计算式分别见式(17)~式(19)[18]。

车子呜呜发动。身侧那人还是举着盒子挡住刘雁衡,刘雁衡暗想,今天真是碰上怪事了,一瞥眼间,看到对方穿着一双小巧的马靴,这才放下心来,用右手食指在盒子上啪啪弹了两下:“小姐,请开门。”

3.3 混合深度学习预测模型

本文提出的预测方法中,采用LSTM和CNN的混合深度学习模型进行光伏功率预测,混合深度学习模型结构如图3所示。LSTM模型针对光伏历史功率获取待修正值,CNN模型提取二维气象矩阵中气象参数的相关性特征,获得修正权重和偏差对该值进行修正,进一步提高预测的准确性。

图3 混合深度学习模型结构

CNN模型的结构参数见表3。由于池化层在特征压缩的过程中,会导致特征信息的遗失,且构造的二维气象矩阵尺寸较小,包含的气象特征信息不足以造成特征冗余,因此提出的CNN模型采用无池化层模型。两层的二维卷积神经网络提取气象矩阵中有价值的特征信息,通过全连接层1和2对这些特征进行整合映射,输出两个修正参数和。

表3 CNN模型结构参数

综合LSTM模型的待修正值和CNN模型修正,最终获得的光伏预测功率为

3.4 预测区间生成

传统的区间预测使用参数估计方法,参数估计的前提是假设概率密度函数是已知的,而光伏发电具有较强的不确定性,输出功率无法满足特定的分布,因此使用参数估计方法进行光伏功率区间预测效果是不理想的。已有大量研究通过Bootstrap自举算法,结合神经网络搭建多个模型实现区间预测,但搭建多个预测模型增加了模型的复杂度[19]。本文在深度学习网络的基础上,在预测过程中给予输入参数50次一定的随机波动,获得50个波动数据样本,进行预测以得到预测误差数据集,根据误差数据集计算预测均值和标准误差,得到光伏功率的预测区间。

3.5 方法实施流程

所提光伏功率预测方法实施流程如图4所示:①对数据集进行预处理,包括异常数据、夜间发电无效数据的清洗及归一化处理;②通过K-means++对数据集进行划分,根据待测时刻前1h的功率选取相应的数据集作为训练集;③选定关键气象参数,构造二维气象矩阵作为CNN模型的输入;④搭建LSTM模型和CNN修正模型,根据训练集进行训练获得预测模型,将待测时刻前1h的功率和气象参数输入到预测模型中,获得功率点预测输出,并给予输入参数一定的随机波动,获得波动数据样本,进行预测获得预测误差数据集,据此得到预测区间。

图4 所提光伏功率预测方法实施流程

4 实验结果和分析

本文选择DKASC的Yulara太阳能系统电站4从2017年1月1日到2018年12月30日的多元气象数据集和历史功率数据集验证所提预测模型的可行性,训练集和测试集比例为7:3。同时,与未使用K-means++的LSTM模型、CNN-LSTM模型及未使用CNN修正的K-LSTM模型进行比较,验证所提方法的性能。

使用试错法选取合适的聚类值,不同值的轮廓系数见表4。可以看出,值为2时,对应的轮廓系数取得最大值,因此所提方法中的值取2。

表4 不同k值的轮廓系数

随机选取测试集中四天从7:00~18:00进行验证。预测结果和预测标准误差分别如图5和图6所示。从图5可看出,K-CNN-LSTM和K-LSTM的预测结果均比未使用K-means++的模型(CNN-LSTM、LSTM)更接近实际功率,尤其是在功率曲线波动性较大的情况下。从图6可得出,使用CNN模型对LSTM模型的待修正值进行修正,预测结果的误差比K-LSTM波动更小,更为稳定。采用平均绝对误差(MAE)、方均根误差(RMSE)指标评估模型的性能,表5为四天7:00~18:00各个模型的平均评价指标值。所提方法的平均MAE和RMSE分别为3.861 5kW和5.481 1kW,由表5可得,与未使用K-means++和CNN模型修正的模型相比,所提方法的预测精度得到提升。使用K- means++对数据集进行划分,利用同一种类型数据训练模型,减少数据之间差异性对模型性能的影响,提高了预测的准确性。尽管历史功率数据中隐藏着光伏发电的规律性和序列相关性,但气象参数的变化更能够直接反映光伏发电的变化,这种变化关系经过CNN处理,提取特征反映到功率数据中,结合两者的优势,提高了模型的预测精度和稳定性。

为进一步验证模型的适用性,对上述四天进行2h和3h预测,预测结果如图7所示。从图7可看出,在实际功率发生突变和波动幅度较大时,预测具有一定的偏差。发生突变时,天气的不确定性变大,捕获实际天气变化难度加大,导致预测误差增大。而当实际功率波动较平缓时,预测曲线能较好地拟合实际功率。因此,除天气变化较为剧烈外,本文提出的方法能够较好实现2h和3h预测输出。

图5 预测结果

图6 预测标准误差

表5 各模型的平均评价指标值

图7 2h和3h预测结果

区间预测结果如图8所示,采用区间覆盖率(PI coverage probability, PICP)和平均区间宽度目标值范围百分比(PI normalized average width, PINAW)评估区间预测的效果。四天的平均PICP为0.855 3,平均PINWA为0.499 3,说明预测区间在较好地覆盖真实功率的同时,区间宽度较窄。因此,在深度学习模型的基础上,给予输入参数随机波动,获得预测误差集进行区间预测效果较好。

图8 区间预测结果

5 结论

本文提出和验证了基于K-means++和混合深度学习的光伏功率预测模型:①通过K-means++将数据集划分为不同类别,根据待测时刻前1h功率选取合适的数据集作为模型的训练集,减小数据差异性对模型性能的影响;②通过LSTM模型处理历史功率序列,获得待修正功率值,根据皮尔逊相关性分析选取关键气象参数,构造二维气象矩阵,便于CNN提取气象参数的相关特征,挖掘气象参数与光伏功率的非线性关系,获得修正参数,对待修正功率值进行修正,进一步提高预测准确度;③通过给予输入参数多次随机波动,获得波动数据样本,进而获得预测误差数据集,计算预测区间。通过DKASC电站4的数据集进行模型性能验证,所提模型的平均MAE和RMSE分别为3.861 5kW和5.481 1kW,同时进行2h和3h预测,验证了方法的适用性。与LSTM、CNN-LSTM及K-LSTM模型相比,所提的K-CNN-LSTM模型预测精度和稳定性更高,且准确地实现了区间预测。

[1] CHOUDHARY P, SRIVASTAVA R K. Sustainability perspectives-a review for solar photovoltaic trends and growth opportunities[J]. Journal of Cleaner Production, 2019, 227: 589-612.

[2] 彭周宁, 林培杰, 赖云锋, 等. 基于混合灰色关联分析-广义回归神经网络的光伏电站短期功率预测[J]. 电气技术, 2019, 20(10): 11-18.

[3] 姜雲腾, 李萍. 基于改进粒子群神经网络短期负荷预测[J]. 电气技术, 2018, 19(2): 87-91.

[4] 龚莺飞, 鲁宗相, 乔颖, 等. 光伏功率预测技术[J]. 电力系统自动化, 2016, 40(4):140-151.

[5] 李安寿, 陈琦, 王子才, 等. 光伏发电系统功率预测方法综述[J]. 电气传动, 2016, 46(6): 93-96.

[6] 田剑刚, 张沛, 彭春华, 等. 基于分时长短期记忆神经网络的光伏发电超短期功率预测[J]. 现代电力, 2020, 37(6): 629-638.

[7] 黄亚峰, 何威, 吴光琴, 等. 基于K-means++和LSTM网络的光伏功率预测研究[J]. 电气自动化, 2020, 42(5): 25-27.

[8] 王仕俊, 平常, 薛国斌, 等. 影响光伏功率输出因素的研究与分析[J]. 电气技术, 2018, 19(8): 68-71.

[9] CHEN Biaowei, LIN Peijie, LIN Yaohai, et al. Hour- ahead photovoltaic power forecast using a hybrid GRA-LSTM model based on multivariate meteoro- logical factors and historical power datasets[C]//IOP Conference Series: Earth and Environmental Science, 2020, 431: 012059.

[10] LIN Peijie, PENG Zhouning, LAI Yunfeng, et al. Short-term power prediction for photovoltaic power plants using a hybrid improved Kmeans-GRA-Elman model based on multivariate meteorological factors and historical power datasets[J]. Energy Conversion and Management, 2018, 177: 704-717.

[11] 王晨, 寇鹏. 基于卷积神经网络和简单循环单元集成模型的风电场内多风机风速预测[J]. 电工技术学报, 2020, 35(13): 2723-2735.

[12] AJIT A, ACHARYA K, SAMANTA A. A review of convolutional neural networks[C]//International Con- ference on Emerging Trends in Information Techno- logy and Engineering, 2020, 10: 1-5.

[13] ARTHUR D, VASSILVITSKII S. K-means++: the advantages of careful seeding[C]//Eighteenth Acm- Siam Symposium on Discrete Algorithms, New Orleans, Louisiana, 2007: 1027-1035.

[14] BAE K Y, JANG H S, SUNG D K. Hourly solar irradiance prediction based on support vector machine and its error analysis[J]. IEEE Transactions on Power Systems, 2017, 32(2): 935-945.

[15] 赖昌伟, 黎静华, 陈博, 等. 光伏发电出力预测技术研究综述[J]. 电工技术学报, 2019, 34(6): 1201-1217.

[16] XIONG Rui, LI Linlin, TIAN Jinpeng. Towards a smarter battery management system: a critical review on battery state of health monitoring methods[J]. Journal of Power Sources, 2018, 405: 18-29.

[17] HOCHREITER S, SCHMIDHUBER J. Long short- term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[18] 李彦冬, 郝宗波, 雷航. 卷积神经网络研究综述[J]. 计算机应用, 2016, 36(9): 2508-2515.

[19] 薛阳, 张宁, 俞志程, 等. 基于BiLSTM和Bootstrap方法的风电功率区间预测[J]. 可再生能源, 2020, 38(8): 1059-1064.

Photovoltaic power prediction based on K-means++ and hybrid deep learning

CHEN Zhenxiang LIN Peijie CHENG Shuying CHEN Zhicong WU Lijun

(Institute of Micro-Nano Devices and Solar Cells, College of Physics and Information Engineering, Fuzhou University, Fuzhou 350116)

The output of photovoltaic power generation shows strong volatility, which affects the dispatching management of power system. In this paper, a photovoltaic power prediction model using the hybrid of K-means++ and convolutional neural network and long short-term memory network (K- CNN-LSTM) is proposed. Firstly, the historical data set is classified by K-means++, then the appropriate data set is selected as the training set. Secondly, the LSTM prediction model with historical power as input is built to obtain the predicted power value to be modified. Then, the nonlinear relationship between meteorological parameters and photovoltaic power is mined by CNN, which is applied to obtain the correction coefficient for predicted power to improve the prediction accuracy. Finally, the random fluctuation of the input parameters is predicted for multiple times based on the point prediction model and the prediction error set is obtained to achieve interval prediction. Through the data set of photo- voltaic power station of Australian Desert Knowledge Solar Energy Center (DKASC), LSTM, CNN- LSTM and K-LSTM algorithms are selected for comparison. The results demonstrate that this method has high prediction accuracy and stability, and also achieves accurate output power interval prediction.

photovoltaic power prediction; K-means clustering; convolutional neural network (CNN); long short-term memory (LSTM) network

2021-01-19

2021-02-07

陈振祥(1995—),男,福建省泉州市人,硕士研究生,主要从事光伏电站发电功率预测工作。

猜你喜欢
修正气象卷积
气象树
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
修正这一天
基于3D-Winograd的快速卷积算法设计及FPGA实现
《内蒙古气象》征稿简则
合同解释、合同补充与合同修正
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
大国气象
美丽的气象奇观