文 | 马强,刘波,安宗文
基于核密度估计的风速建模方法﹡
文 | 马强,刘波,安宗文
风能作为一种清洁可再生资源,正在被越来越多的国家用以发电并作为改善能源结构的一种措施。风能具有的随机性、波动性及间歇性特点将对风电机组的安全稳定运行带来影响;同时,风速预测也是风功率预测的关键步骤之一。目前,风速模型主要从概率分布角度出发对其随机性进行描述,当研究短周期或某些特殊时段的风速分布特性时,由于气候变化等随机因素影响的明显增强,将会导致两峰甚至多峰风速分布情况的出现。因此,对于多峰风速分布情况,如何对其进行有效的风速分布描述及建立相应的风速模型,具有一定的研究意义。
基于此,本文针对风速分布可能呈现单峰、双峰或多峰的特性,提出一种基于核密度估计建立风速模型的方法。通过MATLAB对实测风速进行核密度估计并绘制概率密度估计值曲线;利用权重系数组合多个正态分布对概率密度估计值曲线进行拟合,从而获得风速的概率密度函数;由概率密度函数生成随机风速样本并通过残差值和确定系数对拟合精度进行检验。
为了获得总体概率密度分布,常用的方法有参数法和非参数法。
参数法由样本的频率直方图轮廓假设总体的概率密度分布,并通过样本对分布参数进行估计。如图1所示,样本的频率直方图轮廓呈单峰状,近似正态分布。因此假设总体服从正态分布,并通过样本对正态分布参数μ,σ进行估计得到总体的概率密度分布,如图2所示。
参数法依赖于对总体分布的假设,并且对分布参数进行估计时所涉及函数常为多元函数,需使用最大似然估计等方法借助编程计算获得参数估计值,过程相对复杂。威布尔模型、权重系数组合模型都属于参数法。
非参数法则根据某一点处概率密度值与该点附近包含样本个数间的关系对其进行估计,无需假设总体分布及参数估计,引用经验密度函数^f( x )作为总体密度函数的一个非参数估计,如式(1)所示:
式中,n为样本总数;hi表示每个区间的长度,称为带宽; ni为该带宽内样本点个数。某一点x处的概率密度估计值大小与该点附近包含的样本点个数有关。若x附近样本点较多,则概率密度估计值较大,反之较小。
由式(1)可知,某一点处的密度函数估计值依赖于区间的划分。为了克服区间划分的限制,Paren提出按照邻域内各点距离x的远近来确定其贡献大小,即核密度估计,如式(2)所示:
式中,K为核函数,即某个分布的密度函数,常用分布有正态分布、均匀分布等;Xi为样本值,h为带宽。
实际上,核函数K的选取对于概率密度估计值影响不大,而带宽h的选取则会直接影响概率密度估计值。取较大的值则有更多的样本点对概率密度估计值产生影响,生成曲线越光滑,但也丢失了部分数据信息;取较小的值,则生成曲线为不光滑折线,但能反映每个数据所包含的信息。
通过核密度估计,可以获得各样本点的概率密度估计值,但不能像参数法一样获得总体的概率密度函数。
一、 风速模型的建立
(一)以风电场的实测风速数据为基础,利用MATLAB软件调用ksdensity函数对实测风速数据进行核密度估计,获取风速分布的概率密度估计值并绘制其曲线。
(二)针对概率密度估计值曲线,利用权重系数组合多个正态分布进行拟合,表达式为:
式中, n为所用正态分布个数, ai、 bi、ci为分布参数,i =1,2 n 。拟合过程可通过MATLAB的曲线拟合工具箱实现,所用正态分布个数由函数f(x)曲线与概率密度估计值曲线的接近程度决定。拟合所获得的函数f(x),即为实测风速的概率密度函数。
二、 风速模型的验证
由拟合获得的概率密度函数f(x),基于蒙特卡罗方法通过MATLAB编程生成符合该分布函数的随机风速模型进行拟合精度检验。
(一) 残差值ew
残差值为实测风速vi由小到大排序后,与随机风速模型样本v^i之差的平方和,表达式为:
(二) 确定系数R2
确定系数是用于检验某种分布与原数据分布是否一致的统计方法,表达式为:
式中,R2越接近1,则拟合越好,模型参考价值越高。
表1 某风电场一个月实测风速数据
表2 多峰风速建模时概率密度函数参数值
表3 短期风速模型拟合精度比较
表4 某风电场2006年全年实测风速数据
表5 单峰风速建模时概率密度函数参数值
表6 长期风速模型拟合精度比较
一、风速分布呈多峰状时
基于表1中的实测数据,通过本文风速模型的建模方法,计算分析可知,当所用正态分布的个数n取5时,f(x)曲线与实测风速概率密度估计值曲线最接近,f(x)各参数的计算结果如表2所示。
根据表1中的数据(考虑到风电场方面的利益,所以只是在表1中列举了部分数据)分别绘制实测风速频率直方图、本文风速模型概率密度曲线及威布尔模型概率密度曲线,如图3所示。图3中该风电场一个月的实测风速分布呈多峰状,本文风速模型概率密度曲线与实测风速频率直方图轮廓更为接近,对于多峰情况的描述更加准确。
采用蒙特卡罗方法,生成威布尔模型、本文风速模型的随机风速样本,并计算得到残差值、确定系数,如表3所示。表3中,本文风速模型的样本残差值为93.9797,远小于威布尔模型的样本残差值;同时,确定系数达到99.36%,相较于威布尔模型提高了4.48%。
二、风速分布呈单峰状时
基于美国国家可再生能源实验室(NREL)提供的某风电场2006年全年风速数据,如表4所示。基于表4中的实测数据,通过本文风速模型的建模方法,计算分析可知,当所用正态分布的个数n取5时,f(x)曲线与实测风速概率密度估计值曲线最接近,f(x)各参数如表5所示。
根据表4中的数据分别绘制实测风速频率直方图、本文风速模型概率密度曲线、威布尔模型概率密度曲线,见图4。图4中,对于风速分布呈单峰状时,本文风速模型概率密度曲线对于实测风速频率直方图轮廓发生细微变化处的描述更加准确,有利于还原真实的风速分布。
采用蒙特卡罗方法,生成威布尔模型、本文风速模型的随机风速样本,并计算得到残差值、确定系数,如表6所示。表6中,威布尔模型对于单峰风速分布具有较高的拟合精度,但本文方法风速模型在拟合精度上仍高于威布尔模型。
本文基于核密度估计提出了一种建立风速模型的方法,并通过MATLAB软件分别对实测风速分布呈单峰、多峰的情况进行了拟合。由拟合结果得出以下结论:本文方法所建模型对于单峰、多峰风速分布均具有较高的拟合精度,能够为风能预测以及可靠性评估等研究提供更加准确的风速模型。
(作者单位:兰州理工大学机电工程学院)
基金项目:﹡国家科学自然基金(51265025)——《基于载荷条件及失效相关的风电齿轮箱寿命建模》