权马尔可夫链在降水量预测中的应用

2020-03-04 13:19车欣原
水利信息化 2020年1期
关键词:马尔可夫曲靖市特征值

胡 鑫 ,车欣原

(1. 云南省水文水资源局曲靖分局,云南 曲靖 655000;2. 云南大学经济学院,云南 昆明 650500)

0 引言

降水中长期预测无论在水文学还是气象学中,都是一项非常重要的工作。权马尔可夫链预测模型算法简单,思路清晰,能够确定研究序列的状态及具体值,在径流、降水、城市需水、水质定量等预测中都得到了广泛应用。近年来,众多学者在应用马尔可夫链模型预测降水、需水等方面开展了大量研究。王涛等[1]建立了适用于银川地区年降雨量的加权马尔可夫链预测模型,并采用平稳分布估计年降雨量各状态的重现期;岳遥等[2]将模糊集理论中级别特征值的概念引入马尔可夫模型,提出基于投影距离的方法进行水质定量预测;韩璞璞等[3]采用权马尔可夫链模型预测庐江县降水量,为进一步研究该区域降水时空分布规律、变化趋势、城市防洪等提供了依据;张茜等[4]应用无偏灰色马尔可夫链模型对吉林省降雨量进行预测,根据预报结果讨论历史波动性与预报精度的关系;杨皓翔等[5]建立加权灰色马尔可夫 GM(1,1)模型预测城市需水量,提高了修正灰色模型预测值的精度并拓宽了传统灰色模型预测的应用范围。

曲靖市地处长江、珠江流域的分水岭地带,山高谷深,河网发育,冬春干旱少雨,夏秋湿润多雨,多年平均降水量为 1 068.7 mm。降水时空分布不均,5—10 月降水占全年降水的 85% 左右。北部年际变化比南部大,西部比东部大,越是小的河谷和坝区,丰枯年间的降水差异越大。由于降水影响因素的复杂性和多样性,降水过程通常呈现较大的不确定性和随机性,而马尔可夫链比较适合预测波动较大的随机过程。为此,本研究选取曲靖市 1976—2017 年共 42 a 降水量实测资料为数据样本,通过建立权马尔可夫链模型预测降水状态,大量的分析、计算过程则通过 SPSS Statistics 统计软件加以实现,操作较为简便。因降水过程的随机性和不确定性,给通过数学模拟的方法准确预测降水量带来一定的难度,传统的马尔可夫模型通常只能预测出未来某时段降水量的适当变化区间。针对这一不足,本研究在权马尔可夫链模型预测各降水量状态(定性预报)的基础上,引入模糊集理论中的级别特征值对 2016—2018 年降水量进行定量预测。

1 权马尔可夫链预测原理及方法

1.1 马尔可夫链的定义

无后效性是马尔可夫过程最为重要、基本的特征,已知“现在”“将来”与“过去”是独立的,这一特性被称为马尔可夫过程的“无后效”。具有离散时间和状态的马尔可夫过程称为马尔可夫链[6-7]。对于时间 t,若定义在概率空间上的随机过程 {X (t),t ∈T} 满足以下条件:

1)时间集合取非负整数集 T ={0,1,2,…},对应于每个时刻,状态空间是离散集,记作 E ={0,1,2,…},即 X (t) 是时间、状态离散的。

2)对任意正整数 l,m(转移时刻),k,任意非负整数 jl> … > j2> j1,(m > jl)与相应的状态 im+k,im,ijl,…,ij2,ij1,下式成立:

则称 {X (t),t∈T } 为马氏链。这里要求式 (1) 的左端有意义,也就是说:P{X (m) = im,X ( j 1) = ijl,…,X ( j 2) = ij2,X ( j 1) = ij1} > 0。

在实践中,通常会考虑到齐次马尔可夫链,也就是说,任意的 k,n∈ N+,有

式中:Pij(n,k) 代表阶段 n 从状态 i 通过 k 步转变到状态 j 的概率;Pij(k) 代表通过 k 步从状态 i 向状态 j 转移的概率。齐次马尔可夫链 {X (t)} 由其初始分布 P (i0) = P{X0= i0} 及状态转移概率 {Pij(k) = P{X (m + k) = j |X (m) = i},(i,j∈E ),所构成的矩阵决定[8]。P (i0) 为马尔可夫链的初始分布概率,且 0 ≤P (i0) ≤ 1,i0∈E。

1.2 权马尔可夫链预测的思想

为充分达到合理利用信息进行预测的目的,可根据降水量为相依的随机变量这一性质,用自相关系数定量预测其相依关系的强弱。首先采用均值-标准差分级法划分降水的丰枯变化区间,然后对自相关系数进行规范化处理后作为权重,再加权马尔可夫链模型用于预测降水状态。在此基础上,通过模糊集理论中的级别特征值推测降水量的值。

1.3 权马尔可夫链模型的建立及预测步骤

权马尔可夫链模型的建立及预测步骤如下:

1)步骤 1。根据样本系列计算样本均值 x 和标准差 S,公式如下:

假设指标值序列为 x1,x2,…,xn,xi为第 i 时段指标值,以样本均方差为标准建立指标值序列的分级标准。实际应用中,指标值的变化范围常常为(-∞,- α1S),[- α1S,- α2S),[- α2S,+ α2S),[+ α2S,+ α1S),[x + α1S,+ ∞),其中,α1,α2分别为信度值的上限和下限,α1可在 [1.0,1.5] 中取值,α2可在 [0.3,0.6] 中取值。

2)步骤 2。根据步骤 1 所定的分类标准,确定数据序列中每一时段与指标值对应的状况。

3)步骤 3。每个阶的自相关系数 rk(k ∈E)计算如下:

式中:rk是 k 阶的自相关系数;n 是指标值系列长度。4)步骤 4。对各阶自相关系数标准化,即

式中:wk为不同滞时马尔可夫链权重;m 为预测需要计算到的最大阶数。

5)步骤 5。根据步骤 2 取得的成果,计算不同滞时马尔可夫链转移概率矩阵。

6)步骤 6。分别以若干时段的指标值为初始状态,结合相应的各阶状态转移概率矩阵,即可预测出该时段指标值的状态概率Pi(k),i∈E,k 为滞时(步长),k =1,2,…,m。

7)步骤 7。对同一状态的各预测概率进行加权和作为指标值的状态预测概率 Pi,即

Pi,max所对应的 i 是该时段指标值的预测状态。具体的降水量使用模糊级理论的级别特征值计算,并与实测值进行比较。

2 模糊级理论中的级别特征值

给各个状态赋予相应权重,则构成权重集 D ={d1,d2,d3,d4,d5},权重取决于各状态概率的大小,也就是说

式中:η 对应于最大作用概率系数,通常为 2 或 4。定义级别特征值 H 计算如下:

若根据最大概率确定的状态为 i,且 H > i,则预报值为 TiH/(i + 0.5);如果 H < i,则预报值为 BiH/(i - 0.5)。状态 i 区间值的上限和下限分别为Ti,Bi。

3 实例应用

选取云南省曲靖市水文水资源局具有代表性的76 个雨量站 1976—2017 年共 42 a 实测降水数据序列,通过加权马尔可夫链模型进行分析和预测,说明方法的具体应用。图 1 为应用权马尔可夫链模型预测降水量的流程。

图 1 权马尔可夫链模型结合级别特征值预测降水量流程

3.1 计算降水量序列的均值及标准差

假设降水量序列为 x1,x2,…,xn,xi为第 i 时段降水量,n 为降水系列的长度,曲靖市 1976—2017 年降水量资料如表 1 所示。根据表 1 中数据计算的年降水量序列的均值 x 和标准差 S 分别为

3.2 进行降水序列的分级

取 α1= 1.1,α2= 0.5,采用样本均值-标准差分级法将曲靖市降水量划分为枯水年、偏枯年、正常年、偏丰年、丰水年 5 个等级,对应的状态为 1~5,据此,年降水量的分类标准如表 2 所示。依据表 2 分级标准,确定 1976—2017 年降水序列内降水量对应的状态,状态计入表 1 中。

3.3 计算不同滞时的马尔可夫链状态转移概率矩阵

根据表 2 所示的年降水量状态序列,统计一步转移频率 F 如下:

表 1 曲靖市 1976—2017 年降水量序列及其状态表

表 2 年降水量分级表

式中:fij为从状态 i 经一步转移到状态 j 的频率。而转移概率为

式中:Pij(k) 代表通过 k 步从状态 i 向状态 j 转移的概率。故可得到各种步长(1~5 阶)的转移概率矩阵分别如下:

3.4 计算研究序列各阶自相关系数及其权重

本次研究选取的样本为曲靖市 1976—2017 年共 42 a 实测降水数据序列,为计算研究序列的自相关系数,需把 xi变换成 pi,令 pi= xi- x,其中 x = 983.7 mm,计算得到的 pi的具体值如表 3 所示。

式 (5) 可变换成以下公式:

式中:n 为降水系列的个数,取 n = 42;k =1,2,…,5。

按照式 (12) 计算的 1~5 阶自相关系数如下 :

根据式 (6) 对自相关系数进行规范化处理(计算权重),则0.474 = 0.241,同理,可计算得到 w2= 0.251,w3= 0.044,w4= 0.177,w5= 0.288。各阶自相关系数及其权重结果如表 4 所示。

3.5 预测 2016—2018 年降水量

根据 2011—2015 年降水量及相应的状态转移概率矩阵,采用 1~5 阶权重系数分析和预测曲靖市2016 年降水量,结果如表 5 所示。

表 3 曲靖市 1976—2017 年降水序列样本数据

表 5 曲靖市 2016 年年降水量预测表

由表 5 可知,Pi,max= 0.408,此时 i = 5,即 2016 年降水量的预测状态为 5,属丰水年(xi≥1 136.6 mm)。根据模糊级理论,当 η = 2 时,级别特征值为 4.20,可求出 2016 年降水量为 1 060.8 mm,据曲靖市水文水资源局实测数据,2016 年实际降水量为 1 099.7 mm,预测值与实测值相对误差为 3.54%;当 η = 4 时,级别特征值为 4.78,可求出年降水量为 1 207.3 mm,相对误差为 -9.78%。

根据 2012—2016 年降水量及相应的状态转移概率矩阵,采用 1~5 阶权重系数分析和预测曲靖市2017 年降水量,结果如表 6 所示。

表 6 曲靖市 2017 年年降水量预测表

由表 6 可知,Pi,max= 0.364,此时 i =3,即 2017 年降水量的预测状态为 3,年降水量区间为 [914.1,1 053.2)mm。根据模糊级理论,当 η = 2 时,级别特征值为 2.98,可求出年降水量为 1 089.6 mm,据曲靖市水文水资源局实测数据,2017 年实际降水量为 1 173.7 mm,预测值与实测值相对误差为 7.16%;当 η = 4 时,级别特征值为 2.99,可求出年降水量为 1 093.3 mm,相对误差为 6.85%。

根据 2013—2017 年降水量及其相应的状态转移概率矩阵,采用 1~5 阶权重系数分析和预测曲靖市 2018 年降水量,结果如表 7 所示。

表 7 曲靖市 2018 年年降水量预测表

由表 7 可知,Pi,max= 0.458,此时 i =3,即 2018 年降水量的预测状态为 3,年降水量区间为 [914.1,1 053.2)mm。根据模糊级理论,当 η = 2 时,级别特征值为 3.30,可计算出 2018 年降水量为 993.0 mm,据曲靖市水文水资源局实测数据,2018 年实际降水量为 1 083.8 mm,预测值与实测值相对误差为 8.38%;当 η = 4 时,级别特征值为 3.12,可求出年降水量为 938.9 mm,相对误差为 13.4%。

根据计算结果,对 2016,2017,2018 年降水量实测值与预测值进行误差分析,分析结果如表 8 所示。当 η = 2 时,根据模糊集理论计算出的年降水量相对误差为 3.54%~8.38%;η = 4 时,相对误差为 -9.78%~13.4%。按照 GB/T 22482—2008 《水文情报预报规范》,许可误差是依据预报成果的使用要求和实际预报技术水平等综合确定的误差允许范围,降水预报以实测降水量的 20% 作为许可误差。本次计算的降水量预测值与实测值误差在 20% 以内,符合《水文情报预报规范》规定的误差值要求。其成功地将马尔可夫链与相关分析结合起来进行预测,方法思路清晰,计算简便,具有一定的实用价值,可为进一步提高中长期降水量预测精度提供探索途径。

因资料和篇幅所限,本次未涉及马尔可夫链遍历性定理方面的深入研究,未采用其他方法和模型对预测结果作进一步的对比和验证。鉴于中长期预报的复杂性,今后随着资料的逐步累积和代表性增强,将在以下 2 个方面加以探讨和研究:1)应用马尔可夫链的遍历性定理研究序列的极限分布,进一步深入分析降水量的分布特征和状态重现期;2)采用非平稳序列逐步回归分析或水文耦合模型与数理统计相结合等多种方法,对未来降水、径流规律进行分析研究,以期为研究该区域降水规律和变化趋势、城市防洪、水资源、水生态调度等提供依据和参考。

表 8 2016—2018 年曲靖市降水量实测值与 预测值相对误差分析表

4 结语

本研究采用加权马尔可夫链模型对曲靖市(2016—2018 年)近 3 a 降水量进行分析预测并验证了模型的可靠性。研究结果表明:预测值与实测结果基本吻合,且相对误差在 20% 以内,应用马尔可夫链模型并结合模糊集理论定量预测降水量具有较高的可靠性,将此方法应用于降水量预测是可行、有效的。

本研究提出的权马尔可夫链预测方法,应用样本均值-标准差分级法确定分级标准,可以更充分地考虑降水量序列的数据结构,使划分的降水量区间(分级标准)更为合理;用各种步长的马尔可夫链加权预测降水,可以更充分、合理地利用信息,使

猜你喜欢
马尔可夫曲靖市特征值
曲靖市成立“珠源少年宣讲团”
利用LMedS算法与特征值法的点云平面拟合方法
曲靖市试行食用农产品合格证制度前景展望
单圈图关联矩阵的特征值
云南省曲靖市会泽福建会馆今景
凯莱图的单特征值
面向电力系统的继电保护故障建模研究
基于马尔可夫链共享单车高校投放研究
基于马尔可夫链共享单车高校投放研究
基于马尔科夫算法对预测窗户状态模型的研究