基于偏互信息筛选的中长期径流预报方案比选

2022-11-04 01:50荣,汤阳,曹
人民长江 2022年10期
关键词:气候因子互信息石鼓

张 海 荣,汤 正 阳,曹 辉

(1.三峡水利枢纽梯级调度通信中心,湖北 宜昌 443002; 2.智慧长江与水电科学湖北省重点实验室,湖北 宜昌 443002)

0 引 言

精度较高的径流预报是水工程调度、水资源高效利用的重要基础。径流预报从预报尺度区分,可以分为以日或者小时为尺度的短期预报和以月或者旬为尺度的中长期预报。随着卫星遥感和数值天气预报等技术的快速发展,短期降雨预报在预见期和预报精度上都有了长足进步[1-2],考虑水文循环特性的短期径流方法层出不穷,短期径流预报精度不断提高。然而,由于大气环流异常复杂,较长时间尺度的降雨等气象因素预报效果欠佳,中长期径流预报较长时期以内仍以数理统计方法为主,具体可分为时间序列方法和多元数理回归方法等[3]。

近年来,随着气候观测技术和机器学习技术的快速发展,较多学者尝试将遥相关气候因子和机器学习引入中长期径流预报,并取得了不错效果[4-5]。受海陆循环影响,陆地水循环过程可能会受到大气环流指数、海平面气温、气压等遥相关气候因子的影响,但影响流域水文循环的因子往往成百上千,且存在不同程度的时滞效应,如前5个月的太平洋区域平均海平面温度与宜昌站的径流存在较强相关关系[6]。如此众多的输入因子在输入模型训练之前必须进行一定的预报因子筛选,保证模型的计算精度与效率。

输入因子的选择是中长期径流预报研究的重要内容。由于影响流域径流的遥相关气候因子往往与径流存在高维的非线性关系,一般的统计方法难以挖掘其中的相关关系。同时,因子与因子之间的相关关系如何剔除,如某一个因子可由其他因子推导得出,那么此因子包含的信息就是冗余信息,应该予以剔除。在众多输入因子筛选方法中,有学者以互信息为基础,通过度量输入变量与预报对象之间的相关关系,提出偏互信息方法,可有效剔除新加入因子对预报对象相关性的增量,有效避免了冗余变量的选入[7]。

在中长期径流预报模型研究方面,人工神经网络等模型发展迅速,其中包括BP(Back Propagation)神经网络[8]、自组织映射(Self-organizing Map,SOM)神经网络[9]、Hopfield神经网络[10]、径向基函数(Radial Basis Function,RBF)神经网络[11]、广义回归神经网络(General Regression Neural Network,GRNN)[12]等模型,均取得了较好的预报精度[13-17]。长短时记忆(Long Short- Term Memory,LSTM)网络是循环神经网络中一种带有门控的网络,能够考虑到数据的时序性特点,学习到数据之间的长期依赖关系,在处理时间序列数据的预测方面具有独特的优势,在时间序列预测领域使用广泛[18-20]。

随着电力市场改革的不断推进、水电站长中短期精细化调度要求的不断提高,长江流域中长期径流预报的重要性不断凸显,有众多学者采用多元线性回归[21]、人工神经网络[22]、贝叶斯经验统计[23]等方法探索了长江流域径流预报方法,但对业务预报中,如何有效应用遥相关气候因子、降雨信息等多源数据制定合理的预报方案,缺乏进一步的对比研究。基于此,本文以长江上游流域宜昌站为主要研究对象,在历史降雨径流数据的基础上,引入130个遥相关气候因子,基于偏互信息筛选输入因子,应用LSTM神经网络模型建模,对宜昌站的月径流预报方案进行比选。

1 研究区域概况

本文以长江上游主要控制站点宜昌站径流为主要研究对象。长江干流自江源至湖北省宜昌段为长江上游,包括江源段、通天河段、金沙江段和川江段。长江干流上游河段长4 504 km,流域面积约100万km2。长江流域的多年平均径流量中上游来水量占47.0%,其中金沙江水系占16.1%,岷沱江占10.9%,嘉陵江占7.4%,乌江占5.7%,长江上游干流占6.9%。

1.1 降雨与径流数据

研究采用1981~2019年宜昌站的还原月径流量,以及石鼓以上、雅砻江、石鼓-宜宾段、岷沱江、嘉陵江、乌江、宜宾-重庆段、重庆-宜昌段等8个子流域或区间的面平均累计月降雨作为基础数据。径流数据来源于长江水利委员会水文局历史整编资料,降雨数据来源于湖北省气象局整编资料。

1.2 气候因子

研究采用的气候因子从国家气候中心(https:∥cmdp.ncc-cma.net/Monitoring/cn_index_ 130.php)下载,包括北半球副高面积指数、北非副高面积指数、北非-大西洋-北美副高面积指数等88项大气环流指数,NINO 1+2区海表温度距平指数、NINO 3区海表温度距平指数、NINO 4区海表温度距平指数等26项海温指数,冷空气次数、西太平洋编号台风数、登陆中国台风数等16项其他指数,一共130个遥相关气候因子。

2 研究方法

2.1 偏互信息法

互信息(Mutual Information,MI)表示一个随机变量中包含另一个随机变量的信息量,可用于度量随机变量间的所有相关关系,包括线性相关关系和非线性相关关系。令X和Y为两个随机变量,其互信息可定义为

(1)

式中:fX(x)和fY(y)分别为随机变量X和Y的边缘概率密度函数;fX,Y(x,y)为X、Y的联合概率密度函数。若X、Y相互独立,联合概率密度函数等于边缘概率密度函数和的乘积,式(1) 中对数函数内的值恒为1,MI值等于0;相反,随机变量X和Y的相关性越强,MI值越大。

用互信息方法挑选影响径流的遥相关因子难以避免冗余信息,为此采用偏互信息法(Partial Mutual Information,PMI),剔除无关变量以精简模型输入。离散型偏互信息的定义为

(2)

(3)

式中:E为期望值;x为备选输入变量;y为预报对象;z为已选入的预报变量集合;x′为排除z影响x的残差;y′为排除z影响y的残差。其中,针对偏互信息中变量的边缘概率密度函数和联合概率密度函数估计,采取高斯函数作为核函数估计样本概率密度:

(4)

(5)

以 Hampel 显著性检验作为偏互信息的显著性检验标准确定选择边界,计算式为

(6)

2.2 LSTM

LSTM是从循环神经网络(Rerrent Neural Network,RNN)衍生而来。在求解时间相关的输入信号时,传统的人工神经网络由于其正向连接结构特性使其仅处理当前输入,而不能使用先前信息。RNN 是一个循环网络,它将隐藏神经元在前一个时间步的状态作为下一个时间步的附加输入。LSTM 则在RNN基础上具有删除或添加一些信息的能力。这个过程称为门的结构控制。LSTM 用一个记忆单元和3个门代替了隐藏层中的普通神经元:输入门、遗忘门和输出门。LSTM可以根据新的输入有选择地更新记忆细胞状态,忘记不相关的内容,或者分别根据输入、遗忘和输出门的状态有选择地输出一部分记忆细胞状态作为新的隐藏神经元状态。通过这种方式,LSTM 能够学习长时间跨度的时间序列。当前时间步ht的神经元状态计算如下[19-20]:

ft=σ(Wf·[ht-1,xt]+bf)

(7)

it=σ(Wi·[ht-1,xt]+bi)

(8)

(9)

ot=σ(Wo·[ht-1,xt]+bo)

(10)

(11)

ht=ot⊙tanh(Ct)

(12)

式中:ft,it分别为t时刻的两个控制门,ft为t时刻删除的旧消息,it为t时刻添加的新消息;Ct为t时刻的网络状态,Ct′为t时刻网络的更新信息;ht为t时刻LSTM隐藏层状态;xt为t时刻的预报因子;yt为t时刻的预报对象;σ为sigmoid函数;Wf为遗忘门权重矩阵;bf为遗忘门偏斜向量;Wi为输入门权重矩阵;bi为输入门偏斜向量;WC为状态更新的权重矩阵;bC为状态更新的偏斜向量;Wo为输出门权重矩阵;bo为输出门偏斜向量;ot为模型输出。

3 研究结果

3.1 相关因子选择

为充分对比宜昌站径流与遥相关气候因子、前期降雨和径流的关系,设计以下3种研究方案。

(1) 方案1:历史遥相关气候因子。由于遥相关气候因子与径流存在一定的滞后性,因此以1 a(12个月)为滞后时期,分别比选130个遥相关气候因子与长江上游径流预报的相关关系,形成1 560(130×12)个遥相关备选输入因子。特别说明,由于宜昌站径流存在较强的周期特性,在历史遥相关因子的分析中,并未将宜昌站历史径流放入备选因子,仅单独挖掘遥相关因子与宜昌站径流的相关关系。

(2) 方案2:历史降雨径流因子。参考遥相关因子的处理办法,对石鼓以上、雅砻江、石鼓-宜宾段、岷沱江、嘉陵江、乌江、宜宾-重庆段、重庆-宜昌段等8个子流域或区间的面平均累计月降雨,和宜昌站历史径流共计9个因子,以1 a(12个月)为时滞形成108(9×12)个降雨径流备选因子。

(3) 方案3:考虑径流及当月降雨。参考方案2,在此基础上增加石鼓以上、雅砻江、石鼓-宜宾段、岷沱江、嘉陵江、乌江、宜宾-重庆段、重庆-宜昌段等8个子流域或区间的预报当月降雨,共计116(108+8)个降雨径流备选因子。

偏互信息筛选因子的方法分为2步。第1步,对每个因子对应的时滞作为输入变量集合,如{石鼓以上前1月降雨,石鼓以上前2月降雨,…,石鼓以上前12月降雨},采用偏互信息法筛选石鼓以上降雨与宜昌站径流相关性显著的时滞。第2步,将第1步选出的输入因子重新组成集合,再次运用偏互信息法挑选与宜昌站径流相关性高的变量,形成最终的输入变量。

通过对上述3种方案进行偏互信息筛选,得到各种方案的输入因子如表1所列。

表1 不同方案输入因子选择结果Tab.1 Selection results of input factors for different schemes

从历史遥相关因子的结果筛选可知,长江上游来水与半年前的西太平洋副高、厄尔尼诺NINO 1+2区海表温度距平指数关系密切。这也与麦紫君等[6]的研究成果类似,而本研究更进一步印证了西太平洋副高系统对长江流域的径流影响。从历史降雨与径流的相关关系来看,宜昌站径流与去年同期宜昌站径流、上一月的岷沱江、乌江和雅砻江降雨关系密切,同时,模拟当月的嘉陵江、宜宾-重庆段降雨与宜昌站径流相关性较强。

3.2 中长期径流预报结果分析

利用LSTM模型,分别采用不同方案的输入因子,对宜昌站径流进行预报。其中,70%数据用作训练,30%数据用作检验。训练期以及检验期精度如表2 所列。

表2 不同方案预报精度结果Tab.2 Forecast accuracy of different schemes

从表2的结果可知,应用遥相关气候因子进行中长期径流预报具有一定的可行性,在未加入前期径流的情况下,检验期确定性系数为72%,且理论上单独使用遥相关气象因子进行预报,可以具有5个月的预见期。在应用历史降雨径流因子的预报中,由于去年同期和上月宜昌站径流的引入,检验期预报精度可以达到84%。进一步,若引入径流预报当月的实测降雨,检验期预报精度可达到93%,证明了宜昌站径流与当月降雨的强相关性,在中长期径流预报中应用定量预报降雨对于提升预报精度效果显著。

3种方案的实测与模拟径流值如图1~3所示。3种方案对径流的周期性,以及低流量过程都有很好的预报效果。方案1应用遥相关因子的中长期径流预报中,在训练期对于大流量过程刻画段准确,但在检验期,存在预报较大的情况。方案2中,对训练期内大流量过程存在预报偏小的问题,但对检验期的大流量过程刻画较准确。在方案3中,由于引入了模拟当月预报降雨,训练期和检验期的大流量过程模拟效果都较为优秀。对比方案1和方案2,可以得出遥相关气候因子相比于降雨信息,对中长期的极值预报具有更高的指导性,例如1998年的长江流域大洪水,厄尔尼诺便是其重要原因,而遥相关因子正好可以有效刻画这一现象。

4 结 语

本文以长江上游流域宜昌站为主要研究对象,在历史降雨径流数据的基础上,引入130个遥相关气候因子,基于偏互信息筛选输入因子,应用LSTM神经网络模型建模,对宜昌站的月径流预报方案进行比选。研究表明:长江上游来水与半年前的西太平洋副高关系密切,NINO 1+2区海表温度距平指数也与宜昌站径流存在较强的相关性。在遥相关气候因子之外,宜昌站径流与去年同期宜昌径流、上一月的岷沱江、乌江和雅砻江降雨关系密切,若能加入预报当月的嘉陵江、宜宾-重庆段降雨,将大幅提升宜昌站的中长期预报精度。

猜你喜欢
气候因子互信息石鼓
石鼓响了
石鼓书院
“中华第一古物”:故宫石鼓
基于改进互信息和邻接熵的微博新词发现方法
气候因子对天然草地牧草产量的影响分析
气候因子对烤烟质量风格特色的影响
基于GIS技术的山西忻州精细化酥梨气候区划
外婆的石鼓湾
基于互信息的图像分割算法研究与设计
基于互信息的贝叶斯网络结构学习