机器学习方法在湖南夏季降水预测中的应用

2022-05-12 23:13黄超李巧萍谢益军彭嘉栋
大气科学学报 2022年2期
关键词:机器学习预测

黄超 李巧萍 谢益军 彭嘉栋

摘要利用湖南97个国家站的逐月降水资料、国家气候中心130项气候指数集以及国家气候中心和美国国家环境预报中心两套季节预测模式的降水预测资料,采用递归特征消除法确定预测因子并使用多层前馈神经网络、支持向量回归和自然梯度提升三种算法建立了两种湖南夏季降水统计预测方案的模型,检验了预测效果。结果表明:基于机器学习的预测模型对湖南夏季雨型分布有较好的预测能力,两种统计方案提前1~6mon起报的夏季降水平均距平相关系数分别为0.15和0.19,相比于NCEP和NCC模式有较大提升,平均PS评分分别为69.3和69.2,高于NCC模式的63.1,略低于NCEP模式的71.5;进一步分析表明,3—5月起报的机器学习模型的预测技巧可能来源于前冬极地和中高纬环流,12—2月起报的模型预测技巧则可能来自海温的前兆信号。

关键词机器学习;夏季降水;预测

湖南地形具有三面环山、南高北低的特点,气候复杂多变,夏季旱涝转换(李易芝等,2017),易出现洪涝、干旱等气象灾害。在全球变暖背景下,湖南夏季极端降水明显增加(周莉等,2018),因此进一步提升夏季降水预测水平对湖南防灾减灾具有重要现实意义。

目前降水季节趋势预报主要分为统计学、动力学和动力统计相结合三类方法。统计方法充分利用历史资料规律,选取有明确物理意义和显著相关的因子进行建模。范可等(2007)通过前期因子建立统计模型对长江中下游夏季降水年际增量进行预测,显著提高了业务预测技巧。杜良敏等(2016)针对不同气候分区建立统计模型对我国夏季降水进行预测。李春晖等(2018)采用时空投影方法建立广东省降水统计预测方法。Yimetal.(2014)使用统计模型对中国南方夏季降水进行预测。但由于各预测因子相互作用过程复杂,不同时间尺度的预测信号不一致,加大了预测的难度。随着数值模式的发展,动力模式成为气候预测的主要工具,许多国家建立了数值预报模式(丁一汇,2011)。近年来,我国季节预测模式对大气环流、ENSO(ElNioSouthernOscillation)现象、亚洲夏季风等的预测能力已有明显提升(吴捷等,2017),但对降水预测技巧依然有限,特别是对东亚地区夏季降水的预报技巧相对较低(王予等,2021)。在这样的现实情况下,专家学者在此基础上发展了动力和统计相结合的预测方法(封国林等,2013),充分利用历史资料并考虑大气海洋物理机制,进一步提高了降水预测准确率。柯宗建等(2009)提出了最优子集回归方法。贾小龙等(2010)发展了变形典型相关分析(CombinationofEmpiricalOrthogonalFunctionandCanonicalCorrelationAnalysis,BPCCA)方法。舒建川等(2019)在此基础上使用BPCCA方法在西南地区进行了应用。组合统计降尺度方法(LiuandFan,2014;刘颖等,2020)也能够提升一定的降水预测技巧。此外,国家气候中心多模式解释应用集成预测系统(MultimodelDownscalingEnsemblePredictionSystem,MODES)(刘长征等,2013)和动力统计相结合的季节预测系统(ForecastSystemonDynamicAnalogueCombinedSkills,FODAS)(王启光等,2011)的研发对我国夏季降水预测业务水平提升起到了关键作用。

机器学习强调从历史数据中学习规则,对新数据进行推理和预测。区别于传统统计方法,机器学习擅长处理非线性问题,利用机器学习的优势可以从地球系统中发现并提取新的相互关联信号(贺圣平等,2021)。近年来,机器学习在气象领域的应用越来越广泛,常用的机器学习算法有支持向量机、贝叶斯算法、神经网络、决策树算法等(冯汉中和陈永义,2004;孙照渤等,2013;张宇彤等,2013;苗春生等,2017)。随着计算能力的提高和深度学习理论的发展,以卷积神经网络(ConvolutionalNeuralNetworks,CNN)和长短期时间记忆网络(LongShortTermMemory,LSTM)为代表的深度学习方法在气候领域得到应用,例如CNN算法对ENSO指数的预测技巧超过了主流动力模式(Hametal.,2019),沈皓俊等(2020)采用的LSTM算法对中国夏季降水预测评分超过了同期业务模式。

湖南夏季降水时空分布不均,影响因子复杂,当前对其机理和预测的研究还存在短板,动力模式预测水平与业务服务需求存在差距,有必要利用机器学习的优势进一步提高当地预测水平。考虑到湖南降水观测资料年份较少,不适合深度学习方法,因此本文采用随机森林算法进行递归特征消除来挑选预测因子,使用多层前馈神经网络、支持向量回归和自然梯度提升方法建模,结合动力模式降水预测结果,建立适用于湖南本地的夏季降水统计预测方法。

1资料和方法

1.1数据来源和预处理

预报因子资料来源于国家气候中心提供的气候系统监测指数集(下载地址:http://cmdp.ncccma.net/Monitoring/cn_index_130.php),共包含130项气候系统指数的月平均值。其中大气环流指数88项,主要包括副高、东亚槽、极涡、欧亚环流型、遥相关、太平洋信风等大气环流指数。海温指数26项,主要包括厄尔尼诺(各区及类型)、暖池、印度洋、亲潮区、黑潮区等海温指数。其他指数16项,主要包括冷空气、台风、南方涛动、北太平洋年代际振荡、准两年振荡、次表层海温等指数。时间尺度为1980年1月—2020年12月,若出现缺测,直接将该因子剔除。

美国国家环境预报中心(NationalCentersforEnvironmentalPrediction,NCEP)和国家气候中心(NationalClimateCenter,NCC)气候预测模式数据来自MODES系统,空间分辨率均为1°×1°,NCEP模式历史回算时间范围为1982—2020年(其中2011年资料缺失),模式气候态取1982—2010年,NCC模式历史回算时间范围为1991—2020年,气候态取1991—2010年。分别计算模式不同起报时间的夏季(6—8月)降水距平百分率,并采用双线性插值将网格数据插值到站点上。实况夏季降水资料来自湖南省97个國家站1981—2020年的观测数据,夏季降水没有明显的线性趋势,因此未做去趋势处理,直接处理成降水距平百分率进行分析。

样本集共包含1981—2020年共40a、6个起报时间、10个模态共计2400个样本(40×6×10);根据起报时间和模态划分为60个子样本集,每个子样本集40个样本;训练集时间段为1981—2010年,测试集为2011—2020年。建模时挑选对应起报时间和模态的样本集,其中训练集30个样本进行训练和交叉验证,测试集10个样本进行独立检验。

1.2评估方法

对湖南夏季降水评价指标采用趋势异常综合评分PS(PS)和空间距平相关系数ACC(AnomalyCorrelatiomCoefficent,ACC)。PS评分的计算公式为:

其中:N为总站数,本研究中取97;P1=0.5,P2=1.0;N0为预报与实况距平符号相同站数或符号不同但相差只有1级站数之和;N1为预报与实况同为2级5级的站数,N2为预报与实况同为1级、6级的站数。

ACC的计算公式为:

其中:n为站点数,yi和oi分别表示预测值和观测值;和分别表示预测值和观测值的平均值。

1.3建模方法

为了减少建模过程中机器学习算法的随机性影响,本文采用多层前馈神经网络、支持向量机和决策树集成三种不同的机器学习方法进行建模,这三种算法均属于机器学习中的分类和回归方法,对数据的识别和拟合过程具有一定差异。

1)多层前馈神经网络

本文使用的神经网络算法为多层前馈神经网络,其一般包含输入层、隐含层和输出层(韩力群,2006;LeCunetal.,2015)。隐含层越多,模型数据表示能力越强,更易造成过拟合,因此本文仅采用两层隐含层,神经元个数也不超过预报因子个数。模型的表达式为:

其中:xi为节点i的输入值;Pk为节点k的输出值;g1为隐含层激活函数;g2为输出层激活函数;m和n分别为输入层和输出层神经元个数;wj0为隐含层第j个神经元的偏差;wk0为输出层第k个神经元的偏差;wkj为输出节点k与隐含节点j的权重;wji为输入节点i与隐含节点j的权重。

2)支持向量回归

支持向量回歸是支持向量机的拓展,算法通过核函数在高维或有限维空间中构造一个或一组超平面使数据与其距离最小(陈永义等,2004),在处理小样本、高维和非线性问题上具有优势。本文选用高斯核函数,因此表达式为:

其中:L为支持向量的个数;ai、a*i、b为通过训练样本确定的最优超平面参数;xi为预报因子;σ为控制高斯核参数宽度的参数。

3)决策树集成

决策树是机器学习中的分类回归算法,对于回归问题,算法目标是尽量使划分同一类别的平方误差最小,但也易造成过拟合,可通过决策树集成方法克服。本文使用的随机森林和自然梯度提升树均属于决策树集成算法。随机森林回归算法通过对训练集重复随机采样进行决策树建模,取多个决策树平均值作为预测结果(Breiman,2001);而自然梯度提升树算法通过梯度提升方法进行预测,不断对预测残差进行建模并集成多个决策树,从而达到减少预测误差的目(Pengetal.,2020)。

4)递归特征消除法

递归特征消除法是机器学习中常用的特征处理方法,起到挑选重要因子的作用。该方法通过反复构建模型剔除重要程度最低的因子,并遍历所有因子达到确定因子重要程度的目的。本文采用的重要性衡量方法为基尼重要性,在随机森林内部节点中通过反复将数据集分为两个独立的集合,计算每次分类后的集合内部方差,依据分类前后集合的方差差值确定气候因子的重要性,方差差值越大表示因子重要性越高。

2机器学习在降水预测中的应用

2.1湖南夏季降水预报方案

将机器学习方法应用预测因子筛选及湖南夏季降水预测建模中,图1给出了降水预测的主要流程:

1)资料处理:分为三部分,第一部分获取前期因子集,将起报时间前3mon的130项气候系统指数作为前期因子集,例如5月起报的模型使用的是2、3、4月的气候因子。第二部分是降水数据,对1981—2010年湖南夏季观测降水的距平百分率采用经验正交函数分析方法(EOF)进行分解,时间系数为预测目标。第三部分是模式预报降水场,使用观测降水场EOF分解后的空间系数对模式降水场进行投影,得到模式预报的时间系数。

2)筛选关键因子组合:基于机器学习的递归特征消除思想,采用随机森林算法获取重要的气候因子,再通过交叉验证选取合适的关键因子组合。

3)建模:分为两个方案,方案一直接使用筛选的关键因子组合与EOF时间系数进行建模;方案二将NCEP模式预报的降水场时间系数与方案一中的因子共同作为预报因子进行建模。

4)输出预报结果:利用模型预报的时间系数和观测降水EOF分解的空间系数还原成预报降水场,对不同机器学习模型的预报结果进行等权集合平均作为最终的预报结果。

2.2确定预测因子及EOF模态个数

使用随机森林算法进行递归特征消除来筛选预测因子,随机森林算法通过计算预测因子的基尼重要性对其进行排序,从而剔除不重要的预测因子,达到降维的目的。将所有候选气候因子与前10个EOF模态时间系数分别进行递归特征消除(决策树数量参数设置为100,持续增大后误差并无显著减少),采用五折交叉验证进行误差分析。图2给出了5月起报的前10个模态通过递归特征消除法剔除因子后均方根误差,当因子数达到某一阈值,误差趋于平稳。在因子重要性排序之后,选取该阈值之前的关键性因子即能在降低模型误差的同时达到降维的目的,依据此方法便得到提前1~6mon起报和不同模态的预测因子(表2)。

采用交叉验证方法分析不同EOF模态个数对预测结果的影响。图3给出了利用1981—2010年湖南夏季降水数据分别截取前1~20个不同EOF模态进行五折交叉验证的结果,ACC和PS评分均为提前1~6mon起报的平均值。从图中可以看出,EOF模态个数超过6个,PS和ACC变化趋于平稳,当EOF个数取8和10时,ACC和PS分别达到最大值。结合图3中所示的不同EOF模态的累计方差贡献率以及还原后降水场与观测场的相关系数来看,EOF模态个数越多,越能反映降水的时空变化,因此这里将EOF模态个数定为10,此时累计方差贡献率为89.1%,ACC和TCC分别达到0.86和0.94,能够反映降水的时空分布特征。

2.3参数设置及模型建立

表3中给出了多层前馈神经网络、支持向量机回归、自然梯度提升树三种算法的参数范围,为避免

过拟合,参数设置尽量简单,降低模型复杂度,所有数据进行标准化处理。神经网络层数为2层,节点数取20~50,激活函数使用Relu;支持向量机使用高斯核;自然梯度提升树的决策树数量在20~500间取值。建模时取训练集对参数取值范围内的不同参数组合分别建模。例如对5月起报的EOF第一模态时间系数使用多层前馈神经网络建模时,隐含层数量为2,对应隐含层节点数分别为{50,50}、{40,40}、{30,30}、{20,20}共4组,正则化参数分别为0.0001、0.001、0.01、0.1、1共5个,不同参数组合共计20个;然后采用五折交叉验证方法计算得到20个模型的平均均方根误差,其中隐含层节点数为{40,40}、正则化参数为0.01的模型误差最小,作为最终预测模型;重复该步骤即得到2种方案3种算法10个模态提前1~6mon起报的共计360个预测模型。

对比三种算法不同起报时间的平均均方根误差(图4a),提前1、3、4mon起报的模型中支持向量回归误差最小,提前2、5、6mon起报的模型中,自然梯度提升树误差最小;通过不同模态的平均均方根误差来看(图4b),预测误差主要位于前两个模态。

两种统计方案分别使用2011—2020年和2012—2020年数据进行独立样本检验,得到对应年份97个国家站夏季降水距平百分率数据并评估预报技巧。图5分别给出气候模式本身及两种方案的统计模型提前1~6mon起报的降水距平空间相关系数(ACC)和PS评分。整体来看,方案一提前1~6mon起报的ACC分别为0.25、0.15、0.09、0.23、0.15、0.05,平均为0.15;方案二提前1~6mon起报的ACC分别为0.25、0.23、0.19、0.26、0.24、-0.01,平均为0.19;NCEP和NCC模式预报的平均ACC分别为0.08和0.02,统计方案有明显提高;两種方案提前1~6mon起报的平均PS评分分别为69.3和69.2,相比NCEP模式的71.5略低,但优于NCC模式的63.1。从不同起报时间来看,2月起报(Lead4)的ACC最高,4月起报(Lead2)的PS评分最高。与动力模式结果相比,机器学习模型的平均ACC比NCEP、NCC模式高,这种优势在提前3~6mon起报的模型上更加明显,两套动力模式在提前3mon以上预报夏季降水几乎没有技巧,但在PS评分上,NCEP模式则更具优势。上述结果说明两种基于机器学习的预测方法在降水空间分布的预测技巧上有优势,并且方案二比方案一效果更好,但在降水异常级的预测能力上比NCEP的动力模式要差,可能因为统计方法更加倾向于预测平均状态,对降水异常级的预测能力不足。

图6给出了方案一的2011—2020年和方案二的2012—2020年逐年夏季降水预测ACC和PS评分,可见预测评分表现出明显的年际差异。两种方案的预测模型在2012、2013、2016、2018年提前1~6mon起报的平均PS评分均超过70,预测效果较好,对应的ACC评分在上述年份也较高。相比之下,方案二的平均ACC除2015年为负值,其余年份均为正值,整体预测技巧高于方案一。众所周知,ENSO是热带太平洋地区海气系统年际气候变率最强信号(宗海锋等,2010;Wenelal.,2015),ENSO对湖南降水预测有重要指示意义,分析机器学习模型在ENSO年的预测情况可以进一步了解其预测水平。2016和2020年为典型的厄尔尼诺衰减年,两种方案在2016年不同起报时间的预测均有较高的正技巧,平均ACC分别达到0.37和0.36,PS评分分别达到79.8和75.3,但2020年的预测并不稳定,3月起报的降水预测为评分较低。从拉尼娜衰减年预测来看,2013和2018年的预测均有较高的正技巧;整体来看,机器学习建模方法在一定程度上能够识别ENSO对湖南降水的影响。

4讨论

上述结果表明机器学习方法能够改善湖南夏季降水空间分布的预测技巧,但机器学习算法通常属于黑箱模型,在解决气候问题时难以给出合理的物理过程解释,为了能够进一步了解机器学习方法预报技巧的来源,同时考虑到相近起报月份的预测因子相近,这里仅给出3月和12月起报的预测因子中前4个模态通过显著性检验的因子(表4)。可以看出,3月起报模型的前3个模态相关显著的预测因子以前冬极地和中高纬环流指数为主,第四个模态中的南方涛动和赤道中东太平洋200hPa纬向风指数均反映与ENSO的高相关性,并且4月和5月起报的预测因子具有相似特点。12月起报的模型因子第一模态与前期东亚槽和西太副高位置有显著相关,后3个模态与海温相关显著,2月和1月起报的预测因子也与海温显著相关。这可能说明,3—5月起报的模型预报技巧主要来自前冬极地和中高纬环流的信号,而12月—次年2月起报的模型预报技巧主要来自前期海温,而这些因子如何影响湖南降水还需要进一步研究。

本文仅考虑了起报时间前3mon的气候因子,相关研究表明湖南夏季降水与前冬的大气海洋状态有重要联系(李瑜等,2015;赵俊虎等,2016;高辉等,2017;余荣和翟盘茂,2018;谢傲和罗伯良,2020),而5月起报模型的预测因子并未包含整个冬季,本文尝试将预测因子时间扩大至起报时间前6mon的范围,结果表明5月起报的方案一和方案二模型对于湖南夏季降水预测的平均ACC分别为0.12和0.15,PS分别为65.1和68.7,效果并不如前者,将其他起报时间的预测因子范围也扩大至前6mon,整体来看二者的平均ACC分别为0.16和0.17,PS分别为68.8和69.1,相比前者也并没有显著的提升,说明机器学习模型挑选的预测因子也存在一定的局限性,通过简单增加预测因子数量的方式对于机器学习模型的预测效果并不会有显著的提升。此外,地形的动力和热力作用对降水的发生有重要影响,湖南三面环山的特殊地形是影响湖南区域性降水的因素之一,本文基于大尺度气候信号构建的模型没有考虑地形因素,对降水异常级预测能力有限,如何在机器学习模型中加入地形因素的影响还需进一步研究。

5结论

本文采用机器学习算法筛选预测因子并结合动力模式的降水预报建立了湖南夏季降水预测模型。主要结论如下:

采用随机森林算法进行递归特征消除确定预测因子,通过交叉验证确定最优EOF模态个数后,使用多层前馈神经网络、支持向量回归以及自然梯度提升分别建模并对预测结果进行集合平均,比较了两种方案的预测模型及两套动力模式对于湖南夏季降水的预测性能。评估结果表明基于机器学习的预测模型对湖南夏季雨型分布有较好的预测能力,ACC技巧优于动力模式,但对降水异常级的预测不如NCEP模式,两种方案的预测模型不同起报时间的平均ACC分别为0.15和0.19,平均PS评分分别为69.3和69.2;并且机器学习建模方法能够较好地识别ENSO对湖南降水的影响。

进一步分析机器学习模型挑选的预测因子与降水关联,3—5月起报的机器学习模型的预测技巧可能来源于前冬极地和中高纬环流,12月—次年2月起报的模型预测技巧则可能来自海温的前兆信号,由于机器学习的黑箱特点,很难了解这些因子之間相互调制的物理过程,有待通过诊断分析及模式敏感性试验等方法进一步研究。

参考文献(References)

BreimanL,2001.RandomForests[J].MachineLearning,45(1):532.

陈永义,俞小鼎,高学浩,等,2004.处理非线性分类和回归问题的一种新方法(Ⅰ):支持向量机方法简介[J].应用气象学报,15(3):345354.ChenYY,YuXD,GaoXH,etal.,2004.AnewmethodfornonlinearclassifyandnonlinearregressionⅠ:introductiontosupportvectormachine[J].JApplMeteor,15(3):345354.(inChinese).

丁一汇,2011.季节气候预测的进展和前景[J].气象科技进展,1(3):1427.DingYH,2011.Progressandprospectsofseasonalclimateprediction[J].AdvMeteorSciTechnol,1(3):1427.(inChinese).

杜良敏,柯宗建,刘长征,等,2016.基于聚类分区的中国夏季降水预测模型[J].气象,42(1):8996.DuLM,KeZJ,LiuCZ,etal.,2016.SummerprecipitationpredictionmodelsbasedontheclusteringregionalizationinChina[J].MeteorMon,42(1):8996.(inChinese).

范可,王会军,ChoiYJ,2007.一个长江中下游夏季降水的物理统计预测模型[J].科学通报,52(24):29002905.FanK,WangHJ,ChoiYJ,2007.AphysicalstatisticalpredictionmodelforsummerprecipitationinthemiddleandlowerreachesoftheYangtzeRiver[J].ChinSciBull,52(24):29002905.(inChinese).

封国林,赵俊虎,支蓉,等,2013.动力统计客观定量化汛期降水预测研究新进展[J].应用气象学报,24(6):656665.FengGL,ZhaoJH,ZhiR,etal.,2013.Recentprogressontheobjectiveandquantifiableforecastofsummerprecipitationbasedondynamicalstatisticalmethod[J].JApplMeteorSci,24(6):656665.(inChinese).

冯汉中,陈永义,2004.处理非线性分类和回归问题的一种新方法(Ⅱ):支持向量机方法在天气预报中的应用[J].应用气象学报,15(3):355365.FengHZ,ChenYY,2004.AnewmethodfornonlinearclassifyandnonlinearregressionⅡ:applicationofsupportvectormachinetoweatherforecast[J].JApplMeteor,15(3):355365.(inChinese).

高辉,袁媛,洪洁莉,等,2017.2016年汛期气候预测效果评述及主要先兆信号与应用[J].气象,43(4):486494.GaoH,YuanY,HongJL,etal.,2017.Overviewofclimatepredictionofthesummer2016andtheprecursorysignals[J].MeteorMon,43(4):486494.(inChinese).

HamYG,KimJH,LuoJJ,2019.DeeplearningformultiyearENSOforecasts[J].Nature,573(7775):568572.doi:10.1038/s4158601915597.

韩力群,2006.人工神经网络教程[M].北京:北京邮电大学出版社:2936.HanLQ,2006.Artificialneuralnetworktutorial[M].Beijing:BeijingUniversityofPostsandTelecommunicationsPress:2936.(inChinese).

贺圣平,王会军,李华,等,2021.机器学习的原理及其在气候预测中的潜在应用[J].大气科学学报,44(1):2638.HeSP,WangHJ,LiH,etal.,2021.Machinelearninganditspotentialapplicationtoclimateprediction[J].TransAtmosSci,44(1):2638.doi:10.13878/j.cnki.dqkxxb.20201125001.(inChinese).

贾小龙,陈丽娟,李维京,等,2010.BPCCA方法用于中国冬季温度和降水的可预报性研究和降尺度季节预测[J].气象学报,68(3):398410.JiaXL,ChenLJ,LiWJ,etal.,2010.StatisticaldownscalingbasedonBPCCA:predictabilityandapplicationtothewintertemperatureandprecipitationinChina[J].ActaMeteorolSin,68(3):398410.(inChinese).

柯宗建,张培群,董文杰,等,2009.最优子集回归方法在季节气候预测中的应用[J].大气科学,33(5):9941002.KeZJ,ZhangPQ,DongWJ,etal.,2009.Anapplicationofoptimalsubsetregressioninseasonalclimateprediction[J].ChinJAtmosSci,33(5):9941002.(inChinese).

李春晖,潘蔚娟,王婷,2018.广东省降水的多尺度时空投影预测方法[J].应用气象学报,29(2):217231.LiCH,PanWJ,WangT,2018.AmultiscalespatialtemporalprojectionmethodformonthlyandseasonalrainfallpredictioninGuangdong[J].JApplMeteorSci,29(2):217231.(inChinese).

李易芝,罗伯良,霍林,2017.湖南夏季旱涝转折异常特征分析[J].暴雨灾害,36(4):339347.LiYZ,LuoBL,HuoL,2017.AnalysisonanomalouscharacteristicsofthesummerdroughtfloodtransitionsinHunan[J].TorrentialRainDisasters,36(4):339347.(inChinese).

李瑜,李维京,任宏利,等,2015.长江中下游地区冬夏干湿韵律特征分析[J].气象学报,73(3):496504.LiY,LiWJ,RenHL,etal.,2015.Analysisofdry/wetrhythmsinwinterandsummerprecipitationsoverthemidlowerreachesoftheYangtzeRiverBasin[J].ActaMeteorolSin,73(3):496504.(inChinese).

LeCunY,BengioY,HintonG,2015.Deeplearning[J].Nature,521(7553):436444.doi:10.1038/nature14539.

刘长征,杜良敏,柯宗建,等,2013.国家气候中心多模式解释应用集成预测[J].应用气象学报,24(6):677685.LiuCZ,DuLM,KeZJ,etal.,2013.Multimodeldownscalingensemblepredictioninnationalclimatecenter[J].JApplMeteorSci,24(6):677685.(inChinese).

LiuY,FanK,2014.AnapplicationofhybriddownscalingmodeltoforecastsummerprecipitationatstationsinChina[J].AtmosRes,143:1730.doi:10.1016/j.atmosres.2014.01.024.

劉颖,任宏利,张培群,等,2020.中国夏季降水的组合统计降尺度模型预测研究[J].气候与环境研究,25(2):163171.LiuY,RenHL,ZhangPQ,etal.,2020.ApplicationofthehybridstatisticaldownscalingmodelinsummerprecipitationpredictioninChina[J].ClimEnvironRes,25(2):163171.(inChinese).

苗春生,何东坡,王坚红,等,2017.基于C4.5算法的长江中下游地区夏季降水预测模型研究及应用[J].气象科学,37(2):256264.MiaoCS,HeDP,WangJH,etal,2017.ResearchandapplicationofsummerrainfallpredictionmodelinthemiddleandlowerreachesoftheYangtzeRiverbasedonC4.5algorithm[J].JMeteorSci,37(2):256264.(inChinese).

PengT,ZhiXF,JiY,etal,2020.Predictionskillofextendedrange2mmaximumairtemperatureprobabilisticforecastsusingmachinelearningpostprocessingmethods[J].Atmosphere,11(8):823.doi:10.3390/atmos11080823.

沈皓俊,罗勇,赵宗慈,等,2020.基于LSTM网络的中国夏季降水预测研究[J].气候变化研究进展,16(3):263275.ShenHJ,LuoY,ZhaoZC,etal.,2020.PredictionofsummerprecipitationinChinabasedonLSTMnetwork[J].ClimChangeRes,16(3):263275.(inChinese).

舒建川,蒋兴文,黄小梅,等,2019.中国西南夏季降水预测的统计降尺度建模分析[J].高原气象,38(2):349358.ShuJC,JiangXW,HuangXM,etal.,2019.StatisticaldownscalingmodelinganalysisofsummerprecipitationinsouthwestChina[J].PlateauMeteor,38(2):349358.(inChinese).

孙照渤,谭桂容,赵振国,等,2013.中国东部夏季雨型的人工神经网络集合预测[J].大气科学学报,36(1):16.SunZB,TanGR,ZhaoZG,etal.,2013.EnsemblepredictionofsummerrainfallpatternsoverEasternChinabasedonartificialneuralnetworks[J].TransAtmosSci,36(1):16.doi:10.13878/j.cnki.dqkxxb.2013.01.001.(inChinese).

王启光,封国林,郑志海,等,2011.长江中下游汛期降水优化多因子组合客观定量化预测研究[J].大气科学,35(2):287297.WangQG,FengGL,ZhengZH,etal.,2011.AstudyoftheobjectiveandquantifiableforecastingbasedonoptimalfactorscombinationsinprecipitationinthemiddleandlowerreachesoftheYangtzeRiverinsummer[J].ChinJAtmosSci,35(2):287297.(inChinese).

王予,李惠心,王会军,等,2021.CMIP6全球气候模式对中国极端降水模拟能力的评估及其与CMIP5的比较[J].气象学报,79(3):369386.WangY,LiHX,WangHJ,etal.,2021.EvaluationofCMIP6modelsimulationsofextremeprecipitationinChinaandcomparisonwithCMIP5[J].ActaMeteorolSin,79(3):369386.(inChinese).

WenN,LiuZY,LiuYH,2015.DirectimpactofElNioonEastAsiansummerprecipitationintheobservation[J].ClimateDyn,44(11/12):29792987.doi:10.1007/s0038201526052.

吴捷,任宏利,张帅,等,2017.BCC二代气候系统模式的季节预测评估和可预报性分析[J].大气科学,41(6):13001315.WuJ,RenHL,ZhangS,etal.,2017.EvaluationandpredictabilityanalysisofseasonalpredictionbyBCCsecondgenerationclimatesystemmodel[J].ChinJAtmosSci,41(6):13001315.(inChinese).

謝傲,罗伯良,2020.湖南夏季降水与前期北太平洋海温异常的关系[J].气象与环境科学,43(4):4957.XieA,LuoBL,2020.RelationsbetweentheprecedingSSTAinnorthernPacificOceanandsummerprecipitationinHunan[J].MeteorEnvironSci,43(4):4957.doi:10.16765/j.cnki.16737148.2020.04.007.(inChinese).

YimSY,WangB,XingW,2014.PredictionofearlysummerrainfalloverSouthChinabyaphysicalempiricalmodel[J].ClimateDyn,43(7/8):18831891.doi:10.1007/s0038201320143.

余荣,翟盘茂,2018.厄尔尼诺对长江中下游地区夏季持续性降水结构的影响及其可能机理[J].气象学报,76(3):408419.YuR,ZhaiPM,2018.TheinfluenceofElNioonsummerpersistentprecipitationstructureinthemiddleandlowerreachesoftheYangtzeRiveranditspossiblemechanism[J].ActaMeteorolSin,76(3):408419.(inChinese).

张宇彤,矫梅燕,陈静,2013.基于模式先验信息的贝叶斯集合降水概率预报试验[J].气象,39(10):12331246.ZhangYT,JiaoMY,ChenJ,2013.Bayesianensembleprobabilisticforecastingmodelexperimentofprecipitationbasedonmodelprioriinformation[J].MeteorMon,39(10):12331246.(inChinese).

赵俊虎,杨柳,曾宇星,等,2016.夏季长江中下游和华南两类雨型的环流特征及预测信号[J].大气科学,40(6):11821198.ZhaoJH,YangL,ZengYX,etal.,2016.AnalysisofatmosphericcirculationandpredictionsignalsforsummerrainfallpatternsinSouthernChina[J].ChinJAtmosSci,40(6):11821198.(inChinese).

周莉,胡瑞卿,李伟,等,2018.湖南省夏季极端降水异常时空特征及其成因分析[J].气象科学,38(6):838848.ZhouL,HuRQ,LiW,etal.,2018.CharacteristicsofsummerextremeprecipitationanomalyandthecauseofconcurrentanomalypatterninHunanProvince[J].JMeteorSci,38(6):838848.(inChinese).

宗海锋,陈烈庭,张庆云,2010.ENSO与中国夏季降水年际变化关系的不稳定性特征[J].大气科学,34(1):184192.ZongHF,ChenLT,ZhangQY,2010.TheinstabilityoftheinterannualrelationshipbetweenENSOandthesummerrainfallinChina[J].ChinJAtmosSci,34(1):184192.(inChinese).

PredictionofsummerprecipitationinHunanbasedonmachinelearning

HUANGChao1,2,LIQiaoping3,XIEYijun1,2,PENGJiadong1,2

1HunanClimateCenter,Changsha410118,China;

2HunanKeyLaboratoryofMeteorologicalDisasterPreventionandReduction,Changsha410118,China;

3CMAEarthSystemModelingandPredictionCentre(CEMC),Beijing100081,China

Againstthebackgroundofglobalwarming,summerextremeprecipitationinHunanhasincreasedsignificantly.Therefore,improvingthepredictionaccuracyofprecipitationisofgreatpracticalsignificancefordisasterpreventionandmitigationinHunanProvince.UsingthemonthlyprecipitationdatafrommeteorologicalstationsinHunan,theclimateindexsetsfromtheNationalClimateCenter(NCC)andtheprecipitationdatafromthehindcastexperimentsareperformedusingseasonalpredictionmodelsofNCCandNCEP(NationalCentersforEnvironmentalPrediction).Therecursivefeatureelimination(RFE)methodisusedtodeterminethekeyfactors,andtwostatisticalpredictionschemesofsummerprecipitationinHunanareestablishedbythreealgorithms:multilayerfeedforwardneuralnetwork(FNN),supportvectorregression(SVR)andnaturalgradientboosting(NGBoost).Theresultsshowthatthepredictionmodelbasedonmachinelearning(ML)hassuperiorabilitytopredictthedistributionpatternofsummerprecipitationinHunan.TherespectiveaverageACCskillsofthetwostatisticalschemeswithleadtimesof1to6monthsare0.15and0.19,whichisagreatimprovementcomparedwiththedynamicmodel.TherespectiveaveragePSscoresare69.3and69.2,whicharehigherthantheNCCmodel.ThefurtheranalysisindicatesthattheprecedingwinterpolarandmidandhighlatitudelatitudecirculationmaybethemainpredictabilitysourcesofMLmodelswithleadtimesof1to3months.Finally,thepredictionskillsofmodelswithleadtimesof4to6monthsarelikelyderivedfromtheprecursorysignalofseasurfacetemperature.

machinelearning;summerprecipitation;forecast

doi:10.13878/j.cnki.dqkxxb.20210903001

(責任编辑:刘菲)

20210903收稿,20211210接受

湖南省气象局研究型业务预报预测专项(XQKJ21C011);中国气象局预报员专项(CMAYBY2020087);国家重点研发计划项目(2018YFC1505806)

猜你喜欢
机器学习预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
选修2—2期中考试预测卷(A卷)答案与提示
选修2—2期中考试预测卷(B卷)答案与提示
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
机器学习理论在高中自主学习中的应用
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!