基于CNN和RF算法的ECMWF降水分级订正预报方法

2021-06-23 08:52赵华生金龙黄小燕黄颖
气象科技 2021年3期
关键词:插值法站点降水

赵华生 金龙 黄小燕 黄颖

(广西气象科学研究所,南宁 530022)

引言

降水是地球水文循环中一个极其重要环节,与其它大气变量相比,降水有着特别高的时空变异性,这些不规则的特征源于降水云的个体形成和生长有关,而这降水云又与其周围的大气流体动力学有着复杂的耦合关系[1]。为此,人们也不断通过各种方法改进数值天气预报模型来提高降水的预报能力[2-5]。然而,相比于气压、温度、湿度和风等大气要素的预测,数值模式对降水的预测能力仍然远远落后于其他大气要素的预测。例如,Stephens 等[6]和Tapiador 等[7]研究表明,数值模式的降水预测通常无法揭示降水的位置、时间、强度以及总累积等许多关键方面,为此对数值模式的降水预测进行一定的订正研究具有重要的现实意义。而实践也证明了通过订正数值模式原始的降水产品,通常可以提供更为准确的降水预报[8-9]。

到目前为止,国内外也开展了大量关于利用数值预报产品进行客观订正降水预报的释用技术研究,并在实际的预报业务中得到了应用。例如,Pan等[10]通过优化空间卷积核的层次集来训练模型,以从周围的动力场中学习与降水相关的动力特征。以此来订正数值模式的日降水预报,结果表明,如果有足够的数据,则该降水的订正预报方法将优于再分析降水产品以及使用线性回归的订正预报效果。赵华生等[11]首先利用最大相关最小冗余度对ECMWF集合预报的降水预测进行成员的选择。其次,按不同的降水强度利用随机森林算法进行模块化建模预报。结果表明,该订正预报方法对暴雨以上量级的降水具有比集合预报的均值更好的预报能力。黄亿[12]采用MOS方法、聚类分析方法并结合降水可能函数进行了订正数值模式降水的研究。Charba等[13]利用美国国家气象局气象发展研究室开发的高分辨率全球预报系统(Global Forecasting System,GFS)得到美国本土的4 km格距的高分辨率MOS定量降水预报。孙靖等[2]对传统的消除偏差法进行改进,形成分等级消除偏差法,并使用混合训练期和60 d滑动强度尺检验方法分别应用到ECMWF模式夏季1~5 d的降水预报进行订正试验研究。

从上述国内外研究可知,目前数值模式的降水订正预报研究主要是利用统计降尺度(SD)方法从多角度、多种方法进行订正,并取得了一定的效果。然而这些订正预报方法在普查预报因子以及在构建预报因子与预报对象的映射关系时,往往没有考虑到预报对象中的样本量分布情况,在本文对试验预报对象的统计结果中,预报对象的样本中累积降水量小于1 mm的样本量是降水量大于1 mm样本量的4倍左右,是降水量大于25 mm样本的16倍左右,是降水量大于50 mm样本量的50倍左右。由此可见,预报对象中的样本类型分布是极其不均衡的。因此在查找相关预报因子时,如果选择全样本去普查相关因子,将可能会漏掉真正触发强降水的预报因子,而强降水的订正预报则是气象服务的主要内容。一般地,利用统计降尺度(SD)方法对模式降水进行订正,其效果的好坏很大程度上取决于如何获取与预测对象相关密切的特征因子。而近年来卷积神经网络(Convolutional Neural Networks, CNN)则是在特征提取方面表现最为突出的一种方法,与传统的神经网络相比,CNN大大增强了人们处理结构化高维数据的能力,它通过利用数据的内部结构来减少模型的结构冗余并实现有效的信息提取。近年来,CNN已发现可用于提前6个月到1年对ENSO事件预测[14]和用于热带气旋强度的估计[15],并取得了显著的效果。本文尝试提出一种基于CNN和随机森林算法(Random Forest)相结合的ECMWF降水量分级订正预报方法。该方法首先对ECMWF降水量进行分级,并针对不同等级的降水量样本利用CNN方法从大量的物理要素场因子中提取与预报对象关系密切的特征因子。其次,利用在回归模型中泛化能力极强的随机森林算法进行预报建模。以此探索一种新的数值模式降水的订正预报方法。

1 方法及原理

一般而言,数值模式预报产品释用的效果主要取决于预报因子的选取和预报模型泛化能力的强弱。本文采用卷积神经网络和随机森林算法2种方法,其中,卷积神经网络在过去的几年中发展迅猛,目前该方法已在图像识别和特征提取领域中得到了成功的应用[16-18]。而随机森林算法因其极强的泛化能力使其在环境、大气科学、医学和农业等众多领域中得到了广泛应用[19-22]。为此,在预报因子的处理和选取上,尝试采用具有很强综合特征提取能力的卷积神经网络对数值模式的多种物理量预报场和降水量预报场进行综合特征提取,并将这些与预报对象相关密切的特征因子作为随机森林算法的输入因子进行建模预报。主要的建模思路和计算步骤如下:①考虑到预报对象样本的不均衡性,论文首先将预报对象进行分级(分类);②对于每1个预报对象,分别对不同类别的样本集进行高相关格点的提取,即从多种物理量预报场和降水量预报场中进行相关普查并提取与预报对像相关性高的格点,并将提取的高相关格点组成1个相关矩阵;③利用CNN网络对高相关格点矩阵进行特征提取,并选取若干个与预报对象相关性紧密的特征因子作为最终的模型输入因子。④利用最终的模型输入因子和随机森林算法建立最终的预报模型,进行建模预报。

1.1 卷积神经网络

卷积神经网络由卷积层、下采样层、全连接层等组成,在结构上具有局部连接、权重共享以及时间或空间上的下采样等特性。在卷积层中,通过卷积核对像素进行加权求和,从而得到原始图像的特征图,实现特征提取。有时为了更充分地提取特征,可以在同一个网络中采用多个不同的卷积核,以提取不同的特征。而在卷积层中,有局部连接、权重共享等特点,同一特征图中的每个神经元在和卷积核计算的时候共享权重,极大减少了参数的数量,也降低了过拟合的风险。卷积层的形式如下[23]:

(1)

在卷积层提取特征之后,为进一步减小计算量,通常对得到的特征图作下采样。下采样不会改变特征映射层的数量,但会缩小特征映射图的尺寸,既能保留主要特征,也能达到降维的效果,还能防止过拟合。下采样的方法有均值采样、最大值采样、重叠采样、均方采样、归一化采样、随机采样、形变约束采样等,本文采用最大值采样法。其形式如下:

(2)

全连接层通常是卷积神经网络的最后一层,在该层输出神经元和每个输入神经元都连接。当CNN用在回归问题时,在这一层将高层特征作为输入,以预测(拟合)对象作为输出(图1)。

图1 全连接层(图中x1,x2,…,xn为全连接层的输入,y为连接层的输出)

1.2 随机森林算法

本文采用随机森林算法[11]构建1个从卷积神经网络中获取的特征因子与预报站点之间的非线性映射关系。随机森林算法可以分为分类和回归2种模型,其中随机森林回归模型(Random Forest Regression,RFR)是由Breiman于2001年提出的一种非线性统计方法[24]。RFR是利用自举法(Bootstrap)从原始样本中抽取多个训练样本子集,对每个样本子集分别进行决策树建模。进一步地,通过组合多棵决策树进行预测,并通过取平均值得出最终预测结果[25]。其本质与气象上的集合预报思想相近,是将多棵决策树建模得到的预测结果进行集成。该算法具有计算速度快,泛化性能好以及参数少等优点,同时,也不容易出现人工神经网的“过拟合”现象。为此,本文尝试利用该方法对降水预报进行建模预报。

RFR算法通过自举法抽样技术,由随机向量θk(回归决策树)生长形成{h(X,θk),k=1,…,p}的组合模型。其预测变量为数值型变量。预测值是通过k棵树{h(X,θk)}的预测结果取平均值得到的。RFR算法的具体实现流程见图2。

图2 RFR算法流程

2 试验

2.1 试验数据

本文在作预报试验时,使用的资料数据为欧洲中期天气预报中心(ECMWF)逐日08:00和20:00,0.25°×0.25°,15°~35°N,100°~115°E的降水量场以及200、500、700、850、925 hPa的高度场、U/V风场、温度场、相对湿度、垂直速度等产品的预报场资料,预报时效均为48 h,选取试验样本的时段为2011年1月至2018年10月,除去缺失样本后,总的样本量为5675个。

2.2 试验设计

为了测试该模型在不同气候条件下的适用性,本文选择了10个广西主要城市站点的未来24 h累积降水量作为试验对象(表1)。

表1 10个试验站点信息

对于每个试验站的T日起报时,首先利用CNN模型对ECMWF模式众多物理量要素的(T-1)日48 h预报场进行特征因子的提取,并从中选取若干个特征因子与关键的雨量预报格点因子一起作为随机森林的输入因子,进行最后的数值模式的订正预报,具体的构建步骤如下。

(1)训练样本的选择。考虑到目前CNN模型在应用比较成功的图像识别(分类)领域中,其要识别(分类)对象的样本量是相当的,这样在CNN模型训练的时候,对每一种识别或分类对象才会均衡,不会侧重训练某一类样本。由于在实况观测中,大部分的天气现象属于晴天或者较小量级的降水事件,因此出现较大量级降水量的样本在整个统计时段的样本中占的比重太小。若不对样本进行选择,而是将全部样本带入模型进行训练,CNN模型训练将会侧重于对样本量占比更大的晴天或者降水较少的样本进行训练而调整参数,最终训练好的模型对于这些样本就有较好的预报性能,但这些样本数值模式的预报准确性已经基本达到了人们日常需求,人们更关心较大降水、特别是破坏力更强的暴雨以上降水的预报准确率问题。为此,本文以ECMWF数值模式插值(采用三次多项式差值法,下同)到预报站点的降水量EC预报值(EC,单位:mm,下同)的大小进行分级建模预报,即EC>μ(阈值μ的取值依据为:使得建模样本中降水量小于1 mm的样本占总样本量的20%以下,故本文取μ=10,单位:mm)时,则选取该预报站点的历史样本中所有EC>μ的样本进行建模试验(样本量为1000左右),并将这部分样本的最后200个样本作为独立样本,其他样本为训练样本;反之,则选取该预报站点的历史样本中所有EC≤μ的样本进行建模试验(样本量为4500左右),并将这部分样本的最后800个样本作为独立样本,其他样本为训练样本;进一步为便于更好地了解本文提出的这种分级建模订正预报的有效性,也采用全样本进行建模的订正预报,并以全部样本的最后1000个样本作为独立样本进行订正预报试验。

(2)CNN模型输入构建。CNN模型的输入一般都是图片转换而来,本文的CNN模型输入则是在ECMWF预报产品的高度场、温度场、相对湿度等6种物理要素场的每5个层次中,选择与预报对象相关最好的20个格点,以及ECMWF雨量预报场与预报对象相关最好的25个格点,共625个格点依次组成的一个25×25的数据矩阵。

(3)数据标准化。由于本文的CNN模型的输入矩阵是由不同的物理要素场格点组成,因此格点之间的量纲差异性较大,因此有必要对输入数据进行标准化处理,即本文将输入数据都转化为[-1,1]之间。

(4)确定CNN模型结构。本文的CNN模型是一个针对回归问题的模型,即在CNN模型全连接层之后加1层回归层,具体的网络结构如图3所示。

图3 CNN模型结构

(5)训练网络。调用Matlab2018Ra深度学习工具箱中的函数进行训练,其中主要的可调参数设定为:MaxEpochs:50;InitialLearnRate:1×10-3;LearnRateDropFactor:0.1。

(6)随机森林回归模型的输入。CNN模型训练完之后,可以从复杂和众多的物理量因子自行提取了数十个特征,在这些特征因子中,有些与预报对象相关性好,有些相关性差,如何选取存在一定的主观性,本文为了避免过多的人为主观影响,对所有的试验站点均选取与预报站点相关性最高的5个特征因子作为随机森林回归模型的输入特征因子。同时由于ECMWF的雨量预报场是在CNN的卷积过程中,其预报信息有被其他预报因子平滑掉的可能,因此,在2次回归模型对预报站点进行建模时,有必要将与预报站点相关性最高的雨量预报格点与从CNN模型中选取的5个特征因子一起作为随机森林回归模型的最终输入因子。

(7)模型评估。为检验本文提出基于卷积神经网络(CNN)和随机森林回归模型(RFR)的数值模式模式订正预报方法(CNN-RFR方法)的订正预报性能,对预报试验中的独立样本计算MAE、RMSE和暴雨及以上(降水量大于50 mm)的TS评分3个指标,并将其与原始ECMWF的雨量预报场插值到站点上的预报(EC)和CNN模型的回归层输出进行降水订正的方法(CNN,下同)比较,其中MAE、RMSE指标主要是考量模型总体的预报精度,而暴雨及以上的TS评分这项指标主要是考虑了模型对强降水预报能力。TS指标(TS)计算如下:

(3)

其中,NA为预报正确的次数;NB为空报次数;NC为漏报次数。

3 试验结果及其分析

采用CNN模型结构和参数对10个不同的站点进行预报试验,并且考虑到CNN模型在训练时,其权值初始化对模型的预报结果有一定的影响,为此, CNN-RFR 方法以其5次试验的平均值作为该模型的最终预报值。而每个站的样本是根据EC预报值EC≥10 mm和EC<10 mm分为2部分,分别进行订正预报。

图4给出了降水量小于10 mm样本的订正预报统计结果,可以看到CNN-RFR方法总体上表现比较稳定,该方法在800个独立样本的平均绝对偏差MAE和均方根误差RMSE的统计中,均为3种订正预报方法中误差最小,CNN方法次之。其中CNN-RFR方法的MAE和RMSE较EC插值法分别减小了17%~25%和8%~20%,同时CNN的MAE、RMSE的误差也较EC插值法分别减小了5%~21%和3%~20%。而对于晴雨预报的TS评分统计结果看到,CNN-RFR方法和CNN方法的TS评分相当,稳定在0.75左右,明显高于TS评分稳定在0.55左右的EC插值法。综合分析可知,在对EC预报值小于10 mm的降水(包括晴天无雨)样本的分类预报订正建模时,CNN-RFR方法在预报精度和晴雨预报的准确性均优于其他2种方法,CNN方法次之。

图4 预报值EC≤10 mm时CNN-RFR、EC、CNN方法的MAE(a),RMSE(b)及睛雨TS评分(c)(独立样本为800个)

由图5可知,在10个试验站点的统计结果中,CNN-RFR方法的MAE均比EC插值法小(减少10%~33%)。此外,CNN方法的MAE误差也比EC插值法的MAE误差小(减少4%~28%)。对于RMSE误差的统计,CNN-RFR方法的误差是3种预报方法中误差最小的,CNN方法次之。且相比于EC插值法的RMSE误差,CNN-RFR方法和CNN方法分别减少了6%~28%和5%~24%。对于暴雨及以上降水的TS统计:CNN-RFR方法的TS评分均明显高于其他2种预报方法。此外,在10个站的独立样本试验中,CNN方法有9个站点的TS评分高于或等于EC插值法,显示了该订正模型也具有较好的订正预报能力。进一步,从空报次数的统计中也可知,CNN-RFR方法有8个试验站点(除了防城站和北海站)的暴雨及以上降水的空报次数均比EC插值法少,显示了该订正预报方法在很多情况下,既可以提高TS评分的同时也降低了相应的空报率。

图5 预报值EC>10 mm时CNN-RFR、EC、CNN方法的MAE(a)、RMSE(b)、暴雨以上TS评分(c)及空报次数(d)(独立样本为200个)

综上所述,在以EC降水插值预报的大小进行分级建模的独立样本试验中,本文提出的CNN-RFR数值模式降水量订正预报方法,其MAE和RMSE误差均小于EC插值法,表明了该方法的降水订正预报在预报精度方面具有正的技巧。同时在暴雨及以上量级的降水预报和晴雨预报方面,CNN-RFR方法相应的TS评分均明显高于EC插值法,而且其暴雨及以上量级降水的空报率在大部分情况下也少于EC插值法,显示了该订正预报方法具有较好的预报能力。同时,本文给出的CNN模型,其订正预报的性能虽逊于CNN-RFR方法,但该模型在大部分情况下,其预报精度、晴雨预报和暴雨及以上量级降水预报的TS评分也均明显优于EC插值法。

进一步,为考察本文提出的分级建模的订正预报方法的有效性,对这10个试验站点进行了不分级的全样本建模试验,并且对于每个试验站点,均以该站点全部样本的最后1000个样本作为独立样本,其余样本作为建模样本进行预报订正试验。

由图6可知,在对不分级的全样本进行建模订正情况下,CNN-RFR方法的10个站的平均MAE和RMSE误差均比EC插值法小。从这一结果看到,似乎这样的订正是比较有效的,但暴雨及以上的TS评分指标可以看到,在单站的统计上,CNN-RFR方法和CNN法分别仅有3个站和2个站的TS评分高于EC插值法。其次,CNN-RFR方法与EC插值法的10个站总体的TS评分持平,两者均0.19,但优于CNN方法的0.12。即在不分级的全样本订正预报中,虽然CNN-RFR方法的平均MAE和RMSE明显减小,但是这种订正预报误差的减小主要体现在小降水和晴天样本中,而暴雨及以上的强降水的订正预报没有效果,其原因为在不分级的全部样本中,小于10 mm(包括无降水)样本占了绝大部分,暴雨及以上样本只有很小一部分,这样用CNN-RFR模型建模时,主要体现了大多数小降水和无降水样本的特征,所以无法改进暴雨及以上降水的这些小样本的预报订正效果,而这些小样本的预报订正效果是订正预报最需要关心的重点,由此可知,用全部样本(不分级)对暴雨及以上降水预报订正对实际业务预报没有太大意义。

图6 全样本建模时CNN-RFR、EC、CNN预报法的MAE(a)、RMSE(b)、暴雨以上TS评分(c)空报次数(d)(独立样本为1000个)

另一方面,综合图4和图5的统计结果也可知,在分级建模进行订正预报的1000个独立样本中(图4为800个独立样本,图5为200个独立样本,共1000个独立样本),CNN-RFR方法的10个试验站点的平均MAE和RMSE误差分别为4.7 mm和8.7 mm,相比于EC插值法的5.8 mm和10.2 mm,其预报精度分别提高了20%和15%。而CNN法的平均MAE和RMSE误差则分别为5.0 mm和9.2 mm,这2项误差统计指标虽然差于的CNN-RFR方法,但较EC插值法误差也分别降低了14%和10%。同时,在暴雨及以上的TS评分指标上,CNN-RFR方法、CNN法以及EC插值法对于10个站总体的TS评分分别为:0.32、0.23和0.19,前2者均优于EC插值法。由此可见,本文提出的分级建模订正预报CNN-RFR方法不仅在预报精度(MAE指标和RMSE指标)上具有较高的正技巧,同时在强降水的预报上也具有显著的正技巧。

综合以上结果,可以看出,本文提出的数值模式降水订正预报是有效的,其原因与本文设计的分级建模有关,即分级后的建模,使得CNN模型能更有针对性地对相应量级的相关因子矩阵进行有效预报信息的综合提取。而CNN-RFR方法比CNN模型具有更好的订正预报能力,其原因可能与CNN模型在综合提取特征信息时,包含了一些噪音的特征信息,而CNN-RFR方法则只是选取了CNN模型全部特征因子中部分相关高的特征因子,从而避免了与预报试验站点相关性低、包含更多噪音(干扰)的特征因子入选的原因。

4 结论及讨论

本文以ECMWF模式的48 h预报场资料为基础,采用分级订正的方法预报未来24 h降水量,该方法主要利用CNN模型对高相关因子矩阵进行特征提取,从而获得综合性较高、与预报对象相关性强的特征因子作为随机森林回归预报模型的输入因子,来提高不同降水量级订正预报的预报精度,其主要特点可归结为:

(1)与传统的数值预报订正预报方法相比,本文提出的分级建模数值模式订正方法,在查找预报因子和构建回归模型的映射关系方面更具有针对性。即把预报样本按降水量大小分成两类分别进行预报订正建模更利于模型分别对强降水和小量级的降水进行学习和训练。

(2)在CNN模型输入方面,与目前大多数CNN模型以图片作为输入不同,本文的CNN模型则利用与预报对象相关密切的数值模式格点数据组成的数据矩阵作为模型输入,这样做可以使CNN模型的特征提取更加有针对性,也避免更多无用或者干扰的预报信息的进入。

(3)通过对分级订正预报和传统的全部样本进行数值预报产品订正预报的2种方法的独立样本对比分析可以看到,本文提出的CNN-RFR方法相对于EC插值法具有更高的预报精度,特别是对暴雨及以上强降水的预报订正TS评分显著提高。同时,该方法简单、没有太多的可调参数(其中随机森林的回归模型采取的Matlab工具箱的默认参数),它对广大业务预报人员来说是一种比较容易实现的模式产品订正预报方法。因此,本文提出的模式释用方法对加强业务与科研的互动,有效提高预报水平有促进作用。

猜你喜欢
插值法站点降水
InSAR形变场最佳插值算法对比研究
四川盆地极端降水演变特征及拟合
重力插值重构前沿与进展
小区域GNSS高程异常拟合方法研究
基于Web站点的SQL注入分析与防范
《计算方法》关于插值法的教学方法研讨
《计算方法》关于插值法的教学方法研讨
Cloud seeding
积极开展远程教育示范站点评比活动
怕被人认出