基于VAR模型的加拿大气候变化预测

2022-10-18 07:12寇露彦李学俊吴昌述熊建华
计算机与现代化 2022年10期
关键词:平稳性向量加拿大

寇露彦,廖 竞,李学俊,吴昌述,熊建华

(西南科技大学计算机科学与技术学院,四川 绵阳 621010)

0 引 言

全球气候变暖是一种和自然有关的现象。目前专家们的大部分研究表明,全球变暖是由于温室效应不断积累[1],导致地气系统吸收与发射的能量不平衡,能量不断在地气系统累积,造成全球气候变暖。自从进入21世纪以来,10年间全球全年平均气温上升仅为0.03 ℃,这种全球变暖停滞现象[2-3],引起了公众对全球变暖的注意。从气候角度研究全球温度变化需要全球范围长时间的观测积累[4],但过去这方面的时空数据并不完整,给统计计算带来极大困难。

由于焚烧化石燃料或砍伐森林等人类活动会产生大量的二氧化碳[5],即温室气体,这些温室气体对来自太阳辐射的可见光具有高度透过性,而对地球发射出来的长波辐射具有高度吸收性,能强烈吸收地面辐射中的红外线,导致地球温度上升,即温室效应[6-8]。全球变暖导致全球降水量重新分配、冰川和冻土消融、海平面上升等[9],不仅危害自然生态系统的平衡,还威胁人类的生存。利用现有的统计数据建立相关气候模型并对其进行预测具有重要意义。

侯惠清[10]利用BP神经网络对全球气候进行了预测,预测结果表明全球平均气温呈现缓慢上升趋势。彭润龙等[11]分析了全球变暖的气候变化问题对全球变暖背景下海洋表面温度的规律变化,并通过回归分析判定未来几年气候主要变化为温度呈现上升趋势。刘礼敏等[12通过建立灰色预测模型对飓风和全球变暖趋势进行分析,研究结果表明全球变暖导致飓风强度增加,由此可以看出对全球气候预测的必要性。加拿大人口密度小,气候变化受人为影响较小,研究加拿大气候对预测全球气候变化趋势具有一定的参考价值。邝宏燕等[13]利用VAR模型对深圳市光明区的GDP与财政收支相互关系进行研究分析,得到了相关的发展规律。卫彦晶等[14]利用VAR模型对新疆地区生产总值进行分析及预测,得到较好的预测结果。石峰等[15]通过VAR模型挖掘人口流动与新冠病毒传播之间的内在联系,得出驾车出行指数、乘坐公共交通出行指数和步行出行指数均具有明显的正反馈作用。因此,本文提出构建向量自回归模型全面分析太阳辐射强度、二氧化碳含量、土壤含水量、温度、降雨量对加拿大部分地区气候数据的影响,实现对加拿大部分地区气温和降水量预测功能。

1 多元时间序列VAR模型

影响气候变化的因素有很多,主要受地球吸热、散热的因素即太阳辐射量影响[16],还受海洋温度变化影响以及温室气体影响等。为了进一步了解每个因素对气候变化的影响,通过建立向量自回归模型,将单变量自回归模型推广到多元时间序列组成的“向量”自回归模型,探究多个因素之间的相互关系。以气候变化中的温度为主要的因变量建立相对应的向量自回归模型。

向量自回归(Vector Auto Regression, VAR)模型是基于数据统计性质建立的模型[17],把系统中每一个内生变量作为系统中所有内生变量的滞后值来构造模型,本文将单变量自回归模型推广到多元时间序列组成的“向量”自回归模型。具体流程如下:

1)对原序列进行平稳性检验。本文采用单位根(Augmented Dickey-Fuller, ADF)检验进行平稳性检验[18],对不平稳的序列则进行差分处理。

2)滞后项阶数确定。多种准则比较选多数准则认同的最优滞后项,为保证所有的残差都不存在自相关性,借助格兰杰(Granger)因果关系检验[19]。

3)建立VAR模型。首先,检验模型平稳性。平稳性检验通过(单位根r<1),表明模型平稳,可做方差分解。其次,通过方差分解具体分析各变量的解释力度。

假设研究变量x与变量y的关系,用xt与yt代表t时刻变量值,xt-l和yt-l代表t-l时刻变量值,e代表残差,1阶滞后项的VAR模型VAR(1)表示为:

xt=α0+α1xt-1+α2yt-1+e1

(1)

yt=β0+β1xt-1+β2yt-1+e2

(2)

使用矩阵表达该形式即为:

(3)

p阶向量自回归模型。对一个n维时间序列{Yt},t∈T,T={1,2,…}来说,如果:

Yt=C+Θ1Yt-1+…+ΘpYp-1+εt

(4)

其中,E(εt)=0,且:

(5)

并且不同时刻εt相互独立同分布,服从正态分布,则式(4)为p阶向量自回归模型。满足该模型的随机过程为p阶向量自回归过程,记为VAR(p)。

把模型用滞后算子的形式写出,特征方程为:

|In-Θ1Z-Θ2Z2-…-ΘpZp|=0

(6)

2 实验和分析

2.1 数据预处理

为了突出加拿大各地天气变化的时空变化趋势,本文在此确定数据选取范围为2018—2019年的天气状况,主要选取太阳辐射强度、二氧化碳含量、土壤含水量、温度、降雨量这5个因素研究对气温和降水量的影响。

数据处理过程如图1所示。通过对实验数据的采集,之后对收集到的数据进行初步的清洗,目的是去掉脏数据和处理缺失值,然后利用分箱法对数据进行初步处理,再对经过分箱处理的数据进行数值化处理。数值化时根据不同的数据采用不同的处理方式。主要用到的数值化方法有二值化、归一化、独热编码等处理方式。

选取4个省份的地理位置,经查看地图后发现,4个省份分别位于加拿大的北方、东南方和东方。结合其具体的地理位置与气候带的情况,可以认为这4个省份在一定程度上是可以体现出加拿大天气变化多样性的。就空间角度而言,4个省的分布不成聚集状,而成发散状。因此,有充分的理由认为这4个省份的数据具有足够的代表性。

考虑到各省份的数据展现的维度是以天为单位且天气气温是连续变化的,所以在此考虑对剩余的4个省份的缺失值进行线性插值的填补[20],以此得到最终清理完可以使用的天气温度数据。

以每一年的平均维度为描述维度得到4个省份的变化曲线如图2所示。以年为时间维度的时候从图2中可知各省份的年均温度在近年呈下降趋势。

本文考虑将时间步长调整为每5年取一个点,只需要再往后预测5个步长即为25年。本文即采用以5年为步长进行模型的预测。

对历年加拿大的平均温度按照5年为一步长取值,将所取时间序列用作后续检验数据。图3给出了2000—2017年加拿大的平均温度。

2.2 实验结果

2.2.1 ADF平稳性检验

经过对涉及的4种环境变量进行ADF平稳性检验,发现进行一阶差分(参数名称包含Δ)后数据可以满足稳定性要求,即所有变量为1阶差分,结果如表1所示。由表1可知,1阶差分VAR并不是最好的选择,所以之后需要通过其他的指标确立VAR(x)中的x。

表1 ADF平稳性检验结果

2.2.2 协整检验

平稳性是进行时间序列分析的一个很重要的前提,很多模型都是在基于平稳下进行的。通过协整可以建立起2个或者多个序列之间的平稳关系,进而充分应用平稳性的性质。非平稳序列数据很可能出现伪回归,协整的意义就是检验它们的回归方程所描述的因果关系是否是伪回归,即检验变数之间是否存在稳定的关系。本文采用计算置信水平分别为1%、5%及P值的情况下进行协整检验[21]。协整检验结果如表2所示。

表2 协整检验结果

2.2.3 确定滞后项阶数

通过循环计算出赤池信息准则(Akaike Information Criterion, AIC)、贝叶斯信息准则(Bayesian Information Criterion, BIC)、最终预测误差(Final Prediction Error, FPE)、HQ统计量系数(Hannan-Quinn Information Criterion, HQIC)[22],最优滞后系数是6。经过综合考虑以及考虑到模型高阶滞后时的畸变效应,结合得到的表3数据,最终决定建立VAR(2)模型,可以符合大部分情况。虽然还有所偏差,但是其满足后续的Q检验与方差检验,且经差分后没有缺失值。综上所述,最终决定建立的模型为VAR(2)模型。

表3 AIC、BIC、FPE、HQIC系数

2.2.4 VAR模型的检验

1)自相关性检验。

使用Ljung-Box检验对模型进行滞后相关的检验。LB检验是基于一系列滞后阶数,判断序列总体的相关性或者说随机性是否存在。

由Ljung-Box计算得到p=0.05492778>0.05,所以就拒绝原假设,其原假设相关系数为0。从结果看,相关系数与0没有显著性差异,即为白噪声序列。

通过绘制残差项自相关图来观察自相关性。如图4所示,6个变量的自相关性即为对角线所对应的6幅图片。可以发现6个变量都在基本的边界范围以内,没有呈现明显的自相关性。因此,从自相关层面来看,该模型符合要求。

2)Granger因果关系检验。

Granger因果关系主要用来分析变量之间是否存在因果关系。一个变量如果受到另一个变量的滞后影响,则称它们具有Granger因果关系。VAR模型中Granger因果关系检验的实质就是检验一个变量的滞后变量是否可以引入其他变量的方程中,并作为其内生变量。本文采用VAR模型窗口联合χ2检验,对气候温度VAR模型的6个方程进行Granger检验,结果如表4所示。其中原假设为H0:对应方程右侧的全部变量不能够Granger引起左侧变量。

表4 Granger检验结果

已知变量排列顺序为:[‘(Temp)’,‘太阳辐射(Wm-2)’,‘二氧化碳含量(CO2)’,‘土壤含水量(Soilw)’,‘全球降水量(Precip)’,‘表面温度(Giss)’],则结合表4数据可轻易得知,由模型得出的结论是完全贴合实际情况的。例如全球降水量必然会与土壤的含水量直接相关。因此,到这一步本文认为该模型是完全贴合实际可以被接受的。

2.2.5 脉冲响应和方差分析

1)脉冲响应分析会反映当VAR模型某个变量受到“外生冲击”时,模型中其他变量受到的动态影响[24-26]。根据这些变量受到此冲击后的一段时间内的动态变化画出脉冲响应图形,如图5所示。

2)由于VAR模型参数的普通最小二乘估计量具有一致性,单个参数估计值的气候解释很困难。方差分析通过分析每一个结构冲击对内生变量变化(通常用方差来度量)的贡献度[27-28],进一步评价不同结构冲击的重要性。因此,方差分析给出对VAR模型中的变量产生影响的每个随机扰动项的相对重要性的信息,绘制出相应的方差图如图6所示。

2.2.6 VAR模型的预测

用之前训练好的模型作出对应的预测,得到预测图和预测波动范围如图7所示。

通过曲线的趋势分析可知:二氧化碳浓度还会持续地上升,气候温度会上升,降水量会适当地下降,而地表温度也会有平缓的抬升。

通过数值分析可知:未来25年,加拿大气候温度相较于2018年同比增长约1.7%,达到15.0410 ℃,降水量会同比下降约0.7%,达到2.0950 mm。

为检验预测结果的准确性,拟采用ARIMA时间序列预测模型和本文模型对加拿大Alberta、Nova Scotia、Prince Edward Island、Quebec地区年平均温度和年降水量进行对比实验。

使用ARIMA时间序列预测模型进行预测,预测得到未来25年的加拿大平均温度为15.0526 ℃,使用同样的方法对未来25年的降水进行预测,得到加拿大平均的降水量为2.1043 mm。

2种模型预测的未来25年加拿大平均气温和降水量结果如表5所示。

表5 模型对比特征表

采用ARIMA与VAR模型进行对比实验,结果如表5所示。虽然2种模型的结果均得到相似结论,表明在未来25年里加拿大气候保持基本稳定,气温在15 ℃左右,降水量在2 mm左右。但ARIMA模型适用于一般的时间序列预测,对于构建多元时间序列预测时,ARIMA模型就不能很有效地显性表现相应特征。VAR模型适用于多变量的向量自回归模型,适用于多元时间序列预测,其拟合精度较ARIMA模型略高。

3 结束语

全球变暖形势日益严峻,利用气温数据对其进行预测有着重要意义。本文基于加拿大部分地区数据研究了全球变暖现象,并针对此提出一种基于VAR模型的预测方法,将VAR模型应用于多元时间序列数据预测,取得了较好的预测结果。本文通过VAR模型不仅可以预测未来气温和降水量的发展趋势,也可以分析模型中有脉冲响应的时候,模型相对应的变化,借助其中的方差分析,得到变量的显著性。VAR模型不仅能用来分析内生变量之间的关联关系,也展现了其在数据预测领域的潜力。

猜你喜欢
平稳性向量加拿大
向量的分解
乘火车穿越加拿大
聚焦“向量与三角”创新题
城轨车辆运行平稳性状态监测与性能演化分析*
不同计算时间下的平稳性指标对比研究
广州地铁电客车运行平稳性测试及评价
我在加拿大留学的第一年
电力调控运行的重要性与优化管理措施研究
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线