数值模式及机器学习对兰州市近地面臭氧模拟适用性

2024-01-29 07:57周恒左陈恒蕤落义明仝纪龙刘永乐兰州大学大气科学学院甘肃兰州730000

中国环境科学 2024年1期

周恒左,廖鹏,杨宏,陈恒蕤,落义明,潘峰,仝纪龙,刘永乐(兰州大学大气科学学院,甘肃兰州 730000)

近地面臭氧的模拟方法主要包括数值模式、统计学方法等.在利用数值模式进行近地面臭氧模拟时要考虑的要素较多,首先是初始条件、边界条件及气象场,有研究表明,在较高的紫外辐射及高温条件下会显著加强光化学反应速率,造成近地面臭氧浓度升高[1].其次是污染物排放清单的准确性及选用的光化学反应机理的合理性,选用不同的气相化学反应机理会影响模式中参与光化学反应的物种数量及化学反应速率常数,进而影响模式模拟效果.

目前使用较多的第三代环境空气质量模式包括CMAQ(社区多尺度空气质量建模系统),WRFCHEM(天气研究和预报化学耦合模式),CAMx(综合空气质量与拓展模式)模式等.Sun 等[2]利用WRFCHEM 模式及3 种不同的化学机理RADM2(第二代区域酸沉降机理)、SAPRC99(加州大气污染研究中心机理)、CBMZ(碳键机理)对上海市及周边地区2016年5月近地面臭氧及其前体物进行了模拟研究,结果表明:SAPRC99 在臭氧浓度较高时模拟结果高于其他两种机理,RADM2 在其他时间段模拟结果较高,而CBMZ 机理模拟结果比其他两种机理更接近监测值.高萌萌[3]使用WRF-CHEM 模式利用2 种不同的排放源以及4 种不同的化学机理(RADM2、CB05(碳键机理2005 版本)、CBMZ、SAPRC99)对上海地区的臭氧等污染物进行了数值模拟,结果表明:RADM2 机理模拟结果最高,SAPRC99 最低.周阳等[4]利用CMAQ 模式选用两种不同的化学机理(CB05,SAPRC99)对天津市臭氧进行模拟,结果表明:SAPRC99 机制模拟结果略高于CB05 机制,并且高于监测值,在本地化VOCS排放源清单工作不是特别详实时,可以优先考虑CB05 机制.

随着机器学习模型的发展,该方法也被应用到环境空气质量模拟研究中.康俊锋等[5]利用不同的机器学习模型(K 最邻近模型、BP 神经网络模型、支持向量机、高斯过程回归模型、XGBoost(极端梯度提升)模型和随机森林模型),采用2017～2018年逐小时气象站数据、PM2.5浓度数据和Merra-2(现代研究和应用再分析资料第2 版)再分析数据对江西省赣州市的PM2.5浓度进行预测,结果表明在缺少污染物监测数据时,利用能见度和气象因子等数据也能较好地预测PM2.5浓度,其中XGBoost 模型预测精度最高.董红召[6]提出了一种融合时空特征的PCAPSO-SVM(主成分分析--粒子群优化-支持向量机)臭氧组合预测模型对2016～2018年杭州市臭氧进行模拟验证,结果表明:该模型具有更好的预测精度和良好的适用性,对臭氧超标预测的准确率高于79%.

综上,目前国内已有不少研究,利用不同化学机理对近地面臭氧模拟性能进行系统评估,以及利用机器学习模型对臭氧进行模拟,但研究区域大多集中在京津冀及上海周边地区,在兰州地区开展的此类研究相对较少,同时将两种不同方法应用于同一研究区域的研究也相对较少.因此本研究利用数值模式(WRF-Chem、CMAQ)分别使用3 种不同化学机理RADM2、CBMZ、CB06r3(碳键机制第6 版第3 次发布),对兰州市近地面臭氧浓度进行模拟验证,分析不同化学机理的模拟效果,同时选用2 种机器学习模型XGBoost、PSO-BP(粒子群优化-误差反向传播神经网络)进行模拟验证,就不同方法下兰州市近地面臭氧浓度模拟效果进行对比,并分析其适用性.本研究技术路线图见图1.

图1 研究技术路线图Fig.1 Research technology roadmap

1 数据与方法

1.1 研究区域及时段

兰州市位于中国西北半干旱地区,地势西部和南部高,东北低,黄河自西南流向东北,形成峡谷与盆地相间的串珠形河谷.污染扩散条件较差,同时因其有着较强的紫外线,日夜温差大的气候特征,为臭氧生成提供良好条件.根据《兰州市环境状况公报》(2018～2022年)显示,自2019年开始兰州市环境空气质量逐年向好,但以臭氧为首要污染物的占比却从2018年的29.4%增加至36.6%,增加幅度最为明显,臭氧污染开始凸显,因此本次研究选择2019年为研究年份.

兰州市目前有4 个环境空气质量预警监测站点(国控点),分别是:生物制品研究所、铁路设计院、兰炼宾馆和兰大榆中校区,分布在城关区、西固区及榆中县,充分代表了研究区域环境空气质量状况.因此,本次研究选择上述站点近地面臭氧监测数据表征兰州市近地面臭氧污染状况.研究区域内兰州市气象站及环境空气质量监测国控站点分布见图2.

图2 研究区域Fig.2 Study area

兰州市夏季臭氧浓度最高[7],以2019年兰州市国控站点近地面臭氧日最大8h 平均浓度监测数据(http://www.cnemc.cn/sssj/)为例(图3),超过《环境空气质量标准》(GB 3095-2012)[8]二级浓度限值的情况大部分出现在7月,因此选择7月作为本次研究时段.

图3 2019年兰州市近地面臭氧日最大8h 滑动平均浓度Fig.3 Daily maximum eight-hour average concentration of near-surface ozone in Lanzhou in 2019

1.2 数据及预处理

数据:本研究用来驱动数值模式的气象资料为美国国家环境预报中心(NCEP)提供的FNL 再分析资料[9],污染源排放清单数据则选用由清华大学开发和维护的 2017年中国多尺度排放清单模型(MEIC)[10].用来构建机器学习模型的数据集则包括了欧洲中期天气预报中心的ERA5-Land(陆地再分析资料)再分析资料[11]、兰州市环境空气质量国控站点的臭氧逐小时监测数据以及中国大气成分近实时追踪数据集(TAP)[12]中的2019年臭氧日最大8h平均浓度数据.

预处理:环境空气质量模式需要的气象场由WRF(中尺度天气预报模式)模式模拟得到,利用ArcGIS(地理信息系统)、SMOKE(稀疏矩阵算法排放模型)及MEIC 污染源清单向WRF-Chem 模式网格插值分配程序[13]等工具,将MEIC 清单处理为可识别格式输入模式.选择2019年ERA5-Land 再分析资料中的10m 纬向风分量、10m 经向风分量、2m温度、2m 露点温度、地面压强、总降水量、向下地表太阳辐射,国控站点的臭氧浓度监测数据、以及TAP 臭氧日最大8h 平均浓度数据构建机器学习模型的数据集.按照时间顺序将前80%数据作为训练集,后20%数据作为测试集,模拟兰州市臭氧日最大8h 平均浓度.

1.3 数值模式简介

1.3.1 数值模式参数化方案 WRF 模式参数化方案:WRF 是由美国国家环境预报中心(NCEP)等一系列机构开发的中尺度数值天气预报模式,是最常见的气象数值模拟工具之一.

WRF 选用的参数化方案组合见表1,模拟范围选择三层嵌套详见图4.

表1 WRF 模式参数化方案Table 1 WRF mode parameterization scheme

图4 WRF 模拟范围Fig.4 The simulation range of WRF

环境空气质量模式参数化方案:WRFChem(V4.0)模式选择三层嵌套,模拟范围与WRF(V4.0)相同,CMAQ(V5.3.1)则选用两层嵌套,模拟范围分别与WRF 模式d02、d03 相同,模拟时间段为2019年7月.2 种环境空气质量模式的化学机理详见表2.

表2 空气质量模式参数化方案Table 2 The parameterization scheme of Air Quality Model

1.3.2 不同大气化学机理简介作为第三代环境空气质量模式的重要组成部分,大气化学机理能够反映大气中的化学反应过程,并通过对化学反应方程求解来量化众多化学反应,用以提高模拟效果.由于数值模式发展的需求,越来越多的用来描述对流层光化学反应过程的大气化学机理被提出,目前大气化学机理总体上可以分为两大类:特定化学机理和归纳化学机理[27],其中,归纳化学机理中广泛应用的是碳键机理(CBM)、区域酸沉降机理(RADM)以及加州大气污染研究中心机理(SAPRC).

CBM 是通过碳键结构来对臭氧重要前体物VOCs进行分类的化学机理,Zaveri 等[28]在CBM-IV的基础上对部分化学反应进行修改提出了CBMZ机理,共包括52 个物种及132 个反应.美国德克萨斯州环境质量委员会(TCEQ)于2010年提出了CB06机理,包含77 个物种和218 个反应,因物种数量较少,CBM 机理计算速度相对较快,但也因此会忽略某些重要的自由基种类.RADM 是按照污染物与OH的反应速率及反应活性进行分类的化学机理,1990年 Stockwell 等[29]在第一代的基础上开发了RADM2 机理,增加了异戊二烯并将烯烃分为乙烯、端烯和内烯,该机理包括63 个物种以及156 个反应.SAPRC 则是按不同有机分子与OH 的反应活性进行分类的化学机理,最早由Carter[30]开发,SAPRC机理最初目的是为了研究机动车尾气中的VOCs 的增量反应活性、最大增量反应活性和最大臭氧增量反应活性,对有机物的处理比较详细.

本研究因选用MEIC 清单作为大气污染物排放清单,未进一步统计兰州市本地VOCS物种成分谱,所以选则上述3 种常见化学机理中物种数量相对较少的CBM 机理(CBMZ 和CB06r3)以及RADM2 机理作为数值模式的化学机理.

1.4 机器学习模型简介

XGBoost 是基于CART 回归树分类器的集成模型[31]:

XGBoost 目标函数如下:

对目标函数在ft=0 处进行二阶泰勒展开得到的最小化目标函数如式(5):

对上式求解即可得到目标值.

PSO-BP由两部分组成,其中第一部分为粒子群优化算法,1995年由Kennedy 等[32]等建立,经过改进形成了PSO 算法.PSO 算法对于解决过早陷入局部最优解有较好的效果.

算法核心是速度更新公式如下:

在得到粒子下一次迭代移动的方向和距离之后,需要更新粒子位置,用到的位置更新公式如下:

第二部分则是前馈神经网络(BP 神经网络),1986年Rumelhart 等[33]提出一种基于误差反向传播算法的神经网络,有会陷入局部最小值的缺点.

1)其中BP 神经网络的前向传播过程可以用如下公式描述:

输入层到隐含层:

隐含层到输出层:

式中:f 代表激活函数,αj代表第j 个隐含层神经元的输出,βk代表第k 个输出层神经元的输出,ω代表权值,x,b 则分别代表输入层及隐含层的数值,θ为偏差.

2)误差反向传播过程,误差计算公式如下所示:

式中:E 表示误差,y 表示输出值,T 表示实际值.

3)权值及偏差的更新

权值的更新公式:

偏差的更新公式:

式中:η表示学习率.

为了解决BP 神经网络易陷入局部最小值的缺点,本研究将PSO 算法与BP 神经网络相结合,利用PSO 的能够解决过早陷入局部最优解的特点优化BP 神经网络,以期达到更好的效果.

1.5 机器学习模型构建

本研究将选用的数据进行时间及空间上的匹配后,按照时间顺序将前80%的数据作为训练集输入构建的机器学习模型,通过超参数调优方法,确定模型最优参数,该参数也是后20%数据构成的验证集中模拟结果精度最高时的模型参数,同时输出模拟结果.

1.6 验证与评价指标

本研究选用以下参数作为模拟结果的验证与评价指标,分别为:均方误差(RMSE)、标准化平均偏差(NMB)、标准化平均误差(NME).计算方法如下:

2 结果与分析

2.1 数值模式模拟效果

将使用不同化学机理的数值模式模拟结果(O3-8H)与国控点监测数据进行对比,分析3 种不同的化学机理对兰州市近地面臭氧模拟的适用性.模拟结果与监测数据的对比结果见表3 及图5.

表3 空气质量模式模拟兰州市O3-8h(臭氧8h 平均)结果误差分析Table 3 Air quality model simulation of O3-8h results in Lanzhou city error analysis table

图5 不同化学机理下O3-8h 模拟效果对比Fig.5 Comparison of O3-8h simulation effects under different chemical mechanisms

从监测值均值及模拟值均值的对比中可以看出,使用CB06r3 机理进行模拟时,模式会低估O3-8h浓度,而RADM2 会高估O3-8h 浓度,CBMZ 的模拟值与监测值较吻合.以生物制品所站点为例,分析模拟结果验证指标,使用CBMZ 化学机理模式时,3 项表征误差的指标明显优于其他两种化学机理,CBMZ 机理更适宜兰州市近地面臭氧的模拟.

从图5 中O3-8h 浓度斜率还可以看出3 种化学机理中 RADM2 的臭氧生成速率最快,其次是CB06r3,生成速率最慢的是CBMZ 化学机理.CBMZ的臭氧生成速率与监测结果较接近.

图6 是臭氧日最大8h 滑动平均浓度(MDA8-O3)的模拟值与监测值对比,从结果可以得出同样的结论,即:使用CBMZ 机理进行模拟时,模拟值与监测值较吻合.

图6 不同化学机理下兰州市MDA8-O3 模拟效果对比Fig.6 Comparison of MDA8-O3 simulation results in Lanzhou City under different chemical mechanisms

从表4 可以看出,在O3-8h 模拟中表现较好的CBMZ 化学机理在模拟MDA8-O3的效果上同样表现最好,各项验证与评价指标仍表现优异,这一结果表现出CBMZ 化学机理更适宜兰州市近地面臭氧浓度的模拟.

表4 空气质量模式模拟兰州市MDA8-O3 模拟结果误差分析Table 4 Air quality model simulation of MDA8-O3 results in Lanzhou city error analysis table

使用不同化学机理得到不同模拟结果的原因可能是,不同化学机理中VOCS的物种不同,导致VOCS的反应活性、大气氧化性不同,并且不同化学机理的光解速率也不同[34],所以模拟结果有所差异.CB06r3 模拟值偏低的原因可能是此机理模拟的自由基较少,只能将很少的臭氧前体物氧化成臭氧;RADM2 模拟值偏高的原因可能是其光解速率较高,相较于CBMZ 能够光解有机过氧化物,用于提供有机自由基将更多的NO 氧化成NO2[3].

为了进一步对比不同化学机理对臭氧模拟效果的影响,根据2019年兰州市环境空气质量监测国控站臭氧监测数据,挑选出在研究时段内MDA8-O3超过《环境空气质量标准》(GB 3095-2012)二级浓度限值的情况,分析超标日(7月25～26日)臭氧模拟结果的空间分布特征,见图7.

图7 7月25～26日数值模式模拟兰州市MDA8-O3 空间分布Fig.7 Spatial distribution of model simulation MDA8-O3 concentrations over Lanzhou city on 25 July and 26 July 2019

从图 7 的模拟结果来看,RADM2 模拟的MDA8-O3在整个兰州市范围内显著偏高,CB06r3模拟结果则偏低,而CBMZ 模拟结果相对较好,且不同化学机理模拟结果在空间分布上差异较大.从CBMZ 模拟结果来看,7月25日兰州市臭氧高值区出现在榆中县及永登县,而26日兰州市则出现了大范围的MDA8-O3超标的情况,这与站点监测结果基本一致.

2.2 机器学习模拟效果

根据1.2 章节介绍的数据集,选择两种不同的机器学习模型(XGBoost、PSO-BP),对兰州市近地面臭氧进行模拟.受数据集空间分辨率(10km)及时间分辨率(MDA8-O3)的限制,使用机器学习方法进行模拟时,相较数值模式而言时空分辨率较低.

由表5 结果所示,在缺少大气污染物排放清单等数据的情况下,仅使用气象数据,2 种机器学习模型都可以较好地模拟兰州市近地面臭氧浓度,与3种化学机理中表现最好的CBMZ 模拟结果相比,兰炼宾馆及生物制品所站点的RMSE 略有下降,其余2站点则有不同程度的提升,其中榆中校区提升较明显.但本研究选择的2 种机器学习模型对极值的模拟效果都不理想,兰炼宾馆站点因其靠近兰州市某大型石油炼化企业,导致该站点臭氧浓度监测值较高,所以机器学习模型在该站点的验证结果较差,经PSO 算法优化的BP 神经网络模型在生物制品所和铁路设计院站点的验证结果相较于XGBoost 模型表现更好,但差距不明显.从图8 也可以看出,两种机器学习模型模拟结果较接近.

表5 机器学习模型模拟兰州市MDA8-O3 结果误差分析Table 5 Machine learning model simulation of MDA8-O3 results in Lanzhou city error analysis table

图8 不同机器学习模型下兰州市MDA8-O3 模拟效果对比Fig.8 Comparison of MDA8-O3 simulation results in Lanzhou City under different machine learning models

图9 7月25～26日机器学习模型模拟兰州市MDA8-O3 结果空间分布Fig.9 Spatial distribution of machine learning models simulation MDA8-O3 concentrations over Lanzhou city on 25 July and 26 July 2019

如图 9所示,从空间分布的情况可以看出PSO-BP模型并没有模拟出近地面臭氧超标区域,对超标日臭氧空间分布的模拟效果不如XGBoost 模型.综合对比选用的两种机器学习模型,在整体模拟效果上本次研究认为XGBoost 模型效果更好.

从图10 结果来看,使用XGBoost 模型进行近地面臭氧模拟时,数据集中不同变量重要性[35]大小依次为:向下地表太阳辐射>总降水量>纬度信息>2m露点温度>经度信息>10m 纬向风分量>10m 经向风分量>2m 温度>表面气压,即使从机器学习的模拟结果来看,太阳辐射依旧是影响近地面臭氧生成的重要因素,这与目前有关影响臭氧生成机理的研究结论一致[36].

图10 XGBoost 特征重要性评分Fig.10 XGBoost feature importance score

图11 7月25～26日不同方法模拟兰州市MDA8-O3 空间分布对比Fig.11 Comparison of the spatial distribution of MDA8-O3 concentrations over Lanzhou city simulated by different methods on 25 July and 26 July 2019

2.3 模拟效果对比

将数值模式中表现较好的CBMZ 化学机理对兰州市近地面臭氧的模拟结果,与机器学习模型中表现较好的XGBoost 模拟效果进行对比,并分析其适用性.

从表6 可以看出,在只有气象数据的条件下,机器学习模型对兰州市近地面臭氧的模拟效果与使用CBMZ 化学机理的数值模式较接近,甚至部分站点表现更好,所以利用机器学习模型模拟近地面臭氧是可行的,并且机器学习模型相较于数值模式有着计算速度快、对数据需求较低的优势.但在空间分布的模拟上,受样本分辨率的限制,相较于可以自由选择空间分辨率的数值模式,机器学习模型存在一定劣势,同时由于缺少物理化学基础,可解释性也性对较低.

表6 CBMZ 及XGBoost 模型模拟兰州市MDA8-O3误差对比Table 6 Comparison of MDA8-O3 errors simulated in Lanzhou city by CBMZ and XGBoost models

为了比较不同方法模拟得到的兰州市近地面MDA8-O3空间分布结果,本研究选择TAP 数据集作为验证标准.TAP 数据集是由清华大学联合北京大学等多家单位开发维护,融合地面观测、卫星遥感、排放清单和模式模拟等数据所构建的一种大气污染物浓度数据集.将表现较好的CBMZ 模拟结果以及XGBoost 模型模拟结果,与TAP 数据集提供的兰州市近地面MDA8-O3空间分布进行对比.

从图 11 结果来看,25～26日兰州市近地面MDA8-O3高值区均出现在安宁区.机器学习方法模拟的兰州市近地面MDA8-O3空间分布与TAP 数据集提供的更为吻合.

3 结论

3.1 本研究选择的3 种化学机理中,CBMZ 化学机理对兰州市近地面臭氧模拟效果较好,RADM2 化学机理模拟结果偏高,而CB06r3化学机理则有些低估,当缺少本地化 VOCs 成分谱时,优先考虑采用CBMZ 机理.

3.2 在仅使用气象数据的条件下,从站点验证结果来看2 种机器学习模型对兰州市近地面臭氧浓度的模拟效果较好.从空间分布的模拟结果来看XGBoost 模型表现更好,并且根据该模型输出的特征重要性来看,太阳辐射是影响近地面臭氧生成的重要因素,这与目前的研究结论一致.

3.3 相较于机器学习,数值模式有着可以自由选择空间分辨率的优势,且有着完整的物理化学理论基础,但需要提供气象场、大气污染物排放清单以及边界条件;相较于数值模式,机器学习运算速度更快、对数据需求较低,但受样本数据的影响,在空间分辨率上无法自由选择,且可解释性较低.

3.4 在进行高空间分辨率模拟,或者需要对污染过程进行分析时数值模式更为适宜;在缺少大气污染物排放清单等相关数据的情况下,适宜采用机器学习模型对近地面臭氧进行模拟研究,同时也对近地面臭氧污染的快速模拟预警提供了新方向.