基于BP神经网络预测林内PM2.5浓度

2019-05-14 09:44陈博李迎春夏振平
安徽农业科学 2019年1期
关键词:人工神经网络线性神经网络

陈博 李迎春 夏振平

摘要[目的]利用BP神经网络预测林内PM2.5浓度。[方法]利用人工神经网络理论,采用2013年7月—2014年5月野外实时监测数据,建立了以气象参数、污染源强变量和林分结构特征为输入因子,林内PM2.5小时平均浓度为输出因子的预测模型,并对其预测精度进行了评价。[结果]BP人工神经网络模型能够很好地捕捉污染物浓度与气象因素和林分结构间的非线性影响规律,预测结果的平均相对误差为1.71×10-3,均方根误差为6.77,拟合优度达0.98,模型具有很高的预测精度。而传统的多元线性回归(MLR)模型预测结果的平均相对误差、均方根误差和拟合优度分别为0.27、22.92和0.93。[结论]研究成果印证了应用BP人工神经网络模型预测林内PM2.5浓度的可行性和准确性。

关键词PM2.5;BP人工神经网络;多元线性回归;林分结构

中图分类号S771.8文献标识码A

文章编号0517-6611(2019)01-0107-04

doi:10.3969/j.issn.0517-6611.2019.01.033

开放科学(资源服务)标识码(OSID):

PM2.5指大气中直径小于或等于2.5μm的颗粒物,常被称为可入肺颗粒物或细颗粒物[1]。虽然PM2.5只是大气成分中含量很少的组分,但其在空气中的重力沉降率几乎为零,长期在空气中悬浮,附着很多有机污染物和重金属元素[2],对人类健康、环境和气候有重要影响。植物作为环境绿化的主体,对空气有一定的净化作用,森林植被可以通过直接和间接的方式对大气中颗粒物的浓度产生影响[3-6]。然而森林植被对PM2.5的作用研究尚处于起步阶段,林内PM2.5浓度变化规律及林内外浓度对比情况尚不清楚。已有文献报道林内PM2.5的质量浓度受污染散发源、气象条件和林分结构等多种因素影响[7-10],既存在林内PM2.5浓度低于林外,也存在林内PM2.5浓度高于林外的情况。鉴于此,准确预测林内PM2.5浓度对于研究森林调控PM2.5的作用效果及引导公众健康出游、亲近森林具有重要意义。

研究表明,PM2.5浓度的变化与气象条件之间呈很强的非线性关系[11],传统的多元线性回归模型预测PM2.5质量浓度存在很大局限性。然而人工神经網络能够建立非常复杂的非线性模型,很好地反映PM2.5质量浓度与参数之间的关系[12-13],此种方法已经成功地用于多种污染物的预测研究[14-15]。笔者以北京市大兴区黄村镇景观生态林为研究对象,应用BP人工神经网络模型预测林内PM2.5小时平均质量浓度,并与多元线性回归预测结果做比较,说明基于人工神经网络模型预测林内PM2.5质量浓度的可行性和准确性。

1实验方法原理

BP神经网络属于多层前馈神经网络,据统计,有80%~90%的神经网络模型采用了BP网络或它的变化形式[16]。BP神经网络的构成包括1个输入层、1个或多个隐藏层以及1个输出层,主要特点为信号前向传递,而误差反向传播。BP算法的原理是在前向的传递中,信号经由输入层、隐含层和输出层的逐层处理及传递,如果预测输出和给定输出之间的误差未达到精度要求,则转为反向传播并修正连接权值,进而促使预测输出逐渐逼近期望输出。3层BP神经网络的结构如图1所示。一般采用S型的转换函数作为传递输入层与隐含层之间关系的函数,采用纯线性的转换函数作为传递隐含层与输出层之间关系的函数[17]。BP人工神经网络输入层和隐含层间的S型传递函数表达公式如下:

F(x)=1/(1+e-x)(1)

式中,x表示输入该神经元,将神经元(-∞,+∞)的输入范围映射到(0,+1)较小的范围内,便于BP算法训练神经网络。

2实验设计

2.1数据获取该研究中采用的283组数据由野外实时监测得到。2013年7月—2014年5月,每个季度随机抽取无降水天气9d,每天连续监测9h。在北京市大兴区黄村镇大洼村景观生态林林内监测点和林外2个监测点同步监测1.5m高处空气中的PM2.5浓度及气象要素(温度、相对湿度、风速、风向),为了保证监测点具有相近的污染源,且避免监测点出现林缘效应,林内监测点设在景观生态林中心位置,距林缘50m,林外监测点设在林外距林缘50m的位置且四周空旷无高大乔木和建筑遮挡。林内样地主要乔木为旱柳(Salixmatsudana),平均树高6m、平均胸径12cm,林缘伴生榆叶梅(Prunustriloba)和碧桃(Prunuspersica)等少量的花灌木。

采用英国Turnkey仪器制造公司生产、符合粉尘监测国家标准的Dustmate粉尘检测仪(分辨率0.1μg/m3,测量范围0~6000μg/m3,粒径范围0.5~15.0μm)测定PM2.5浓度,使用台湾衡欣az8918风速气温湿度三合一测试仪及TNF三杯式风速表测定气温、相对湿度、风速和风向等。

2.2数据处理由于大气污染物的浓度变化受气象条件的影响,因此要实现对林内PM2.5质量浓度的预测,必须同时考虑林外PM2.5背景值及林内气象条件。

(1)背景浓度:将林外监测点的PM2.5浓度设为预测模型输入参数中的背景浓度,即用PM表征污染源强对林内PM2.5浓度的影响。

(2)气象参数:选取温度(T)、相对湿度(H)和风速(VW)数据为气象参数直接进入分析。风向(θ)经由正弦和余弦转换成2个变量sinθ和cosθ[17],即把风向转换成为东西方向和南北方向2个变量。

(3)季节参数:考虑一年中不同季节植物生长快慢不同对林内PM2.5浓度变化产生不同影响,引进季节变量Aseason作为双变量使用。根据旱柳生长习性,春季和夏季生长旺盛,令Aseason=0;秋季和冬季生长缓慢,令Aseason=1。

建立的预测模型中全部的输入变量如表1所示。

2.3BP人工神经网络模型基于BP人工神经网络方法仿真林内PM2.5浓度的过程主要由MatlabR2013a中神经网络工具箱所提供的函数开展编程并建立起相应的模型而实现。具体网络实现步骤如下:Step1,网络初始化。将输入层到隐含层以及隐含层到输出层所有的权值设置成任意小的随机数,并设定初始阈值。Step2,读入输入变量与输出变量(林内PM2.5质量浓度)。全部样本数据被随机分成训练组和测试组:训练组样本占70%用于训练网络,根据显示的误差调试网络,其中训练法则为Levenberg-Marquardt运算法则;测试组样本占30%用于独立测试训练网络的性能,结果对训练过程无影响。Step3,选择训练函数,在设置隐藏层神经元的数目后训练网络。当网络不能收敛时,则需要更换训练函数;当结果误差比较大时,则需要将隐藏层神经元的数目进行调整,之后再次训练网络,如此反复训练,最终获得最佳训练结果。Step4,确定BP神经网络的最终结构:单隐层,各层神经元数目为7-6-1,训练函数确定为trainlm,并使用训练好的网络对林内PM2.5小时平均浓度进行仿真。

2.4多元线性回归模型将多元线性回归(multiplelinearregression,MLR)模型与人工神经网络模型相比较,其中MLR模型是通过MatlabR2013a所建立。MLR模型的数学表达式如下:

Y=b0+ni=1biXi+εi(2)

式中,Xi表示输入变量i的值;Y表示林内PM2.5质量浓度实测值;用最小二乘法计算求得常数项b0及回归系数bi;εi是回归误差,回归求解的过程就是使平均误差最小的过程。

通过逐步(stepwise)回归法将该研究全部的输入变量进行筛选,得到林内PM2.5质量浓度ρ(PM2.5)的多元线性回归预测模型如下:

ρ(PM2.5)=-19.2179+0.9689ρ(PM02.5)+0.0946H+0.3425VW-0.4583T

预测模型显示,预测林内PM2.5浓度时背景浓度的影响非常重要,其次是相对湿度。该预测模型经过逐步回归法后留取了4个输入变量(背景浓度、相对湿度、风速和温度),风向变量和季节变量未能进入回归。

47卷1期陈博等基于BP神经网络预测林内PM2.5浓度

3结果与分析

3.1监测数据统计学描述在预测模型输入变量中,由于背景浓度(林外PM2.5浓度)对林内PM2.5浓度的预测结果影响最为重要,故将背景浓度数据与林内PM2.5浓度数据分别描述,并进行T检验,以了解林内和林外PM2.5浓度数据本身的差异,避免因对比数据无显著差异而不适合采用以上模型进行预测。由表2可知,林外PM2.5浓度最小值高于林内,最大值低于林内,PM2.5小时平均浓度为林外高于林内;T检验统计量观测值对应的双尾概率P值接近0,如果设定显著水平α为0.05,则P值小于α,可认为林内和林外PM2.5浓度存在显著差异。

3.2预测结果比较图2是基于BP人工神经网络方法和MLR方法仿真生成的研究区林内PM2.5浓度的预测值与观

测值的比对。图2显示BP人工神经网络模型与MLR模型

预测结果之间存在明显的差异。BP人工神经网络模型比较好地预测了不同天气情况下林内PM2.5的质量浓度变化,尽管对于数据急剧变化(突然增大或减小)的点,神经网络的预测误差相较于平滑变化的点略微增大,但是整体的预测曲线非常接近实测曲线。而MLR模型的预测效果明显不及BP人工神经网络模型的预测效果。从图2可以看出,当大气中PM2.5浓度较高(>100μg/m3)时,MLR模型的预测结果明显高于实际观测值;当大气中PM2.5浓度较低(<10μg/m3)时,预测结果明显低于实际观测值,甚至出现负值(见红框所示),说明采用MLR模型预测林内PM2.5浓度时存在一定局限性和不确定因素。为了更好地体现以上2种模型的预测能力,该研究采用预测精度对模型进行评价。

3.3预测精度评价可以选用多种预测方法对同一研究对象进行预测,但是预测效果往往存在不同程度的差异。预测精度即为评价预测效果优劣的标准,是衡量预测方法是否合理的依据。评价模型预测性能常用的检验指标[18-19]包括:R2,表示拟合优度,R2越接近1,说明二者相关程度越高,预测结果与实测值越接近;EMR,表示平均相对误差,预测的结果越精确,EMR越小;ERMS,表示均方根误差,是用来衡量預测值同实测值之间的偏差,ERMS越小,预测结果越理想。以上2种预测方法的拟合优度见图3,预测精度评价指标见表3。

EMR=(X-Y)/Y(3)

ERMS=ni=1(Xi-Yi)2n(4)

式中,X为预测平均值;Y为实测平均值;Xi为第i组预测值;Yi为第i组实测值;n为监测样本组数。

从图3可以看出,基于人工神经网络模型的拟合优度R2为0.982,而基于多元线性回归模型的拟合优度为0.931,低于前者。从图3a和b拟合直线与期望值1∶1直线关系也可以看出,人工神经网络模型的预测结果更加接近期望值,较多元线性回归模型预测结果的精确性有所提高。

由表3可知,用神经网络预测的平均相对误差EMR为1.71×10-3、均方根误差ERMS为6.77;而MLR模型预测的平均相对误差EMR为0.27、均方根误差ERMS为22.92。虽然2种方法得到的预测值与实测值的相关性都很高(图3),但从误差值大小可以看出,BP神经网络模型预测的误差值远小于MLR模型。表3对比了2种模型预测精度,结果表明神经网络具有很强的稳定性和容错性[19],综合信息能力强,能够很好地处理复杂的非线性关系。以上分析说明2种预测模型均能预测林内PM2.5浓度的小时平均值,相较而言,采用人工神经网络模型对林内PM2.5浓度值变化的预测结果比通过多元线性回归模型的预测结果更加接近实际观测值的变化。

4小结

(1)BP人工神经网络和传统多元线性回归模型2种方法均可以用于林内大气PM2.5质量浓度预测,尽管二者在PM2.5浓度急剧变化时预测存在一定缺陷,但仍然能够在稀疏监测数据输入条件下基本反映林内PM2.5污染的时间变化规律。

(2)相对于多元线性回归模型,BP人工神经网络具有很强的自学习、自组织与自适应功能,可以更加准确地实现林内PM2.5质量浓度小时平均值的预测,其预测结果能更好地捕捉气象因素对大气污染物浓度的非线性影响规律。BP人工神经网络能够成为预测林内PM2.5质量浓度的较优方法。

(3)文中所选的污染源强表征变量和气象参数数据容易获得,且可以比较准确地反映气象变化和林分作用对PM2.5质量浓度的影响,是预测林内PM2.5质量浓度较为理想的输入变量。

(4)采用人工神经网络方法建立的林内PM2.5质量浓度预测模型适用于不同大气污染程度,但是在一般污染浓度情况下对林内PM2.5浓度的预测效果比高污染时期的预测效果更为准确。

参考文献

[1]邵龙义,时宗波,黄勤.都市大气环境中可吸入颗粒物的研究[J].环境保护,2000(1):24-26,29.

[2]孙淑萍,古润泽,张晶.北京城区不同绿化覆盖率和绿地类型与空气中可吸入颗粒物(PM10)[J].中国园林,2004,20(3):77-79.

[3]YUY,SCHLEICHERN,NORRAS,etal.DynamicsandoriginofPM2.5duringathree-yearsamplingperiodinBeijing,China[J].Journalofenvironmentalmonitoring,2011,13(2):334-346.

[4]吴海龙,余新晓,师忱,等.PM2.5特征及森林植被对其调控研究进展[J].中国水土保持科学,2012,10(6):116-122.

[5]BECKETTKP,FREERSMITHPH,TAYLORG.Particulatepollutioncapturebyurbantrees:Effectofspeciesandwindspeed[J].Globalchangebiology,2000,6(8):995-1003.

[6]LANGNERM.Reductionofairborneparticulatesbyurbangreen[J].Bundesamtfürnaturschutz,2008,179:129-137.

[7]CAVANAGHJAE,ZAWAR-REZAP,WILSONJG.Spatialattenuationofambientparticulatematterairpollutionwithinanurbanisednativeforestpatch[J].Urbanforestry&urbangreening,2009,8(1):21-30.

[8]郭二果,王成,郄光发,等.北京西山典型游憩林空气悬浮颗粒物季节变化规律[J].东北林业大学学报,2010,38(10):55-57.

[9]殷杉,蔡静萍,陈丽萍,等.交通绿化带植物配置对空气颗粒物的净化效益[J].生态学报,2007,27(11):4590-4595.

[10]汪永英,孙琪,李昭,等.典型天气条件下哈尔滨城市森林不同林型对PM2.5的调控作用研究[J].安徽农业科学,2016,44(5):175-179.

[11]GARDNERMW,DORLINGSR.Statisticalsurfaceozonemodels:Animprovedmethodologytoaccountfornonlinearbehaviour[J].Atmosphericenvironment,2000,34(1):21-34.

[12]CHALOULAKOUA,SAISANAM,SPYRELLISN.ComparativeassessmentofneuralnetworksandregressionmodelsforforecastingsummertimeozoneinAthens[J].Scienceofthetotalenvironment,2003,313(1/2/3):1-13.

[13]MCKENDRYIG.Evaluationofartificialneuralnetworksforfineparticulatepollution(PM10andPM2.5)forecasting[J].Journaloftheair&wastemanagementassociation,2002,52(9):1096-1101.

[14]KOLEHMAINENM,MARTIKAINENH,RUUSKANENJ.Neuralnetworksandperiodiccomponentsusedinairqualityforecasting[J].Atmosphericenvironment,2001,35(5):815-825.

[15]PAPANASTASIOUDK,MELASD,KIOUTSIOUKISI.DevelopmentandassessmentofapplicationofneuralnetworkandmultipleregressionmodelsinordertopredictPM10levelsinamediumsizedMediterraneancity[J].Water,air&soilpollution,2007,182:325-334.

[16]曹虹.基于BP神經网络的交通流量预测[D].西安:长安大学,2012:30.

[17]王敏,邹滨,郭宇,等.基于BP人工神经网络的城市PM2.5浓度空间预测[J].环境污染与防治,2013,35(9):63-70.

[18]石灵芝,邓启红,路婵,等.基于BP人工神经网络的大气颗粒物PM10质量浓度预测[J].中南大学学报(自然科学版),2012,43(5):1969-1974.

[19]宰松梅,郭冬冬,韩启彪,等.基于人工神经网络理论的土壤水分预测研究[J].中国农学通报,2011,27(8):280-283.

猜你喜欢
人工神经网络线性神经网络
渐近线性Klein-Gordon-Maxwell系统正解的存在性
利用人工神经网络快速计算木星系磁坐标
神经网络抑制无线通信干扰探究
人工神经网络实现简单字母的识别
二阶线性微分方程的解法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于声发射和人工神经网络的混凝土损伤程度识别
具有θ型C-Z核的多线性奇异积分的有界性