基于神经网络模型的空气质量监测数据校准方法研究*

2022-02-22 13:16朱微微

浙江工贸职业技术学院学报 2022年4期

朱微微

(浙江工贸职业技术学院，浙江温州 325003)

0 引言

国家环境空气质量自动监测站（简称国站）的采样仪器能够自动、有效地对空气进行采样，各单位检测出的数据基于同一标准且数据结果可追溯到同一源头，使得监测结果准确、可信。由于国站布控较少，检测用时长、数据发布存在时间滞后较长，以及花费较大等问题，无法满足对实时空气质量的监测和预报。微型空气质量检测仪（简称企站）可以弥补上述不足，能够实现网格化监控。

国站对可吸入颗粒物和大气环境进行监测，主要包括PM2.5 与PM10 两种颗粒物和CO、NO2、SO2及O3四种气体（简称“两颗四气”）。企站除监测“两颗四气”，同时还可监测温度、湿度、风速、气压、降水等气象参数。目前，微型空气质量检测仪尚存在精度不高这一不足。如何提高微型空气质量检测仪的检测精度成为迫切需要解决的问题。

本文以国站发布的数据为比较对象，建立数据校准模型，对微型空气质量检测仪所检测的数据（包括PM2.5 等）进行校准，并通过误差分析对模型的精度进行检验。第一部分为神经网络模型介绍；第二部分是神经网络模型的建立及其误差分析；第三部分介绍应用BP 神经网络模型实现空气质量数据校准的方法。

1 神经网络模型介绍

人工神经网络是模拟生物神经网络进行信息处理的一种数学模型，目前已研究出近40种人工神经网络模型。[4]本文仅使用BP神经网络和RBF神经网络来研究空气质量数据的校准方法问题。

1.1 BP神经网络

BP 神经网络是一种三层或三层以上的多层神经网络，其中包含一个输入层、一个或多个隐含层以及一个输出层，它采用“误差逆传播算法”对误差进行修正，从而不断降低模拟误差。[5,6]

图1 三层的BP神经网络模型

BP 算法的学习过程由信号的正向传播和误差的反向传播两个过程组成。正向传播时，把样本的特征从输入层输入，信号经各个隐含层的处理后，从输出层传出。对于网络的实际输出与期望输出之间的误差，把误差信号从最后一层逐层反传，从而获得各个层的误差学习信号，再据此修正各层神经元的权值。

所以我们在使用BP 算法的时候，第一步根据网络预测的误差计算最后一层的学习信号，第二步计算倒数第二层的学习信号，第三步计算倒数第三层的学习信号，以此类推，从后向前计算，这也是BP 算法名称的由来。计算得到每一层的学习信号后，计算每一层的权值矩阵如何调整，最后对所有层的权值矩阵进行更新。[7]

1.2 RBF神经网络

径向基函数（Radial Basis Function，RBF）神经网络最早是由Moody 和Darken 于1988 年提出的。该神经网络的非线性拟合能力非常强，学习规则也简单，具有很强的函数逼近能力、分类能力和学习速度，因而得到了广泛的应用。[8,9]

RBF神经网络是由输入层、隐含层、输出层组成的三层前馈式网络，输入层到隐含层通过非线性映射连接，隐含层到输出层通过线性映射连接。

2 基于神经网络模型的空气质量数据校准模型

建模思路：（1）把企站分钟级数据转化为小时级数据，与国站数据一一对应起来，作为输入数据为下一步建模做好准备。（2）建立神经网络模型，以企站11 个因素（6 个空气质量因素，及5 个气象因素）作为输入层的11维输入变量，以国站的某个空气质量数据作为输出层的一维输出变量。（3）采集第t日之前的n日数据作为建模数据。（4）从建模数据中留下最后1 个数据作误差检验，其余数据作网络训练。（5）采用“等维逐日新陈代谢”思想，即使用第t日之前的n日数据作网络训练和误差检验，再对第t日的数据进行校准并发布，接着，使用第t+1 日之前的n日数据作网络训练和误差检验，再对第t+1 日的数据进行校准并发布，以此类推。（6）误差检验指标为相对误差绝对值。

图2 RNF神经网络模型

2.1 数据整理

企站的数据是分钟级数据（不足5 分钟发布一次），而国站数据是小时级数据。为了对企站数据进行校准，就需要以国站数据为参考标准，于是必须将企站的分钟级数据转化为小时级数据。

2.2 误差评估

设y0为国站发布的某指标空气质量数据，y1为企站发布的该指标的空气质量数据，y2为企站发布的该指标的空气质量数据的校准值，则校准前企站该指标的相对误差绝对值为

校准后企站该指标的相对误差绝对值为

2.3 模型建立与求解

由于最旧的数据对未来的预测价值最小，相反，最新的数据对未来的预测价值最大，于是从历史数据中仅仅截取最近几天的小时级数据用于建模。在建模时，从全部建模数据中留下最后1 个数据作误差检验，其余数据用于网络训练。

2.3.1 BP神经网络模型的建立与求解

以PM2.5为例。BP神经网络算法如下：

第1 步，令滞后天数最大值T=30；滞后天数i=1。

第2步，将过去i天的国站PM2.5指标作为输出变量，将对应的企站6个空气质量指标和5个气象指标作为输入变量。数据总数n=24i。留下最后1个数据作为检验数据，其余的n-1个数据作为训练数据。计算校准前企站PM2.5的相对误差绝对值α1。

第3步，令相对误差绝对值α=+∞；隐含层的神经元个数最大值M=20；令隐含层的神经元个数j=1。

第4步，训练BP数据网络，并输出隐含层的神经元个数j、校准后的PM2.5数据y2、校准后企站PM2.5的相对误差绝对值α2。

第5步，如果α2＜α，则α=α2。

第6 步，j=j+1。如果j≤M，则返回第4步，否则执行第7步。

第7 步，i=i+1。如果i≤T，则返回第2 步，否则执行第8步。

第8 步，从滞后天数i=1,2,...,T中，选择相对误差绝对值α2最小的那一天，以及对应的隐含层的神经元个数j、校准后的PM2.5数据y2，结束。

BP神经网络模型的计算结果如表1所示。

表1 BP神经网络模型的计算结果

从表1 可知，与校准前相比，校准后的数据误差有大幅度的降低。

2.3.2 RBF神经网络模型的建立与求解

仍然以PM2.5为例。RBF神经网络算法如下：

第1 步，令滞后天数最大值T=30；滞后天数i=1。

图3 BP神经网络算法流程图

图4 RBF神经网络流程图

第3 步，训练RBF数据网络，并输出校准后的PM2.5 数据y2、校准后企站PM2.5 的相对误差绝对值α2。

第4 步，i=i+1。如果i≤T，则返回第2 步，否则执行第5步。

第5 步，从滞后天数i=1,2,...,T中，选择相对误差绝对值α2最小的那一天，以及对应的校准后的PM2.5数据y2，结束。

RBF神经网络模型的计算结果如表2所示。

表2 RBF神经网络模型的计算结果

从表2 可知，RBF 神经网络模型在PM10、CO、NO2、O3上的校准是有效的，而在PM2.5、SO2上的校准是无效的。

3 空气质量监测数据校准与发布方法

从表1 和表2 可知，BP 神经网络模型针对空气质量监测指标PM2.5、PM10、CO、NO2、SO2、O3的数据校准都是有效的，而RBF神经网络模型只有在PM10、CO、NO2、O3上的校准是有效的，所以相比之下，BP 神经网络优于RBF 神经网络。因此，在实际数据校准中，选择BP 神经网络模型，并选用表1的参数。

以空气质量指标PM2.5 的数据校准为例，使用BP神经网络模型进行校准并发布的方法如下：

第1步，采集国站PM2.5第t-22 至第t日（共23天）的小时级数据。

第2 步，采集企站空气质量指标PM2.5、PM10、CO、NO2、SO2、O3以及气象指标温度、湿度、风速、气压、降水的第t-22 至第t日（共23天）的分钟级数据，并使用Shepard 方法把分钟级数据整合成小时级数据。

第3步，建立BP神经网络模型，隐含层的神经元个数取9，把国站PM2.5 指标小时级数据作为输出变量，把企站6 个空气质量指标和5 个气象指标的小时级数据作为输入变量，使用23天的数据训练网络。

第4 步，把企站PM2.5 指标第t+1 日的分钟级数据代入训练好的BP 神经网络进行校准，获得校准值，然后发布，结束。

综上，本文得出结论：BP 神经网络模型不但能够对6 个空气质量指标进行校准，而且校准后的数据误差非常小。在此基础上给出了应用BP 神经网络模型对企站发布的空气质量分钟级数据进行校准的方法。