基于动态朴素贝叶斯分类器的明渠水华风险评估模型

2017-06-05 22:33王中锋
南水北调与水利科技 2017年2期
关键词:富营养化

王中锋

摘要:水华风险不仅是水利工程规划时需要考虑的环境问题,也是水利设施运营时不能忽视的监测项目。为了提高明渠水化风险等级预测的准确率,针对水华成因的不确定性和发展的时序性,基于动态朴素贝叶斯网络分类器提出一种应用于明渠的水华风险评估模型。模型用水华风险等级结点对应藻叶绿素a(Chla)的浓度,并考虑了9项影响水藻生长的因素。采用主成分分析法,处理专家咨询结果,进行参数的设计。在苏州河道北门桥2011年6月初至9月初观测的53例连续监测数据上,与基于朴素贝叶斯网络分类器的评估模型进行比较实验。混淆矩阵显示对中等风险情况的预测识别率提高了15.625%,单尾配对t检验表明在显著性水平0.05时,两模型预测识别率差异显著。考虑了时序特征的基于动态贝叶斯网络分类器的评估模型对明渠中等水化风险的预测识别率提高显著。

关键词:明渠;水华;动态贝叶斯网络;富营养化

中图分类号:TV213 文献标识码:A 文章编号:1672-1683(2017)02-0089-06

1研究背景

南水北调中线工程正式通水以来,由于水藻超标,已经给部分沿线水厂造成了经济损失。亟待研究明渠水藻预警技术,提前处理,降低损失。现有的相关研究成果主要集中在海洋湖泊的水华成因分析、水华识别模型、预警模型,以及这些模型在水利工程规划运营过程中的应用4个方面。水华的成因分析开展了多年,研究人员对影响水华的因素和它们之间的关系已经有了较为全面的认识。水华识别模型的研究通常采用图像识别方法、神经网络方法、贝叶斯方法和支持向量机方法等。这些方法适用于识别已经爆发了水华的水体。水华预测方法可以分为确定性方法和不确定性方法,确定性方法较为成熟,多是利用各种水动力学模型和水质模型来进行分析,例如美国环保局研发的HYNHYD和WAsP模型、美国水利资源工程公司提出的CE-QUAL模型和美国陆军工程兵团使用的RMA4模型等。由于这些模型忽略了复杂水环境的不确定性,虽然应用简单,但描述与预测能力有限。因此,近年来研究人员开始着手研究不确定性方法,Song等基于模糊方法预测水质,刘悦忆等提出了基于蒙特卡洛模拟的水质概率预报模型,Karamouz等采用随机遗传方法分析。这些模型在处理水质影响因素的不确定性方面,提高了模型的表现能力。同时,各种水华识别和预测模型的具体应用研究也在不断进行着。本文在这些工作的基础上,考虑水质变化时序特征的不确定性,基于动态朴素贝叶斯网络分类器提出一种水华风险评估模型。朴素贝叶斯网络分类器能够通过网络结构和网络参数对不确定性知识进行描述,并进行不确定性推理实现分类。水华发生的风险因素具有不确定性,适合采用贝叶斯网络进行描述;水华发生的风险因素与水华风险之间的关系具有不确定性,可以应用贝叶斯网络分类器在各个风险因素的基础上推理出水华风险强度。动态朴素贝叶斯网络分类器是考虑了时序特征的朴素贝叶斯网络分类器,用来预测水华风险时不仅能够考虑到当前的风险因素情况,还能结合到前一时段的水华风险情况。

2动态贝叶斯网络模型

动态贝叶斯网络(Dynamic Bayesian Net-works,DBN)是贝叶斯网络的时序扩展,可将不同时间片间时序依赖关系与时间片内依赖关系融为一体,并通过量化推理进行动态分析、预测。若用X[0],X[1],…,X[T],表示随机向量序列,X[t]={X1[t],…,XN[t]},0≤t≤T,x[t]={x1[t],…,xn[t]},为其值向量序列。则对网络结构GDB的联合概率分解情况为

由于在一般的动态贝叶斯网络中,一个结点在所属时间片和时序前面的时间片中都可能有父结点,网络结构异常复杂,推理计算非常困难,所以,通常在实际应用中附加一些约束条件来简化动态贝叶斯网络。以下研究假设动态贝叶斯网络满足一阶Markov假设和平稳性假设,这两个约束条件能够使动态贝叶斯网络转换为先验网G0和转换网G,方便使用。

一阶Markov假设在时间片段t的变量的状态仅与时间片段t-1的变量状态有关,而与t-1以前的时间片段内变量的状态无关。即:[t]的配置。

先验网描述同一时间片内的依赖关系,转移网描述不同时间片内的依赖关系,它们都是静态贝叶斯网络,静态贝叶斯网络是个有向无环图(Directe-dAcyclic Graph),由网络结构和网络参数两部分构成。在网络结构中,节点表示模型变量,边表示变量间的依赖关系。代表变量的节点通常用大写字母表示,其对应的变量值用相应的小写字母表示。若变量A通过一条弧指向另一个变量B,则表明变量A与变量B有依赖关系,且变量4的取值会对变量B的取值产生影响。在这对依赖关系中,A叫做B的父结点,B叫做A的子结点。网络参数是指每一个变量对应的条件概率表(Conditional ProbabilityTables,CPT)。CPT为每个实例变量都指定了条件概率。通过每个节点的条件概率分布可以得到各个节点的联合概率传播网。

给定动态贝叶斯网络后,就可以在只有一个变量取值不定,而其它变量取值确定的情况下推理出此不确定取值变量的不同取值情况概率大小。若假定出现概率最大的取值为该变量的值,便可以依照此过程,对该变量进行分类。

3水华风险评估模型

动態朴素贝叶斯网络分类器是一种结构简单的动态贝叶斯网络分类器。本文基于动态朴素贝叶斯网络分类器设计水华风险评估模型。分网络结构和网络参数两部分进行。

3.1基于动态朴素贝叶斯网络分类器的水华风险评估模型结构

由于水华是水体藻类大量生长繁殖或聚集并达到一定浓度的现象,所以在水华实验研究中通常以水体中叶绿素a(Chla)含量间接代表水体中藻类的数目。在这个模型中,本文采用藻叶绿素a浓度来评估水华风险等级。影响藻类生长的因素很多,诸如物理因素、化学因素和生物因素,水体富营养化与水华的爆发正是由这些因素影响着。本文参考文献的监测项目,考虑了水温,日降雨量,浊度,透明度,藻类光合活性(Fv/Fm),总氮含量(TN),氨氮(NH+4-N)含量,总磷含量(TP),氮磷比9项对Chla有影响的因素。由于动态朴素贝叶斯网络分类器是朴素贝叶斯网络分类器与时间序列的结合,是一种简单的动态贝叶斯网络分类器,其中类变量形成马尔科夫链,时间片属性变量形成局部星型结构。基于动态朴素贝叶斯网络分类器设计水华风险评估模型,没有考虑各个水华风险因素相互之间的影响作用。

图1为本文采用动态朴素贝叶斯网络分类器设计的水华风险评估模型的网络结构图。其中,A1表示水温,A2表示日降雨量,A3表示浊度,A4表示透明度,A5表示Fv/Fm,A6表示TN,A7表示NH+4-N含量,A8表示TP,A9表示氮磷比,C表示Chla浓度。整个网络结构由先验网络和转移网络展开得到。

虚线包含的部分为先验网络结构。由于朴素贝叶斯网络分类器只考虑了类变量对属性变量之间的依赖关系,没有考虑属性变量之间的相互依赖关系。图中只有从类结点指向各个属性结点,各个属性结点之间不存在边。

属性结点和类结点的上标表示该结点所对应的时间片。连接相邻时间片之间类结点的边构成了模型的转移网络结构,在转移网络中,时间片t+1中代表水华风险等级的类变量除了受该时间片中影响因素的作用外,还受到上一时刻t中水华风险等级情况的影响。

在这个基于动态朴素贝叶斯网络分类器的水华风险评估模型中,每一个时刻的风险等级情况除了与当前的影响因素有关外,还受到历史时刻风险等级情况的影响,而不受历史时刻的影响因素的影响。在这个过程中历史时刻风险等级对当前时刻风险等级的有一定程度的影响。依据贝叶斯网络条件独立性关系,图1可以描述为

以上是对基于动态朴素贝叶斯网络分类器的水华风险评估模型网络结构的设计,但这个网络结构只是粗略的描述了各个影响因素之间的关系,还要设置依赖参数来详细描述它们之间的依赖强度。

3.2基于动态朴素贝叶斯网络分类器的水

华风险评估模型参数

本文通过分析参考文献观测的各个风险因素与叶绿素a的关系,咨询多个专家,经过加权平均来确定贝叶斯网络参数,包括先验概率和转移概率参数。在计算各专家所占权重时采用主成分分析法,消除信息的重叠性,降低个人因素的影响。对于水华风险先验概率,为了提高模型的灵敏度,本文设置高风险为0.4,中等风险为0.3,低风险为0.3。对于转移概率参数,本文同时根据文献针对河流水体对部分参数做了调整。如在流动水体中,优势藻种多为汉斯冠盘藻(硅藻),本文调整为河流优势藻种适宜的条件。文献研究城市景观河道中绿藻和蓝藻时,17次共76日水华对应的水温做的一个从高到低的排序图。观察到的可见水华发生时水温主要集中在23.4℃~34.4℃之间,且表现出良好的连续性,观察期间,在水温27.8℃时有一个间断,水温在27.8℃~34.4℃期间发生水华的次数为14次,占所有次数的82.4%,持续的天数为64 d,占发生水华的天数的84.2%。文献[25]研究河流水体中冠盘藻水温为2℃左右生长繁殖良好,与15℃条件下无显著差别。本文根据冠盘藻的特点调整水温在1℃~15℃,叶绿素a具有较高的概率取值。

表1为概率p(ct|ct-1)参数表,表示当前水华风险等级对最近观测到的风险状态的依赖强度,为了在模型中适当体现出风险情况的时序依赖性,ct中与ct-1相同的取值设置了较高的发生概率。

表2为概率p(atx|ct)的参数表其中x表示a1-a9中的任一变量。当Chla浓度分别为H(高)、M(中)和L(低)时,参数值分别表示水温,日降雨量,浊度,透明度,Fv/Fm,TN,NH+4-N含量,TP,氮磷比各种情况发生概率的大小。

当设定了水华风险评估模型的网络结构和网络参数后,对于符合模型要求的水体,输入当时的监测值,就能預测下一时刻Chla的浓度,评估当前的风险等级。

4实例分析

实验数据来源于文献在2011年4月14日到2012年1月10日之间监测苏州河道北门桥的数据。考虑到实际应用时,对高风险情况和中等风险的预测情况,更能体现模型的价值,本文选取了6月初到9月初的53例连续监测数据,将这段时间分为52个时间片,其中包括1例低风险数据,32例中等风险数据和20例高风险数据。在本文的研究中,依据文献,采用藻叶绿素a(Chla)的浓度区分不同的水华风险状态。当藻叶绿素a(Chla)浓度小于10μg/L时,设置水华风险状态等级为“较低”;当Chla浓度大于等于10μg/L且小于50时μg/L,设置水华风险状态等级为“中等”;当Chla浓度大于大于50时μg/L,设置水华风险状态等级为“较高”。

实验分两步进行,首先,只考虑同一时间片中的依赖关系,用基于朴素贝叶斯网络分类器的评估模型进行预测;然后用基于动态贝叶斯网络的评估模型进行预测,在考虑同一时间片中的依赖关系的同时,还考虑上一时间片时间观察到的Chla浓度。实验过程中,第一次的监测值用于评估第二次监测时刻的风险等级,依次类推,最后一次的监测值不参与实验,因此,每步共预测52次。第一步实验结果显示33次预测正确,预测准确率为63.46%;第二步实验结果显示38次预测正确,预测准确率为73.08%。预测准确率提高了0.63%。图2(a)和图2(b)分别是基于朴素贝叶斯网络分类器的评估模型和基于动态贝叶斯网络的评估模型的预测值与实际观测值的折线比较图。在这两张图中,实线表示实际值,虚线分别表示两个预测模型的预测值。图中,若两条线重合,表示预测值与实际观测值一致,若不重合,表示预测有误。显然,图2(b)比图2(a)中两线的重合度高,表明基于朴素贝叶斯网络分类器展开后的评估模型比基于动态贝叶斯网络的评估模型预测精度高。

进一步分析,表3是基于朴素贝叶斯网络分类器的评估模型和基于动态贝叶斯网络的评估模型的预测结果的混淆矩阵。每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目。通过两个表的对比,可以看出,两个矩阵中,对高风险等级和低风险等级的预测结果没有变化,对中等风险等级的预测正确数目从21例提高到26例,识别率从65.625%提高到81.26%,提高了15.625%。

对于中等风险等级的样例,仅有32个样本,属于小样本,所以选择t检验。实验是在同一样本集合上比较基于朴素贝叶斯网络分类器的评估模型和基于动态贝叶斯网络的评估模型的识别率,具有方向性,所以采用单尾配对样本t检验进行分析。计算结果显示中等风险等级的预测结果t检验概率为0.048 014显著性水平在0.05之下,拒绝原假设H0,表明两种模型的识别率相互比较有显著变化。结合混淆矩阵显示的中等风险等级的预测识别率提高了15.625%,说明本文所提算法识别率显著提高。

5结论

本文基于动态朴素贝叶斯网络分类器提出了一种水华风险评估模型,并采用主成分分析法处理专家知识,设计模型网络参数。利用苏州河道北门桥河段监测的数据,与基于朴素贝叶斯网络分类器的评估模型进行比较实验。结果显示在显著性水平0.05的单尾配对t检验时,对中等风险等级的水华预测识别率提高显著,提高了15.625%。表明本文所提的考虑了风险因素的不确定性和风险状态时序发展特征的模型适用于明渠的水华风险评估。另外,考虑更多水华影响因素和水华影响因素之间的相互作用,对提高评估模型的识别率和适用范围是必要的,这将是下一步的研究任务。

猜你喜欢
富营养化
富营养化水体净化研究进展
河道曝气技术研究进展
国内生态浮床研究进展
高效溶藻菌对富营养化水体的治理效果
水生维管束植物对水体富营养化的影响
2015年天津大港滨海湿地海洋特别保护区海水质量状况及富营养化状况分析
老鸦河水库水质的时空变化趋势与富营养化评价
三种大型经济海藻的栽培密度
中国农业面源污染研究进展
人工浮岛技术净化废水研究与实践