神经网络改进算法在水质综合评价模型中的应用

2021-12-03 05:09杨诚
科技信息·学术版 2021年31期
关键词:综合评价样本水质

杨诚

摘要:针对水质评价问题,通过在各类水质污染指标浓度区间内生成随机分布样本的方法,并组成足够多的训练、检验和测试用的样本,提出一类新的结构优化算法CG-OBS,CG-OBS过程将最优脑外科(OBS)的结构评价作为目标函数的惩罚项,采用权值衰减的手段实现结构调整,建立了辽河水质综合评价的网络模型;给出了区分不同类别水质的模型分界值样本和模型输出分界值。

关键词:共轭梯度算法;水质;综合评价;样本

1.引言

有效利用江河湖泊水体,是实现可持续发展的重要内容之一。为更有效地利用和保护自然水体,首先必须对水体水质进行合理的综合评价与预测。针对辽河水体水质评价与预测的主要任务是,根据水体中反映污染程度的主要物质(据调研主要有溶解氧、BOD5、挥发酚、氨氮、亚硝酸盐氮、硝酸盐氮和高锰酸等)和石油类等物质的浓度和国家水质评价标准,分析、评价和预测水质的类别及其发展趋势,为水体管理提供科学的依据。目前水质评价方法主要是多因素的综合评价法,如灰色关联分析、模糊聚类分析法、物元模型法、灰色局势决策法和综合指数评价法等。由于影响水质的因素很多,并且因素与水质类别之间通常存在复杂的非线性关系。神经网络具有很强的自学习性、自适应性和容错性,是处理非线性问题的较好选择。

神经网络预测模型的优劣,最重要的指标是网络的学习精度和泛化能力。前者保证模型的准确性;后者保证模型的推广性,是预测模型得以真正实用的关键因素。网络泛化能力与初始状态、网络结构、学习算法等因素均有密切关系,文献指出,神经网络若需达到给定的泛化能力,必须使结构与样本相匹配,或者增加训练样本,或者减少网络规模。当训练样本一定时,较小结构的神经网络具有更好的泛化能力。目前,表现较好的结构优化算法之一为最优脑外科(OBS)过程,利用误差函数的二次导数信息,解析预测权值扰动对函数的影响程度,以自顶向下的方式削弱或消除某些连接权,实现结构优化。事实上,OBS算法优良的权值衰减率以其计算复杂度为代价,高达O(nP)(n为网络权值数目,p为训练样本数目)网络修剪过程耗时长,并存在二次训练等系列问题,因而损害了算法的实用性。

本文继承了OBS的良好结构调整性,将OBS结构评价作为目标函数的惩罚项,采用约束形式的权值衰减策略,实现权值与结构的同时学习。为避免OBS评价所需二次导数的复杂计算,利用共轭梯度(Conjugate Gradient;CG)法间接得到Hessian逆信息,推导出一类新的结构优化算法CG-OBS。该算法有效克服了OBS的计算复杂性,又可保持高效的结构优化性能。

2.最优脑外科(OBS)过程

OBS过程要求在网络学习结束后方可进行,因此目标函数ζ(W)在W附近的Taylor展开可近似为:

4.1.3足夠多样本的生成

由于5个水质评价标准(由各污染指标浓度上或下限组成)是区分各类水质的分界样本,输入变量(评价指标)又有6个,因此不可能用水质标准作为训练样本。为了正确和可靠地应用BP网络评价水质,生成足够多符合水质评价标准的训练样本和检验样本是关键。

由水质分类原理知,各类水质由各污染指标浓度的上(下)限决定。因此,各项污染指标值都在Ⅲ类水质规定的污染指标浓度区间内时,即前述各项污染指标值为≥5-6mg/L、≤4-3mg/L、≤0. 05-0. 01mg/L、≤0. 005-0. 002mg/L、≤0. 5-0 .1mg/L和≤8-4mg/L时,该水体水质肯定属于Ⅲ类。这样,在上述污染指标区间内进行随机(或均匀)取值,就能生成足够多属于Ⅲ类水质的样本。同理可生成其他各类水质的样本。本文共生成1200个样本,各随机抽取100个样本(约10%)为检验样本和测试样本。利用上述算法对水质水体进行BP网络的预测。

4.1.4网络模型的训练

本研究采用Statsoft公司出品的Statistical Neural Networks软件。将CG-OBS应用于上述的BP网络预测模型,取学习参数为:学习率α=0. 1,冲量η=0. 5(系统缺省值);结束学习的条件是训练样本的均方根误差(RMSE)小于0.1或趋于稳定或训练次数达到2000次。隐层和输出层均采用Sigmoid转换函数。根据前述建立BP网络模型的,隐层节点数为2和1时的网络训练误差(检验误差和测试误差相似)分别为0.1320和0.2187,隐层节点数为3-15时,误差都在0.13左右。因此,综合考虑网络误差大小与结构复杂程度,合理网络结构的隐层节点数为2,经过2000次学习,训练样本、检验样本和测试样本的均方根误差(RMSE)分别为0.1320、0.1365和0.1325,平均绝对误差(AAE)分别为0.09948、0.10200和0.09647,相关系数分别为0.9972、0.9967、0.9972。这些指标表明,经训练得到的网络模型对训练样本与对检验样本和测试样本具有相同的拟合(或表征)能力,即该网络模型的泛化能力很强,能较好地用于评价未知样本。

4.1.5分界样本的模型输出值

将分界值样本的各项污染指标值输入训练好的网络模型,对应的网络模型输出值分别为:1. 51、2. 48、3. 49、4. 47和5. 51。这样对应于Ⅰ—Ⅴ类和超Ⅴ类水质,其网络模型输出值的范围分别为:(0,1. 51)、(1. 51,2. 48)、(2 .48,3. 49)、(3. 49,4. 47)、(4. 47,5. 51)和>5 .51。

4.1.6辽河新民段水体水质类别的判定

将辽河新民段水体1994—1999年水体各污染指标的监测数据(表1所示)输入到训练好的网络模型,模型输出值分别为:3.65、3. 84、3. 62、3. 74、3 .72和3. 99,对照Ⅰ-Ⅴ类和超Ⅴ类水质模型输出值的范围,上述水体的水质均为Ⅳ类偏好,而且1994和1996年水质较好,1999年水质最差。

5分析与讨论

(1)本文提出的在各类水质污染指标浓度上下限范围内生成足够多随机分布的训练样本、检验样本和测试样本的方法,解决了建立水质评价BP网络模型时训练样本太少和没有检验样本的难题。通过采用分界样本的办法给出了区分各类水质的网络模型输出值,使得实际样本的水质类别的判定变得非常方便。另外,网络输出的结果用连续函数表示,不仅便于分析水质的不同类别,还可以分析同一类水质水体的污染程度,为分析和预测水质的变化趋势、开展环境规划及管理提供科学的依据。(2)BP网络是一种高度非线性关系的映射,具有很强的输入/输出映射能力。在没有任何已知的数学知识描述输入/输出关系的情况下,网络可以通过对大量训练样本的自学习、自适应建立这种映射关系,能较好地反映系统内部的本质特征,揭示系统的内部机理,对未知样本做出的评价更具有客观性。

参考文献

[1]国家环境保护总局监督管理司.中国环境影响评价.北京:化学工业出版社,2000.217—243

[2]吴文业,戈建民,黄奕龙.应用灰色关联分析进行城市地表水环境质量评价[J].世界地质,2000,19(1):53—56,65

[3]朱继业,窦贻俭,方红松.动态系统物元模型在综合水质预报中的研究和应用[J].城市环境与城市生态,1999,12(1):51—53

[4]Koiran P.,Sontag  E.D. Neural networks with quadratic VC-dimension[J],Advances in Neural Info.Processing Systems&,Cambridge,MA:MIT Press,1996.197-203

[5]Hassibi B.,Stork D.G.,Wolff G.J.Optimal brain surgeon and general network pruning[J].IEEE

International Conf.on Neural Networks,1992,(1):293-299

[6]Stahlberger A.,Riedmiller M. Fast Network Pruning and Feature Extraction by Removing Complate Units[J]. Advances in Neural Information Processing Systems 9,Cambridge,MAMIT Press,1997

[7]閻平凡,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2000

[8]Harkin S.著,叶世伟,史忠植译.神经网络原理[M].北京:机械工业出版社,2004.154-159

[9]戴虹,袁亚湘.非线性共轭梯度法[M].上海:上海科学技术出版社,2000

[10]杨凤江,徐文丰.辽河新民段水质污染状况调查与分析[J].环境保护科学,2000,26(6):30—32

[11]赵林明,胡浩之,魏德华,等.多层前向人工神经网络[M].郑州:黄河水利出版社,1999

[12]董聪.多层前向网络的逼近与泛化机制.控制与决策[J],1998,13(增刊):413—417

猜你喜欢
综合评价样本水质
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
10kV配电线路带电作业安全综合评价应用探究
基于熵权TOPSIS法对海口市医疗卫生服务质量的综合评价
主成分分析法在大学英语写作评价中的应用
郑州市各县(市)创新能力综合评价
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
七年级数学下册期末检测题(B)
观水色,辨水质
观水色,辨水质