造纸废水处理过程的高斯过程回归软测量建模

2018-07-30 09:15刘鸿斌南京林业大学林业资源高效加工利用协同创新中心江苏南京20037华南理工大学制浆造纸工程国家重点实验室广东广州50640
中国环境科学 2018年7期
关键词:周期性协方差线性

宋 留,杨 冲,张 辉,刘鸿斌,2* (.南京林业大学林业资源高效加工利用协同创新中心,江苏 南京 20037;2.华南理工大学制浆造纸工程国家重点实验室,广东 广州 50640)

制浆造纸工业是国民经济的重要支柱产业之一,但又是高能耗、高污染的行业,是国家进行节能、节材、综合利用、减少污染物排放的重点行业.在造纸污水处理过程中由于在线测量传感器的缺乏或者受成本,使用寿命等限制,一些与出水水质指标相关的关键参数难以获得,并且这些参数对于出水指标的控制及过程的优化起着重要的作用,是造纸污水处理中必须监测的变量[1].针对这个问题,软测量技术已经被广泛地应用于工厂来预测关键的,难以测量的过程变量.目前的软测量技术包含现代统计分析、人工神经网络、模糊逻辑、神经模糊系统、遗传算法以及它们相互融合的混合方法,这些技术在许多领域取得了较好的应用效果[2].因此,对污水处理过程进行软测量建模,为造纸污水工艺参数或出水指标的实时检测提供了经济可靠的方法.

软测量模型是软测量技术的核心,其建模方法按照建模机制可分为机理型与数据驱动型.但实际中即使是一般对象的反应机理都比较复杂,以及受到工况与环境的影响,机理模型难以满足建模需要.而数据驱动模型不必研究对象的内部规律,只需获得足够多的数据就可建立对象的软测量模型.数据驱动模型有回归分析模型、人工智能模型、统计学习理论模型及概率核函数模型等.回归分析建模有多元线性回归(MLR)[3-4],主成分回归(PCR)[5],偏最小二乘(PLS)[6],通过建立多个变量间的函数关系建立模型,但局限于非线性较弱的对象.人工智能模型主要是人工神经网络[7-8],人工神经网络(ANN)建模凭借其优秀的非线性拟合表现,在污水处理中受到广泛关注,但神经网络存在过拟合和健忘问题,并且权值不易在线调整.

基于概率核函数的高斯过程[9-12](GP)是一个随机过程,适用于处理小样本、非线性、高维数等复杂的回归问题,是近些年新发展的一种机器学习方法.目前已有研究将高斯过程用于工业聚丙烯生产过程中熔融指数的预测[9],风电场的风速预测[13],机器人装配过程的搜索优化[14]以及降低机器人轨迹的跟踪

误差[15]等领域,但在废水处理的软测量建模预测上应用较少.针对造纸废水处理过程以及各种软测量模型的特点,采用平方指数协方差函数、线性协方差函数、周期性协方差函数以及这 3种协方差函数的组合函数构建了7种协方差函数的高斯过程回归(GPR)模型对出水化学需氧量(COD)和出水悬浮固形物(SS)浓度进行回归预测,并与3种线性回归模型和ANN模型进行对比.

1 方法原理

1.1 GPR建模原理

GPR是一种非参数回归方法,该方法将一个未知的目标变量通过一个或多个已知的输入变量的状态函数来表示.参数回归方法如上述的MLR、PCR等用指定的函数替换训练数据,并对其参数进行调整,从而对函数输出进行优化.参数化方法在获得回归权值之后,最初的训练数据可能会被丢弃,输出结果可能是一个平均值或出现过拟合问题.相比之下,非参数方法使用原始数据构建回归函数的模型,通过对比测试集输入端数据到训练集输入端数据的距离来估计测试点的输出值[16].特别地,GPR模型的局部加权形式由协方差函数与在模型训练中的超参数定义.

GPR对于建模预测的优点:GPR模型的函数预测只和协方差函数有关,因此适用于处理变量之间的关系不能被直观理解的高维数据;GPR模型可以根据数据维度来改变局部权重函数的宽度,并通过输入变量之间的相关性提供模型对变量的解释能力;相较于参数模型对于变量特性的依赖,GPR更依赖于数据并且对变量特性的变化表现具备更好的鲁棒性,这一优点使GPR模型在造纸污水处理过程中,即使某一测量装置发生故障时,仍能稳定预测;GPR模型的另一个优点是其固有的概率性质,在建模预测过程中,既能得到模型的预测输出也能得到置信区间,置信区间可用于判断训练模型的预测输出是否合理.

高斯过程是具有联合高斯分布的任意有限数量的随机变量集合,是由均值函数 m(x)和协方差函数k(x,x′)完全决定的,当输入值变化时,目标变量的期望值的变化由协方差函数定义.其中,均值函数与协方差函数如下所示[17]:

高斯过程定义为

为了表达的符号简洁,通常让均值函数为 0.对于一个训 练 集 X ∈Rn×m和y ∈ Rn,输入 的 样本 数 据是m维是输出的样本数据,考虑到含噪声,可建立高斯过程回归问题的一般模型:

式中ω为独立的高斯白噪声,均值为 0,方差为 σ2,记为得到观测值y的先验分布为

1.1.1 协方差函数 协方差函数是高斯过程回归预测的关键,假设函数 f1与 f2符合独立的高斯先验,则满足f = f1+f2~GP(µ1+µ2, k1+k2),即协方差函数的性质,两个协方差函数之和仍是一个协方差函数.

该性质可用于合并两个及两个以上具有不同特性的协方差函数.Duvenaud指出对协方差函数进行求和操作可视为逻辑运算函数中的“或”运算[18],即两个点取最优.即使是基本协方差函数的组合也能捕获到数据之间的复杂关系,这是简单的参数回归模型所没有的优点,因此组合型协方差函数较单一的协方差函数有更好适应性.本文基于此特点,研究平方指数协方差函数、线性协方差函数和周期性协方差函数3种协方差函数的合并组合的功能,来确定最适合本实验研究模型的协方差函数[19].其中,平方指数协方差函数的表示如下

用矩阵表示为

式中:矩阵P=diag(l2),参数l是尺度方差,为信号方差.

线性协方差函数的参数化表示为

周期性协方差函数的参数化表示为

上式(9)可表示为:

因此,式(12)用矩阵表示则为

在测试集输入、训练集输入、训练目标输出、协方差函数以及相关的超参数确定后对GPR模型进行训练,根据目标输出值的条件分布,得到模型的预测输出.均值函数和目标值的后验分布方差将分别生成预测值和置信区间.

表1给出了上述3种协方差函数以及它们的组合形式.其中,SE表示平方指数协方差函数,L表示线性协方差函数,PER表示周期性协方差函数,SE+L表示平方指数与线性协方差函数的组合函数,SE+PER表示平方指数与周期性协方差函数的组合函数,L+PER表示线性与周期性协方差函数的组合函数,SE+L+PER表示3种简单协方差函数的组合函数.

表1 协方差函数的7种组合Table 1 Combinations of covariance functions

2 仿真实验与讨论

2.1 废水数据的收集与处理

废水数据[8]采集自广东东莞的一家造纸厂废水处理车间,测量数据显示了好氧段废水的工况.如图 1所示,数据包含170个样本点,8个废水变量,右侧纵坐标表示进水COD与进水SS的变量值.解释变量分别是出水化学需氧量(COD),进水悬浮固形物(SS),溶解氧(DO),流量(Q),温度(T),pH值;其中,输出变量为出水COD和出水SS.在MATLAB中分析处理该170个样本数据,选取120个样本数据作为训练集,50个数据作为测试集.

图1 造纸废水处理过程数据Fig.1 Papermaking wastewater treatment process data

2.2 典型模型及其结果分析

MLR、PCR和 PLS的数据分析可以使用MATLAB的PLS Toolbox.有关 MLR、PCR、PLS和ANN的方法原理参考文献[3-8,20-21].图2,图3,图4分别是 3种线性模型 MLR,PCR,PLS对出水 COD与出水 SS的建模预测结果,3种模型对出水 COD的预测结果中,RMSE在 4.35~5.85之间,r2在0.52~0.71之间,其中MLR与PLS的结果较为接近但优于 PCR.在对出水 SS的模型预测时,RMSE在0.73~0.97之间,r2在 0.44~0.77之间,且 3种线性模型的预测结果均较为接近.另外,由于线性模型因共线性问题要求数据样本容量足够大,在本案例分析中,3种模型均出现样本测试集的预测效果优于训练集的现象.

图2 MLR的预测结果Fig.2 Prediction results of MLR

图3 PCR的预测结果Fig.3 Prediction results of PCR

图4 PLS的预测结果Fig.4 Prediction results of PLS

2.3 非线性ANN模型本文利用多输入单输出的双隐含层 BP神经网络模型分别对出水COD和出水SS进行建模预测,其中输入层节点数为6个,输出层节点数为1个.对于隐含层节点数,参考文献[20]根据经验公式式中:a和 b分别表示输入层和输出层节点数,c表示 0~10之间的常数.最终确定隐含层节点总数为 10,每个隐含层节点数为 5.图 5是ANN模型对出水COD与出水SS的建模预测结果,可以看出非线性ANN的建模预测效果较3种线性模型效果较好,且并未出现测试集预测效果优于训练集的情况.

图5 ANN的预测结果Fig.5 Prediction results of ANN

2.4 GPR预测模型

图6 GPR的预测结果Fig.6 Prediction results of GPR

对于 GPR模型的构建,利用平方指数协方差函数、线性协方差函数、周期性协方差函数组合构建了高斯过程的7种模型对出水COD和出水SS预测分析,预测结果的性能数据如表4与表5所示.结果表明组合协方差函数模型对出水COD的建模预测效果比单一的协方差函数模型的预测效果好.其中线性协方差函数与周期性协方差函数组合的GPR模型较单一平方指数协方差函数的 GPR模型,r2提升了17.8%,RMSE降低了18.7%.而对出水SS的预测结果表明, 含有线性协方差函数的GPR模型的预测效果均优于含有周期性协方差函数的GPR模型.其中平方指数协方差函数与线性协方差函数组合的GPR模型较单一的周期性协方差函数模型,r2提高了10 %.最优GPR模型对出水COD与出水SS的预测结果如图6所示.

2.5 结果分析

表2 基于MLR、PCR、PLS和ANN四种模型的出水COD预测性能指标对比Table 2 Comparison of performance indices of effluent COD using MLR、PCR、PLS and ANN

本文采用均方根误差(RMSE)和平方相关系数(r2)作为模型的评价指标,用以比较不同模型的预测精度.r2和RMSE的表达为:

表2至表5分别给出了不同模型对出水COD和出水SS两个输出变量的预测结果.从表2和表4中可以看出,在出水 COD的预测中,无论是对输出变量的训练拟合还是预测,GPR模型拟合效果均优于非GPR模型:其中线性协方差函数与周期性协方差函数组合的GPR模型与ANN相比,r2提升了0.1901,RMSE降低了1.3588.从表3和表5中可以看出,在对出水SS的预测中,平方指数协方差函数与线性协方差函数组合的 GPR模型相比于 ANN模型,r2提升了 0.2213,RMSE降低了0.1907.

相较于文献[13-14]利用平方指数协方差函数与有理二次协方差函数的组合协方差GPR模型在风电场的风速预测及机器人装配过程的搜索优化的应用.本文针对实际造纸污水处理过程的特点,采用7种协方差函数对出水COD与出水SS建模预测,找寻出水指标的最优预测模型.结果表明:组合协方差函数模型对出水COD的预测较单一协方差函数模型的预测误差小,拟合程度高.而对于出水 SS,含有线性协方差函数的GPR模型的预测效果均优于含有周期性协方差函数的GPR模型.

表3 基于MLR、PCR、PLS和ANN四种模型的出水SS预测性能指标对比Table 3 Comparison of performance indices of effluent SS using MLR、PCR、PLS and ANN

表4 基于7种GPR模型的出水COD预测性能指标对比Table 4 Comparison of performance indices of effluent COD using seven GPR models

表5 基于7种GPR模型的出水SS预测性能指标对比Table 5 Comparison of performance indices of effluent SS using seven GPR models

3 结论

3.1 本文通过建立线性回归模型、非线性人工神经网络模型与基于概率核函数的GPR模型对造纸废水处理过程中的重要出水指标COD和SS的建模预测结果.结果表明,线性回归模型与人工神经网络模型的建模预测效果均不如 GPR建模方法.GPR模型的预测均方根误差以及离散程度都较小.其中对出水COD,线性协方差函数与周期性协方差函数组合的GPR模型与ANN相比,r2提高了30.4%,RMSE降低了 27.1%.在对出水 SS的预测中,平方指数协方差函数与线性协方差函数组合的 GPR模型相比于 ANN模型, r2提高了38.5%,RMSE降低了19.8%.

3.2 对比 7种组合协方差模型的预测结果 ,最终确定线性协方差与周期性协方差函数的组合协方差模型能对出水COD实现最优预测;对于出水SS,线性协方差函数的GPR模型与平方指数协方差函数与线性协方差函数组合的GPR模型的预测结果较优,但是考虑到组合协方差函数较单一协方差函数的优点,最终确定平方指数协方差函数与线性协方差函数组合的GPR模型对出水SS进行建模预测.

猜你喜欢
周期性协方差线性
渐近线性Klein-Gordon-Maxwell系统正解的存在性
慢速抗阻训练:周期性增肌的新刺激模式
线性回归方程的求解与应用
数列中的周期性和模周期性
高效秩-μ更新自动协方差矩阵自适应演化策略
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
基于高频数据的大维金融协方差阵的估计与应用
一类整数递推数列的周期性
用于检验散斑协方差矩阵估计性能的白化度评价方法