支持向量机在污水处理厂出水COD 预测中的应用

2023-09-25 08:45李健刘坚于广平郭清达袁沐坤

环境保护与循环经济 2023年8期

李健刘坚于广平，郭清达袁沐坤

（1.广州工业智能研究院，广东广州 511458；2.中国科学院沈阳自动化研究所，辽宁沈阳 110169）

1 引言

近年来，水资源短缺和水污染严重已成为全球淡水资源面临的两大关键问题，水资源出现危机将对经济发展和人民生活造成严重影响［1］。当前我国经济处于快速发展期，随着工业化、城镇化的逐步推进，城镇居民的用水量和污水排放量都急剧增加，城镇污水处理厂的运行负荷也日益加重，目前我国城镇水资源形势堪忧，水体污染情况对我国社会经济发展和人民生活质量造成了困扰［2］。

活性污泥法是处理城镇污水应用最为广泛的方法，通过建设沉降池、曝气池等将城镇污水与活性污泥充分搅拌，通过生化和物化反应，微生物将污水中的有机污染物分解、降解，处理过程具有流程长、滞后性强等非线性特点。国际水协会已开发出ASM1，BSM1 等多种污水处理机理模型，但由于污水成分、污水处理厂设施的不同，模型难以满足实际处理需求。随着计算机技术的不断发展，人工智能成为社会发展中不可缺少的一部分，我国也提高了对人工智能技术的重视程度，不断加强人工智能技术在制造业、环保、智慧城市等领域的应用与发展［3］。机器学习作为人工智能的实现方法，其主要目的是开发智能算法、挖掘数据信息，通过算法的选取与参数的调节，建立分类、回归等模型，用于实现数值预测［4］。

本文在介绍城镇污水处理技术原理和几种常见的机器学习算法的基础上，研究了不同机器学习算法以及相同算法不同参数对于污水处理厂出水COD的预测效果，建立了某城镇污水处理厂进水指标、过程参数及出水COD 的预测模型，为城镇污水处理厂出水COD 的预测提供了一种有效的方法。

2 城镇污水及污水厂处理工艺介绍

城镇污水指城镇居民生活所产生的污水，包括学校、住宅、商场、政府单位等排水，初期雨水及部分符合条件允许排放的工业废水等。城镇污水中主要污染物有氮类污染物、磷类污染物、有机污染物等。

城镇污水指标主要包含BOD5（五日生化需氧量）、COD、悬浮物、总氮、总磷及pH 等。

城镇污水一般处理工艺流程为：入水经过格栅、提升泵、沉降池、曝气池、二沉池，最后经过消毒池排出。具体工艺流程如图1 所示。

图1 城镇污水处理工艺流程

3 机器学习算法介绍

机器学习作为人工智能核心部分，其本质是利用算法从数据信息中抽取知识。

机器学习涵盖统计学知识、人工智能算法和计算机编程等多个研究领域。当前，机器学习算法已在各行各业得到了广泛应用，其对于在数据中抽取知识产生了较大的促进作用。机器学习是专门用于探索计算机如何模拟及实现人类的学习过程，从而获得新的领域知识与操作技能，整合已有的知识结构，不断提升算法性能。

根据不同的学习方法，机器学习可分为归纳学习、演化学习、对比学习、分析学习。根据不同的学习方式，机器学习可分为有教师学习、无教师学习、强化学习等。本文主要采用有教师学习的方式，即将历史数据整理成为输入、输出的形式并导入预设的算法中，通过算法的选取和参数的调节，在给定出入的情况下预测模型输出。

3.1 KNN 算法

KNN 算法是较为简单的一种机器学习算法。该算法的原理是在特征空间中，任意一个样本附近的K 个最近样本中的大多数属于某一类别，则该样本也属于这一类别，即给定一个训练数据集，对于新的输入，在训练数据集中找到与该实例最邻近的K 个邻居，在K 个邻居中多数属于某一类别，就把该实例分到这一类中。该方法也可应用于解决回归问题。KNN 算法见图2。

图2 KNN 算法

3.2 决策树算法

决策树（Decision Tree）是广泛应用于分类和回归任务的模型，这种模型呈树状结构，由代表属性或特征的根节点、内部节点以及代表类别属性的叶子节点组成，是直观运用概率分析的一种图解法。本质上，它是从一层一层的是否问题中进行学习，进而得出结论。简单的决策树拓扑结构如图3 所示，其中，包含根节点A，决策节点B1，B2，叶节点C1，C2，C3，C4 以及决策路径。从根节点出发，经过不同的路径获得的结果也不相同。

图3 决策树示例

决策树算法的优点：一是得到的模型很容易可视化，更易于非专业人士理解；二是算法完全不受数据缩放的影响。决策树算法的核心内容是选取优化的属性，通过选取不同优化属性可以获得多种决策树优化算法。现阶段主流的决策树算法包括ID3，C4.5，CART 等。

3.3 SVM 算法

SVM 算法是在统计学的基础上发展起来的一种用于数据挖掘的方法，它主要用于解决分类和回归两类问题。最早由万普尼克在1992 年提出，在解决分类问题过程中具有较好的鲁棒性，在数值的拟合回归方面也展现出良好的应用效果［5-6］。

SVM 算法是基于最大间隔法思想，在原有空间中建立并求解出最优的超平面，也可以通过引入核函数，将初始数据映射到更高维的空间，建立最优的超平面，通过求解最优化的问题来实现分类或回归［7-8］。

SVM 算法通过构建出非线性映射关系，将初始数据映射到更高维空间，在高维空间中选取出一个最优线性函数，这个函数可以反映输入值与输出值之间的数学关系。

设训练样本：

式中，T 为训练样本集；x 为输入元素；y 为目标变量；n 为样本容量。

输入输出数学关系为：

式中，φ（x）表示输入值到高维空间的非线性映射关系；ω 为高维空间中的特征向量；b 为常量。

对于公式（1）可构建如下代价函数：

式中，J 为代价函数值；yi为真实值；xi为预测输入；C为正规化参数。C 的大小决定函数对数据的拟合程度，它限制每个点的重要性，C 的值越大时，对分错样本的惩罚程度越大，故在训练样本中准确率也越高，但是泛化能力随之降低，也就是对测试数据的分类准确率降低；相反，C 的值越小，容许训练样本中有一些误分类错误样本，泛化能力随之增强。调整适合的C 值有助于更好地提升模型的准确性。

4 城镇污水处理出水COD 预测

在城镇污水处理的初始过程中，主要是要去除COD，BOD，SS 等，然后去除总氮、氨氮、总磷等。进水COD 浓度、进水pH、进水氨氮及溶解氧是影响出水COD 的主要因素。

本文采集某城镇污水处理厂连续75 d（组）的数据作为研究对象，以4∶1 的比例划分训练集及数据集，即选取60 d（组）作为训练集，15 d（组）作为测试集，验证模型效果。模型仿真采用Python 语言，版本为Python 3.6.10。Python 有用于数据提取、可视化、数据统计、语言处理、图像处理等各种功能的库，本文中采用scikit－learn 机器学习库实现模型验证。

训练集输入为污水厂进水COD 浓度、进水pH、进水氨氮及曝气池溶解氧浓度，输出为实测污水处理厂出水COD。测试集输入为污水厂进水COD 浓度、进水pH、进水氨氮及曝气池溶解氧浓度，输出为预测污水厂出水COD。通过对比预测及实测出水COD，进一步评价预测模型的准确率。

4.1 不同算法的出水COD 预测

使用Python 语言，分别在scikit－learn 机器学习库中调用SVM，KNN，Tree 算法（默认参数），建立预测模型进行预测。3 种机器学习算法的预测结果如图4a 所示，不同算法预测差值如图4b 所示。

图4 3 种算法预测结果及预测值与实测值差值

从图4 可以看出，SVM 对于城镇污水出水COD 的预测误差在0～2.8 mg/L 之间，平均误差为1.4 mg/L；KNN 算法对于城镇污水出水COD 的预测误差在0.1～6.6 mg/L 之间，平均误差为2.9 mg/L；Tree 算法对于城镇污水出水COD 的预测误差在0～11.8 mg/L 之间，平均误差为3.8 mg/L。SVM 算法相比于其他2 种算法预测效果更优。

4.2 不同参数的SVM 的出水COD 预测

使用Python 语言，在scikit－learn 机器学习库中调用SVM 算法，分别将参数C 的值设定为0.3，3，300，建立预测模型进行预测。3 种参数预测结果如图5a所示，3 种参数预测值与实测值差值如图5b 所示。

图5 3 种参数预测结果及预测值与实测值差值

从图5 可以看出，采用SVM 算法，参数C=0.3时，城镇污水出水COD 的预测误差介于0～5.8 mg/L之间，平均误差为2.4 mg/L；参数C=3时，城镇污水出水COD 的预测误差介于0.1～5.5 mg/L 之间，平均误差为2.2 mg/L；参数C=300 时，城镇污水出水COD 的预测误差介于0～2.8 mg/L 之间，平均误差为1.4 mg/L。相比之下，参数C=300 时建立的模型对于本文研究具有更好的预测效果。

5 结语

为了快速、准确地预测出城镇污水处理厂的出水COD，采用机器学习的办法建立数学模型。针对某城镇污水处理厂一段时间内的进水出水指标，利用SVM，KNN 及Tree 算法建立了预测模型，并针对SVM 算法，对比了正规化参数C 在不同取值下的预测模型效果，实现城镇污水出水COD 的预测误差介于0～2.8 mg/L 之间，平均误差为1.4 mg/L，为城镇污水出水COD 的预测提供了一种有效的方法。