机器学习方法在CO浓度中的预测研究

2021-01-29 03:06魏莱王新民长春工业大学数学与统计学院

数码世界 2020年12期

魏莱王新民长春工业大学数学与统计学院

1 引言

近些年，空气的污染对社会的危害愈发严重，它往往悄无声息的存在于人们身边并给人们的身体带来伤害。多种有危害的气体都能长时间的存在于人们生活的世界中，其中最主要的就是一氧化碳。CO的浓度受很多生活方面的影响，它会因为人类或者自然界的排放增加自己的浓度，想解决它的危害问题就要明确的预测它不同时间阶段的浓度规律，但是它的不规则性和不稳定性让了人们难于预测其浓度。想要精准的预测其浓度是有难度的。本文想要寻求一种满足人们要求的预测方法对CO的浓度进行精准的预测。

人们最近几年对CO的治理和对空气质量的预测也进行了很多研究。叶珊珊等人在2020年对一氧化碳中毒的流行病例特征进行分析，同时提及急性CO中毒起与日均气温、平均气压和空气相对湿度均存在相关性，同时也希望科普CO对社会的危害并正视它。蔡泽栋在2020年使用机器学习的算法对复杂的金融数据进行了预测，运用几种机器学习方法进行对比，从其文章中可以了解到机器学习算法对于此类数据的预测精准度有很大的提升。刘红等人2020年运用随机森林算法对温室气温进行预测，同时建立多种机器学习的方法与之进行对比，通过实验验证了随机森林在预测模型方面的优越性。李畸勇等人2020年运用SVR算法建立预测模型，在其数据预测中SVR模型为结果最优模型，作者也表示文章中所提供的模型泛化性能很优越。张顺航等人2019年根据往年江苏省的气象数据，探究气象对小麦产量的影响，对小麦历年的产量进行预测，结果表明Adaboost算法预测的最为精准。可以看到机器学习的算法在各个领域都大放光彩，本文将机器学习应用到空气污染的成员之一的CO的浓度数据上进行结合，并观察各个不同的算法在预测精准度上能达到怎样的程度。

2 机器学习

2.1 机器学习

机器学习（Machine Learning）是一个多学科组成的专业，它在人们的认知内已经存在了很长时间了。直到今日，它渐渐成为各行各业研究数据分类和回归的热点，机器学习的目的是让机器像人一样思考学习，传统的机器学习主要包括决策树、随机森林、人工神经网络、支持向量回归机、Adaboost、迭代决策树等。近些时间，机器学习对人来说已经不陌生了，人们生活的现代社会处处都有机器学习的体现，机器学习的发展也让人们的工作和生活有了良好的改变。

2.2 支持向量回归机

支持向量回归机（SVR）是支持向量机（SVM）中的一个重要的组成部分，支持向量机是一种按照监督学习的方法将数据分成两类的分类器，SVM从被提出开始就被广泛地应用于各个问题的应用，为人们解决了很多发展附带的不利问题。

2.3 Adaboost

Adaboost是一种迭代算法，其思想是将多个不同的分类器组合成一个更强的分类器，它应用大多的分类问题上，也出现了一些回归问题上的应用，它具有较高的检测速率，且不易出现过适应现象

2.4 决策树

决策树（Decision Tree）是以诸多情况的概率为基础，通过构成决策树并通过决策树的求取概率，判断哪种方法是可行的，是一种非常直观的图解法，其运作并不复杂，在解决问题方面也有自己良好的性能。由于这种方法像一棵树的树干，所以称它为决策树。

2.5 随机森林

随机森林（Random Decision Forests）本质上就是一个包含多个决策树的分类器，它具有很多优点。首先针对于很多数据它可以产生很优的分类器，其次它可以被延伸用在未被标记的资料上，另外它的学习过程也是很快速的。构建随机森林需要两个方面，首先从原数据中采取有放回的抽样，构造出一个和原数据集数据量相同的子数据集，它控制决策树各不相同的方法就是控制最优的特征，使其随机选取。

2.6 迭代决策树

迭代决策树（GBDT/Gradient Boosting Decision Tree) 又叫MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，它与随机森林一样都是由多个决策树组成，不同的是，它是由这些决策树的结论加起来生成最终的答案并加以运算的。它与SVM也有共同点，它们的构造让它们的泛化能力很优秀，GBDT更是因为机器学习的发展更加受大家的关注。

3 实验结果与分析

3.1 数据集

本文选择UCI数据集上的空气质量数据，从数据中挑选出CO浓度数据并对其进行缺失值处理。本文选择前70%的处理后的数据作为训练数据，其他作为测试数据，共7819条数据。其中使用均值填充和删除缺失数据两种方法处理数据。

3.2 实验结果与分析

为了对比出算法在本文数据上预测精准度的优劣，本文将Adaboost、SVR、随机森林、GBDT进行比较，用MSE和R2作为其评价指标，四种方法的 MSE 分别为：0.70、0.78、0.63、0.60，四种方法的 R2分别为：0.67、0.63、0.70、0.71。由实验结果可以看出无论评价指标是MSE还是R2最优的模型是GBDT模型算法，其MSE为0.60，R2为0.71。随机森林的结果也不错但是跟GBDT还是有一部分差距。

4 结论

本文出于运用机器学习预测CO浓度的角度，对本数据进行处理，并同时运用Adaboost、SVR、随机森林、GBDT进行比较，对比它们结果，其中MSE的结果是：Adaboost为、SVR为、随机森林为、GBDT为，MAPE的结果是：Adaboost为、SVR为、随机森林为、GBDT为，可以看出在这四种机器学习算法中，结果最优，预测最精准的是GBDT。未来的研究可以围绕着各个空气质量指标进行深度的解剖研究，也可以引入更多的算法模型进行预测，对比各个模型的优劣。