基于支持向量回归机的水质预测模型研究

2018-10-19 16:09孔凡备李宇晗何世宇杨爱民
科学与财富 2018年25期
关键词:BP神经网络

孔凡备 李宇晗 何世宇 杨爱民

摘要:支持向量机(support vector machine, SVM)是一种新型的机器学习方法,由于其出色的学习性能,已经广泛应用于模式识别、数据挖掘、故障预测以及非线性控制等领域,并成为当前机器学习界的研究热点。为提高太湖流域水质变化预测能力,该文运用基于支持向量机的回归预测算法(Support Vector Regression,SVR),对太湖流域水质状况进行拟合预测,并与BP神经网络预测情况进行比较,发现在样本容量较小的状况下SVR 整体性能优于BP神经网络方法,有很强的学习能力、泛化能力,为支持向量回归机模型在水质预测进一步应用和发展提供借鉴。

关键词:支持向量回归机;水质预测;核函数;BP神经网络

中图分类号:029 文献标识码: A 文章编号:

0引言

支持向量机(Support Vector Machine, SVM)是一种基于统计学习的新型算法,由Vapnik等人[1]在统计学习理论中的VC维理论和结构风险最小化原则的基础上于1995年完整地提出。1997年Vapnik等人[2]详细介绍了基于支持向量机方法的回归估计方法(Support Vector Regression,SVR)和信号处理法,了研究支持向量机的热情。支持向量机有极其突出的分类与回归性能,该算法逐渐在许多研究领域得到了广泛的应用与研究,近年来已走向复杂非线性科学和人工智能科学研究前沿。

1.支持向量回归理论基础

1.1 支持向量机理论

支持向量机的基本思想是在线性可分的情况下,在空间的原始分类中寻找最佳超平面。在线性不可分的情况下,加入松弛变量进行分析,通过非线性映射将低维输入空间的样本映射到高维属性空间变为线性情况,这使得对高维属性空间采用线性算法,对样本的非线性进行分析是可能的,并找到特征空间的最优超平面。

1.2 支持向量回归机的基本原理简介

SVM方法的核心思想之一是寻找两类分类问题的最优分类面,引出了支持向量的概念。SVM方法的另一核心思想是通过非线性映射?将样本集映射到一个高维以至于无穷维的Hilbert空间[4](称为特征空间),所以样本空间中的高度非线性问题在高维空间中应用线性分类可以得到实现,从而解决了非线性问题。

与分类问题不同的是,回归的样本点只有一类,其所寻求的最优超平面不是使两类样本点分得“最开”,而是令所有样本点离超平面的“总偏差”最小,此时所有样本点都在两条边界线之间,并求得最优回归超平面同样等价于求最大间隔。

1.2.1 ε-不敏感损失函数

支持向量回归机(Support Vector Regression,SVR)是把支持向量机推广到回归问题建立的新的回归算法,该算法需要引入合适的损失函数以保证支持向量机重要性质的存在条件。SVR将Vapnik 的ε-不灵敏函数作为误差函数(即误差小于ε时视为无误差):

其中

1.2.2非线性回归的求解

设训练集为

采用上述的ε-不敏感损失函数,并限定在线性函数集合中的回归估计函数,基于结构风险最小化原则,当全部样本点到所求超平面的距离都可以小于ε时,寻找最优回归超平面的问题便转化为求解如下一个二次凸规划问题:

当部分样本点到最优超平面的距离大于ε时,引入松弛变量ξ,构造容错惩罚系数C,此时最优化问题转化为:

引入拉格朗日(Lagrange)函数[5]得到其对偶形式:

按照KKT条件,故有:

由上式可以求出b。

上式中SV为标准支持向量机集合,NNSV为标准向量机数量。

可得所求的最优超平面线性回归函数为:

1.2.3 线性回归的求解

求解非线性回归函数时,需要将训练集映射到高维空间,然后再运用线性回归方法进行求解。假设存在映射函数,便可以将欧式空间中的输入集合映射到希尔伯特空间中集合,此时便可得到与对应的原始问题.

在采用拉格朗日乘数法对原始问题进行对偶變换之后,可以得到加入特征映射函数Φ(x)的对偶问题,其具体形式如下所示:

进行特征映射时有些状况下会造成维数灾难。因此在进行回归问题求解过程中,通常运用核函数方法来进行映射函数内积的运算。如果对任意x,z∈T函数K(x,z)满足如下公式所示的条件,则称K(x,z)为核函数。在公式中Φ (x)·Φ(z)为映射函数Φ(x)和Φ(z)的内积。核函数的形式有很多,常见的形式主要包括多项式核函数和高斯径向基核函数[6],其具体形式分别如下所示:

按照经验,映射函数Φ(x)和Φ(z)的内积计算过程很困难,而核函数K(x,z)的计算方法却容易许多。因此,可采用核函数Φ(x)·Φ(z)来替换求解过程中遇到的内积 进行求解。在运算过程中,不直接对映射函数的内积进行计算,而通过核函数来计算映射函数的内积,是支持向量回归机算法中非常有效的一种方法。然后,通过序列最优化算法可得到参数w和b,最终的非线性回归函数如下所示:

2 水质预测的SVR模型研究

用支持向量机进行水环境的水质预测,首先需要确定影响水质的主要影响因素;其次选择具有实测数据的主要因素组成样本数据集,并利用SVM进行学习训练;然后根据训练后获得的参数进行水质预测,并与BP神经网络进行比较。可以得出,SVR的预测效果优于BP神经网络。这是因为在样本较少的训练过程中神经网络出现了“过学习”现象,而SVR模型则通过调整常数,使得误差尽可能小,而且回归函数更加平滑,因此提高了泛化能力。

3 结论

本文对支持向量回归机的基本思想、软间隔支持向量回归机、对偶转换和问题求解以及非线性回归求解等支持向量回归机的基本理论进行了综述,并在对支持向量回归机模型的综述基础上,将ε-SVR应用于太湖水域水质状况预测,并与BP神经网络模型进行对比分析,其拟合精度与神经网络模型相差不大,但在预测精度上要明显比其高,充分证明其较强的学习能力和泛化能力。支持向量回归机的参数选择的是否合适,直接关系到支持向量回归机算法运用效果的优劣,而如何准确的对参数进行选择缺少系统且一般的方法,可以考虑如遗传算法,混沌预测,神经网络等这与支持向量机结合进行改进,支持向量回归机的发展领域很广泛,相信对于支持向量回归机的进一步研究将推进科学研究的发展。

猜你喜欢
BP神经网络
基于神经网络的北京市房价预测研究
一种基于OpenCV的车牌识别方法
基于遗传算法—BP神经网络的乳腺肿瘤辅助诊断模型
一种基于改进BP神经网络预测T/R组件温度的方法
基于BP神经网络的光通信系统故障诊断
提高BP神经网络学习速率的算法研究
就bp神经网络银行选址模型的相关研究
基于DEA—GA—BP的建设工程评标方法研究
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 