PSO多元自适应回归样条算法

2017-12-28 08:46王盛慧赵二卫
长春工业大学学报 2017年5期
关键词:步长粒子建模

王盛慧, 赵二卫

(长春工业大学 电气与电子工程学院, 吉林 长春 130012)

PSO多元自适应回归样条算法

王盛慧, 赵二卫

(长春工业大学 电气与电子工程学院, 吉林 长春 130012)

多元自适应回归样条建模中,样本数据最小步长和端点的设置会影响建模精度。提出了应用粒子群算法优化这两个参数的方法,以预测样本均方差为适应度函数,通过优化最小步长和端点位置调整采样点选取。实例应用表明,PSO-MARS方法能提高预测精度。

粒子群优化; 最小步长; 端点; 交叉验证

0 引 言

多元自适应回归样条法(Multivariate Adaptive Regression Spline, MARS)是一种专门针对高维数据拟合的回归方法[1-2]。因其建模速度快,可解释性强得到广泛的应用[3]。该方法以样条函数的张量积作为基函数,自动选择插入基函数的节点,构成基函数集合来逼近样本数据。MARS算法自提出后,很多学者做了研究和改进。由Friedman提出的Fast MARS算法能在略微降低模型精度的同时加快建模速度。Sergey Bakin[4-5]等提出的BMARS使用了并行算法,加快建模速度,同时使模型变得光滑。

但是当样本数据存在一定干扰时,MARS可能在干扰点处插入基函数,建立的模型会贴近干扰点,后向剪枝过程不能删除这样的基函数,导致模型在干扰点附近的预测能力下降。

3种划分方法拟合曲线如图1所示。

(a) Minspan=3, Endspan=7 (b) Minspan=2, Endspan=2 (c) Minspan=1, Endspan=1

图中,虚线为正弦曲线,黑色点为正弦函数加上随机扰动,实线为拟合曲线,点画线标识基函数插入点。对同一组数据,采用3种不同的节点划分方法,节点设置参数与模型精度见表1。

表1 3种划分方法拟合参数

建模过程中,MARS不会处理每个样本点,为了降低局部方差,设置最小步长,用Minspan表示,同时,为了降低数据两侧的局部方差,靠近样本数据两端的点也不会被采用,设置两侧最小放置节点距离,文中用Endspan表示。图1与表1很明显可以看出,Minspan,Endspan过大,采样的数据较少,MARS的拟合能力较差;而图1(c)虽然使用了最多的节点和基函数,Minspan=1, Endspan=1,每一个样本数据都被采样,但是由于插入基函数的节点扰动较大,所以并不能很好地挖掘出正弦关系,从而模型此样本点处的预测能力下降;图1(b)的拟合程度说明,按照Minspan=2,Endspan=2的样本划分方法,MARS能较好地反映出系统的特征。可以看出,样本的划分方法能在很大程度影响模型的精度和预测能力。针对MARS的这种问题,文中提出应用粒子群算法(PSO)来优化MARS样本空间划分方法。

1 MARS算法简介

多元自适应回归样条(MARS)是由Friedman引入的一种回归分析形式,它是一种非参数回归技术,可以看作模拟变量之间的非线性和相互作用的线性模型的扩展。MARS模型的一般形式:

它的建模过程分为前向逐步和后向剪枝。前向过程是一个迭代过程,模型首先生成初始基函数(迭代次数I=0),即

每次迭代(I>1),MARS遍历所有节点,成对地添加新的来减小训练误差最多的镜像基函数,直到基函数个数达到最大个数或者模型精度满足要求:

式中:Bl(x)----在之前的迭代中生成的基函数,称作父基函数。

这种迭代过程会产生大量的基函数,造成模型的过拟合,后向剪枝过程每次循环删除一个对训练误差减小量为最小的基函数,得到对应子模型,直到模型只剩下截距项,引入广义交叉验证GCV准则:

最终选取GCV值最小的子模型作为最优模型,可以看出过多的基函数与扭结点会受到惩罚,从而减小模型的体积,避免过拟合。模型不会处理所有样本点,引入最小步长L(a),即Minspan:

节点的选取会直接影响模型的精度和复杂度,尤其对有干扰的样本,在干扰点处添加基函数,可能会导致过拟合和预测能力下降,怎样划分样本空间直接影响模型的精度和复杂度。

2 PSO-MARS算法

2.1 PSO算法

粒子群算法(PSO)是通过模拟鸟群觅食在解空间中通过迭代搜索出最优解的方法[6-8],算法首先随机生成粒子群的位置和速度:

根据粒子的适应度至获取粒子最优位置和全局最优位置

在下一次迭代中粒子更新自己的位置和速度

从上式可以看出,粒子具有自我总结和向优秀个体学习的能力,较之于遗传算法,粒子群有记忆能力、操作简单、收敛迅速的特点。

2.2 PSO-MARS算法

为了能够增加模型的鲁棒性,准确反映系统特征,对样本数据采用10折交叉验证的建模方法。确保所有数据都有机会参与模型的训练和预测,算法流程如图2所示。

图2 算法流程

算法步骤如下:

1)初始化MARS参数,初始化PSO参数。

2)随机生成粒子群XiMinspan,ViMinspan,XiEndspan,ViEndspan。

3)将随机步骤2)生成的Minspan和Endspan传递给MARS,划分样本空间,建立MARS模型群。

4)以10折交叉验证的预测样本MSE平均值为适应度函数,计算粒子群的适应度值,平均MSE值最低的粒子Xi作为全局最优位置,传给Gbest,单个粒子在迭代过程中得到最低MSE值的Xi作为个体最优位置传给Pbest。

涡流发生器安装位置影响其作用区域: 安装位置离模型旋转中心太近, 尾涡直径小, 导致模型来流受涡流发生器干扰, 影响数据准确性; 离旋心太远, 尾涡作用区域将减小, 无法覆盖模型区. 为确定合适的安装位置, 计算了Ma=0.6, 常规实验Reynolds数状态下, 安装位置距离模型旋心10δ, 20δ, 30δ, 40δ, 50δ的流场, 图8和表4分别给出各状态下附面层速度分布和对应的附面层厚度. 图中u/ul为当地速度与附面层外缘速度的比值, 代表附面层内速度恢复情况.

5)根据式(13)和(14),更新粒子群Xi,Vi,Pbest,Gbest,将Xi传递给MARS重新划分样本空间,开始新一轮的计算。

如果迭代次数达到设置的最大迭代次数或者模型精度满足要求,即输出最优模型和Gbest。

3 实例应用

测试数据来自UCI机器学习数据库,该数据集来自联合循环电厂,以温度、环境压力、相对湿度、排气真空度来预测每小时净电能输出。选取数据集中的800个样本作为训练样本,80个样本作为测试样本。初始化MARS参数,最大基函数个数设置50,最大交互程度设置2;初始化PSO参数,随机生成粒子群

XiMinspan=(Xi1Minspan,Xi2Minspan,…,XinMinspan)

ViMinspan=(Xi1Minspan,Xi2Minspan,…,XinMinspan)

XiEndspan=(Xi1Endspan,Xi2Endspan,…,XinEndspan)

ViEndspan=(Xi1Endspan,Xi2Endspan,…,XinEndspan)

其中,n为种群数,n取10,迭代次数设置为40次,Minspan和Endspan为两个不同的粒子群,迭代时并行计算,为了加快搜索速度,初始最小步长在式(8)范围内随机生成。

PSO优化Minspan和Endspan过程如图3所示。

图3 优化过程

从图3可以看出,随着迭代次数的增加,交叉验证MSE和平均MSE都在下降,验证间的初始MSE不同,但都有一定的下降空间。

同时,做了另外两组仿真来对比,参数设置及仿真结果见表2。

表2 PSO-MARS结果对比

3组仿真的训练精度差别不大,Minspan=1,Endspan=1时,模型遍历每个节点,但训练和预测精度并不是最高。使用PSO搜索的划分方法Minspan为9,Endspan为2,训练精度与其它两组基本一致,但预测精度和最大偏差有显著提高,相对其他两组,平均MSE分别降低了21.8%和20.6%。

选取其中一折预测拟合图形,如图4所示。

从图4可以看出,3组预测效果都很好,PSO优化的一组相对整体更加贴近样本数据。

4 结 语

以带扰动的正弦函数为例,设置3组不同的最小步长和端点,模型精度和预测能力差别很大,说明这两个参数对多元自适应回归样条算法有很大影响。

针对手动设置最小步长和端点往往不能取得最优值的问题,文中提出用PSO来优化这两个参数的方法,优化的适应度函数为预测精度,同时采用交叉验证的建模方法来增加模型的鲁棒性,给出了详细的结合算法步骤。

将PSO-MARS应用与联合循环电厂电能输出建模中,从MSE收敛曲线可以看出,经过PSO的优化,预测MSE有一定幅度的减小,PSO-MARS可以在训练精度基本不变的情况下,提高预测精度,可以用于对建模速度要求不高的离线模型建立中,有一定的实际意义。

图4 3种预测拟合图形

[1] Friedman J H. Multivariate adaptive regression splines (with discussion) [J]. The Annals of Statistics,1991,19(1):123-141.

[2] Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, inference and prediction[M]. 2nd edition. [S.l.]: Springer,2009.

[3] 宋阳,凌震华,戴礼荣.基于合成质量预测的单元挑选语音合成优化方法[J].清华大学学报:自然科学版,2013(6):762-766.

[4] Bakin S, Hegland M, Osborne M. Can MARS be improved with B-splines? [M]. New Jersey, USA: Computational Techniques and Applications Conference,1998:75-82.

[5] 初众,吴义忠,陈立平,等.基于黄金分割法的加速MARS研究[J].系统仿真学报,2012(8):1561-1566.

[6] 冯非凡,武雪玲,牛瑞卿,等.粒子群优化BP神经网络的滑坡敏感性评价[J].测绘科学,2017(10):1-9.

[7] 邱东,刘明硕,郭红涛.基于粒子群算法的低碳铬铁磷含量预测研究[J].计算机技术与发展,2017(6):1-4.

[8] 金星,徐婷,冷淼.基于IPSO-SVR的水泥分解炉温度预测模型研究[J].现代电子技术,2017(9):148-151.

DivisionmethodofMARSsampleoptimizedbyPSO

WANG Shenghui, ZHAO Erwei

(School of Electrical & Electronic Engineering, Changchun University of Technology, Changchun 130012, China)

In the multi-adaptive regression spline modeling process, the setting of both sampling minimum step size and endpointmay influence the precision of modeling. To optimize the two parameters, Particle Swarm Optimization (PSO) method is applied to estimate the Mean Square Error (MSE). The MSE is taken as the fitness function to optimize the minimum step size and endpoint by adjusting the sampling position. Application results indicate that themethod can improve the modeling accuracy.

Particle Swarm Optimization (PSO); minimum step size; endpoind; cross-validation.

2017-06-15

吉林省科技发展计划基金资助项目(20150203003SF)

王盛慧(1976-),女,汉族,吉林长春人,长春工业大学副教授,硕士,主要从事数字传动与电力节能技术方向研究,E-mail:wangshenghui@ccut.edu.cn.

10.15923/j.cnki.cn22-1382/t.2017.5.09

TP 391.9

A

1674-1374(2017)05-0459-05

猜你喜欢
步长粒子建模
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
Conduit necrosis following esophagectomy:An up-to-date literature review
基于粒子群优化的桥式起重机模糊PID控制
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
基于粒子群优化极点配置的空燃比输出反馈控制
基于动态步长的无人机三维实时航迹规划
基于逐维改进的自适应步长布谷鸟搜索算法
三元组辐射场的建模与仿真