组合核函数高斯过程的网络流量预测模型

2015-04-16 08:51刘元君
计算机工程与应用 2015年19期
关键词:网络流量协方差维数

黄 芳,刘元君,陈 波

HUANG Fang1,LIU Yuanjun1,CHEN Bo2

1.湖南商务职业技术学院 电子信息技术系,长沙410205

2.电子科技大学 计算机科学与工程学院,成都611731

1.Department of Electronic Information Technology,Hunan Vocational College of Commerce,Changsha 410205,China

2.School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731,China

1 引言

随着网络业务迅速增长,网络服务质量要求日益提高,网络流量预测结果具有十分重要的实际价值,因此提高网络流量预测的准确性成为当前网络研究领域中的一个重大课题[1]。

国内外学者们对其进行广泛的研究,已提出时间序列分析法、神经网络、灰色理论、隐马尔夫法、支持向量机等预测模型[2-6]。时间序列分析法可对波动范围小的网络流量进行准确预测。但实际网络流量受到多种因素的综合影响,具有非线性和时变性等特点,时间预序列分析法的预测偏差较大,应用范围受限[7]。神经网络是一种非线性预测能力强的机器学习算法,要求样本数量大,如果样本数量不能满足“大样本”要求,就易出现“过拟合”等缺陷,预测结果不稳定[8-9]。支持向量机较好地解决了非线性预测问题,比神经网络取得了更优的预测效果,但其自身存在许多难以克服不足,如核函数参数的选择问题[10-12]。高斯过程(GP)是一种新型的机器学习算法,它具有支持向量机处理小样本、非线性的优点,同时具有神经网络学习速度快特点,大量研究结果表明,通常情况下,GP 模型的性能要优于神经网络和支持向量机[13]。将高斯过程回归模型在实际应用中,常采用共轭梯度法确定其最优参数,但是共轭梯度法对初始值敏感,存在易陷入局最优等的弊端,影响了高斯过程回归模型的性能。对于复杂多变的网络流量,单一核函数的高斯过程回归模型存在鲁棒性差、泛化能力不强等缺陷,网络流量的预测精度有待进一步提高[14]。

针对网络流量的非线性和时变性等特点,提出一种组合核函数高斯过程的网络流量预测模型。首先采用自相关法和假近邻法计算网络流量的延迟时间和嵌入维数,然后采用遗传算法优化组合核函数高斯模型,最后采用网络流量数据进行仿真实验测试模型有效性。

2 高斯过程的网络流量预测

2.1 高期过程回归

高斯过程是一种处理小样本、非线性等的新型机器学习算法,对于数据集:,那么f(x(1),x(2),…,x(n))可构成随机变量的一个集合,高斯过程为:

式中,m(x)和k(x,x′)分别表示均值函数和协方差函数[15]。

由于收集的数据常含噪声,那高斯过程回归模型变为:

式中,ε为独立的高斯噪声。

对于式(2),由于噪声ε为白噪声,那么观测值联合分布的集合得到一个高斯过程,即

式中,δij是Kronecker Delta函数。

采用矩阵形式对协方差函数进行描述:

式中,I为单位矩阵;C(X,X)为协方差矩阵;K(X,X)为Gram 矩阵。

这样,就可以得到GP 回归方程为:

2.2 高斯过程训练和参数的选择

2.2.1 高斯过程训练

在GP 建模过程中,协方差函数需要满足Mercer 条件,因此式(7)可以写成

式中,k(xi,x*)为核函数,且有

GP 建模过程中,通过核函数k(xi,x*)将非线性变化关系的数据映射到高维特征空间,并且进行线性回归,因此协方差核函数选择对高斯过程建模十分关键,常规GP 模型常采用平方指数协方差函数(SE)和有理二次协方差函数(RQ),它们具体定义如下:

式中,M为对角矩阵;d是核函数的形状参数。

在常规GP 模型中,采用单一协方差函数作为高斯过程的核函数,然而对于复杂多变的网络流量,单一核函数的GP 模型无法准确预测网络流量的动态变化特征,为了提高网络流量预测精度,针对单一核函数各自不足,利用它们优点进行互补,将平方指数协方差函数(SE)和有理二次协方差函数(RQ)进行组合,构造新的核函数:

2.2.2 模型参数选择

当前高斯过程的最优超参数采用共轭梯度法确定,但共轭梯度法存在对初始值敏感等缺陷,难以获得全局最优的趋参数,对网络流量预测结果产生不利影响。遗传算法是一种全局优化和并行搜索能力强的仿生智能算法,十分适合于参数搜索,为了克服共轭梯度法的缺陷,本文采用遗传算法在高斯过程建模中自动搜索最优超参数。个体适应度函数定义如下:

式中,yi表示第i个网络流量样本的实际值;f(xi)表示第i个网络流量样本预测值。

2.3 组合核函数高斯过程的网络流量预测

(1)首先收集网络流量数据,然后进行预处理,具体为:

式中,xmax和xmin为最大值和最小值;x为原始值。

(2)采用网络流量的互信函数和关联维数确定延迟时间和嵌入维数,并对网络流量数据进行相空间重构,构建高斯过程的学习样本,并将分为训练和测试样本。

(3)根据式(13)构造高斯过程回归模型的组合核函数。

(4)初始化遗传算法参数,并产生初始种群,每一个个体代表高斯过程回归模型参数。

(5)将网络流量训练集输入GP 进行训练,建立网络流量预测模型,并对网络流量进行预测。

(6)根据每组参数的预测结果,采用式(14)计算个体的适应度值,并根据适应度值对个体优劣进行评价。

(7)对个体进行选择、交叉和变异等操作,产生新一代群数。

(8)如果达到最大代数,根据最优个体得到最优参数,不然返回步骤(5)继续进行参数寻优。

(9)根据最优参数采用建立的GP 模型网络流量预测模型,并对模型预测值进行反归一化处理,得到了预测实际值。

3 仿真实验

3.1 网络流量数据

数据来源于http://newsfeed.ntcu.net/~news/2012/的主节点路由器2012 年3 月1 日到4 月13 日的每小时访问流量,得到1 000 个数据,据具体如图1 所示。

图1 网络流量时间序列

3.2 对比模型及评价标准

选择平方指数协方差函数的GP 模型(SE-GP)和有理二次协方差函数的GP 模型(RQ-GP)、最小二乘支持向量机(LSSVM)、支持向量机(SVM)和BP 神经网络(BPNN)作为对比模型,模型性能采用平均相对百分比误差MPAE和均方根误差RMSE进行标准,它们定义如下:

3.3 学习样本的构造

对于具有混沌特性的网络流量进行建模时,首先需要通过选择延迟时间τ和嵌入维数m,得到GP 模型的学习样本。本文采用自相关法和假近邻法分别计算网络流量的延迟时间τ和嵌入维数m。图2 描述了网络流量的自相关函数变化曲线,从图2 可知,最佳延迟时间τ=6。虚假近邻数和嵌入维数之间的变化关系如图3 所示,从图3 可知,随着嵌入维数的增加,虚假近邻数逐渐变小,当m=5 时,假近邻数不再变化,即最优嵌入维数m=5。采用τ=6,m=5 对图1 中的网络流量重构。

图2 网络流量的延迟时间

图3 网络流量的嵌入维数

3.4 结果与分析

3.4.1 单步预测结果

采用组合核函数GP 模型对网络流量进行学习,建立相应的网络流量预测模型,并对网络流量测试集进行预测,得到的单步拟合和预测结果如图4 和图5 所示。从图4 可知,组合核函数GP 模型较好地拟合了网络流量变化趋势,实际值与拟合值相当接近,表明组合核函数GP 模型是一种有效、拟合精度高的网络流量预测模型。同时从图5 可知,组合核函数GP 模型的预测误差相当的小,获得了十分理想的预测结果,这表明组合核函数GP 模型具有较好的泛化和推广能力。

图4 组合核函数GP 模型的单步拟合结果

图5 组合核函数GP 模型的单步预测结果

SE-GP、RQ-GP、LSSVM、SVM、BPNN 和组合核函数GP 模型的单步预测误差见表1。从表1 可知,与对比模型相比,组合核函数GP 模型的预测误差最小,获得最优的网络流量预测结果,对比结果验证了组合核函数GP 用于网络流量预测的优越性和可行性。

表1 不同模型的单步预测误差比较

3.4.2 多步预测结果

网络流量预测的目标就是对网络流量变化趋势进行把握,要求有一定提前预测时间,然而单步预测仅可以预测下一时刻的网络流量,实际应用价值不大,因此需要将单预测扩展到多步预测。组合核函数GP 模型的多步拟合和预测结果如图6 和图7 所示。从图6 和7 可知,组合核函数GP 模型拟合和预测结果与实际网络流量之间的误差较小,预测结果达到了实际应用的精度要求,比较准确地刻画了网络流量的非线性、时变性等变化趋势,这是单一核函数GP 模型及其他对比模型归难以企及的,组合核函数GP 模型优势十分明显。

SE-GP、RQ-GP、LSSVM、SVM、BPNN 和组合核函数GP 模型的多步预测误差见表2,表2 给出不同模型的预测性能对比。

图6 组合核函数GP 模型的多步拟合结果

图7 组合核函数GP 模型的多步预测结果

表2 不同模型的多步预测误差比较

从表2 可知,相对于单一核函数GP 模型比,组合核函数GP 模型提高了网络流量预测性能,泛化性能更优。相对LSSVM、SVM、BPNN,组合核函数GP 模型需要调整参数少,可以有效地实现先验知识和观测数据完美结合,具有良好的置信水平,提高了网络流量的预测效果。

3.4.3 含有噪网络流量预测性能分析

为了测试组合核函数GP 模型的鲁棒性,采用一个含噪的网络流量进行仿真对比实验。含噪的网络流量数据如图8 所示。对含噪的网络流量数据进行建模与预测,组合核函数GP 的络流量拟合和预测结果如图9和图10 所示。从图9 和图10 可知,组合核函数GP 模型获得了较理想的预测结果,这表明组合核函数GP 由于引入两个核函数,具有较强稳健性和鲁棒性,具有一定的抗干扰性能,在网络流量应用范围更广。

SE-GP、RQ-GP、LSSVM、SVM、BPNN 和组合核函数GP 模型对含噪网络流量预测误差见表3。从表3 可知,相对于对比模型,组合核函数GP 模型由于集成了两种核函数的优点,克服了单一核函数的不足,同时采用遗传算法对合核函数GP 模型参数进行优化,建立了全局最优的网络流量预测模型,获得了较好的含噪网络流量预测结果。

图8 含噪声的网络流量数据

图9 组合核函数GP 的含噪网络流量拟合结果

图10 组合核函数GP 的含噪网络流量预测结果

表3 不同模型的含噪网络流量预测误差比较

4 结束语

为了提高网络流量的预测精度,提出一种组合核函数高斯过程回归的网络流量预测模型。通过引入组合核函数对网络流量变化趋势进行逼近,采用遗传算法优化参数以提高其泛化能力,并通过仿真对比实验验证了组合核函数GP 的网络流量预测型的有效性和优越性。

[1] Jun J,Symeon P.Enhancing network traffic prediction and anomaly detection via statistical network traffic separation and combination strategies[J].Computer Communications,2006,29(10):1627-1638.

[2] He Y J,Zhu Y C,Duan D X.Research on hybrid ARIMA and support vector machine model in short term load forecasting[C]//Proceedings of the 6th International Conference on Intelligent Systems Design and Application,2006:804-809.

[3] 姜明,吴春明,张曼,等.网络流量预测中的时间序列模型比较研究[J].电子学报,2009,37(11):2353-2358.

[4] 姚奇富,李翠风,马华林,等.灰色系统理论和马尔柯夫链相结合的网络流量预测方法[J].浙江大学学报:理学版,2007,34(4 ):396-400.

[5] Chen Y,Yang B.Small-time scale network traffic prediction based on flexible neural tree[J].Applied Soft Computing Journal,2012,12(1):274-279.

[6] Park D C.Prediction of network traffic using dynamic bilinear recurrent neural network[C]//Proceedings of 5th International Conference on Natural Computation,2009,2:419-423.

[7] 刘杰,黄亚楼.基于BP 神经网络的非线性网络流量预测[J].计算机应用,2007,27(7):1770-1772.

[8] 贺相春,董晓辉.基于映射矩阵的网络流量分析预测模型[J].计算机工程与应用,2013,49(8):100-104.

[9] 王俊松,高志伟.基于RBF 神经网络的网络流量建模及预测[J].计算机工程与应用,2008,44(13):6-11.

[10] 王俊松.基于Elman 神经网络的网络流量建模及预测[J].计算机工程,2009,35(9):190-191.

[11] 罗赘骞,夏靖波,王焕彬.混沌-支持向量机回归在流量预测中的应用研究[J].计算机科学,2009,36(7):244-246.

[12] 张文金,许爱军.混沌理论和LSSVM 相结合的网络流量预测[J].计算机工程与应用,2013,49(15):101-104.

[13] 孙斌,姚海涛,刘婷.基于高斯过程回归的短期风速预测[J].中国电机工程学报,2012,32(29):104-110.

[14] Seeger M.Gaussian processes for machine learning[J].International Journal of Neural System,2004,14(2):69-106

[15] 李军,张友鹏.基于高斯过程的混沌时间序列单步与多步预测[J].物理学报,2011,60(7):1-11.

猜你喜欢
网络流量协方差维数
基于多元高斯分布的网络流量异常识别方法
β-变换中一致丢番图逼近问题的维数理论
基于神经网络的P2P流量识别方法
一类齐次Moran集的上盒维数
AVB网络流量整形帧模型端到端延迟计算
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
关于齐次Moran集的packing维数结果
二维随机变量边缘分布函数的教学探索
涉及相变问题Julia集的Hausdorff维数
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器