基于CBS-GM的时序数据短期预测方法

2014-03-15 01:22宁亚楠姜高霞

金陵科技学院学报 2014年2期

宁亚楠，姜高霞,2

(1.山西大学数学科学学院，山西太原 030006; 2.山西大学计算机与信息技术学院，山西太原 030006)

预测问题是数据分析的一项重要研究目标。从预测的长度来讲，可分为短期预测和中长期预测。就预测的方式看，可分为相关预测和非相关预测。相关预测是借助所要预测变量的相关因素来做预测，例如利用温度等因素预测电力负荷[1]；而非相关预测仅仅依赖单个变量，最典型的是利用历史数据来预测未来数据；也有将相关预测和非相关预测结合起来进行预测，如采用向量自回归模型(VAR)预测中国股市未来现金股利水平[2]。从预测的模型来讲，主要分为参数回归、非参数回归以及半参数回归。参数回归需要借助具体的模型描述影响因素与预测变量之间的函数关系，并通过实际数据计算模型参数，而非参数模型主要改进了参数模型的过拟合问题，基于具体数据驱动，对偏倚和方差做出权衡，形成一种拟合结果。

现实中的许多问题由于时效性较强，需要做出快速的短期预测，如电力负荷预测和短期交通流预测。文献[3]指出预测时间控制在15 min以内的短时交通流预测更具有实际意义。在做短期预测时由于相关预测需要寻找相关因素，而很多预测模型的预测效果对因素的选取非常敏感。例如负荷预测中，对不同地区不同时间类型的负荷，其影响因素的数量和权重往往并不相同，要建立负荷与影响因素之间的关系模型较为困难。若因素选择不当还可能造成共线性问题。因此短期预测一般采用非相关预测，即尝试从时间序列的历史数据中发掘内在规律，获取有用信息。此外，时序数据短期预测有其特有的要求，除了预测的准确性外，还需要较强的时效性和便捷性，否则对实际指导意义不大。

1 参数-非参数组合预测

1.1 时序数据预测方法

1.1.1 参数回归在最初的回归预测中一般采用参数回归方法，初级的方法有：多元线性回归、多项式回归、指数平滑、逻辑回归等。ARIMA和状态空间模型(SSM)可通过序列前后的线性相关性来表示序列的非相关预测方法。然而现实序列并非简单的线性变化。

由于时序数据之间可能出现复杂的非线性关系且含有复杂的噪声，一些相对高级的非线性相关预测方法出现，主要有人工神经网络(ANN)、支持向量机(SVM)等。ANN是非线性预测的代表方法，具有很强的自学习能力，可以以任意精度逼近非线性函数，适合模拟现实中复杂的非线性问题。但ANN隐含层数不易确定，容易出现过拟合或陷入局部最优，而且收敛速度较慢，在短期预测中不大适用。

此外还有基于微分方程的灰色预测(GM)，基于去噪的Kalman滤波以及基于随机过程的Markov模型等。

相关预测方法也可用于单个序列预测中，常用处理方式是自回归相关预测。设时间序列{Yt},t=1,2,…n，自回归阶数为m，则可建立如下相关映射：

(1)

其中每一行都是由序列的前m个值预测下一个值。

在本文的数值试验部分中，各种参数方法就是采用这种映射做相关预测。

1.1.2 非参数回归非参数回归摒弃了传统的求解数学解析模型的方法，不需要任何先验知识，能够很好地适应短期预测的非线性和时变性。基于数据驱动的非参数回归方法是一种较好的短期预测策略。只要有足够的历史数据，充分发挥非参数回归的学习和适应能力，就能够取得较好的回归效果。

W.Hardle[4]介绍了常用的非参数方法：核函数回归(N-W核估计和G-M核估计等)、k近邻回归、局部多项式回归、样条回归等。

在国内外，非参数自回归模型的预测应用已在多个领域开展过研究，如金融、水文、农业及能源等[5-8]。非参数方法能避免主观经验影响，不需要任何数据分布的先验知识和假设，而是仅假定序列函数存在且连续可微，适合分析具有随机性及相关性的短期时序数据。

参数回归其回归形式已知，只是其中参数待定。参数回归的最大优点在于回归结果可以外延，但缺点是假定条件过于严格，在不少情况下回归模型经常会受到限制而不适用；与参数回归恰好相反，非参数回归具有以下优点：1) 函数形式自由，受约束少，对数据的分布一般不做任何要求；2) 适应能力强，稳健性高，回归模型完全由数据驱动；3) 模型的精度高；4) 对于非线性、非齐次问题，有非常好的效果。然而非参数回归有其局限性：如其结果外推/外延困难，光滑参数(如Parzen窗宽)的选取一般较复杂等。外推/外延能力限制了非参数回归的预测能力，因此本文考虑结合参数回归和非参数回归，进行短期时序预测。

本文采用B样条基函数将离散数据转化为函数型数据，同时得到基函数的系数；然后研究基函数系数的规律，采用参数方法预测基函数系数，从而重构函数型数据并做出预测。同时将本文预测方法与多个常用的参数回归预测模型的预测结果进行比较，结果表明本文模型具有较好的准确性和实用性。这种方法的优点是：

1) 方法基于数据驱动，具有很强的适应性，且吸取了非参数回归的稳健性；

2) B样条系数采用参数预测，扩展了外推能力；

3) 不仅仅能够预测时序数据某个时刻的值，而且能够预测一段时间内的值。

1.2 CBS-GM组合预测方法

1.2.1 B样条基函数 1972年，Gordon、Riesenfeld等人发展了1946年Schoenberg提出的样条方法，提出了B样条(B-spline)方法。在保留Bezier曲线优点的同时，克服了Bezier方法的弱点。B样条可以进一步推广为非均匀有理B样条(NURBS)。De-Boor递推算法是一个数值上稳定的计算B样条的方法，它的原理是构造一种递推的公式，由0次构造1次，1次构造2次，2次构造3次……依次类推。De-Boor递推算法公式如式(2)、(3)所示：

(2)

(3)

B样条基函数个数k、节点数n、阶数d有如下关系：k=n+d-2。图1是10个节点的等距B样条基函数的图形，共有10个节点，12个基函数，阶数为4(即3次基函数，二阶导连续)。以此等距样条为例，B样条基函数是由一系列相似的基函数组成，中间的6个基函数相似，每个基函数只在附近几个点内取值非零，其它位置均为零。B样条的紧支撑性决定了其高度局部适应性，它指的是每个样条函数的系数最多只与最近的5个点(4阶)有关，而与其它点的取值无关。

图1 B样条基函数(10个节点)Fig.1 B-spline basis (10 knots)

1.2.2 灰色预测灰色系统理论是邓聚龙教授在20世纪80年代初提出的，其基本思想是原始数据序列中所含的随机波动是一种灰色信息。为了使灰变白，需对原始数据序列进行处理。这就要根据原始数据序列的特征，选用合适的生成因子。最简单的生成因子是一次累加(1-AGO)生成法。灰色模型(GM)有很多种，一般处理的只是常微分方程，表示为GM(N,H)模型，其中N是微分方程阶数，H是变量数。

最简单的是单变量一阶模型GM(1,1)，一般所说的灰色预测，多数指此模型。实际上，GM(1,1)模型和1-AGO生成法要求原始数据序列是光滑的，至少应是准光滑的。对于波动较大的数据序列，预测精度不会高。一次累加生成后的数据序列是接近指数分布的，这从一阶常微分方程的解中就可看出。由于它涉及的数学理论较浅，所需数据量小，因此很快形成灰色预测热潮。其应用大多涉及国民经济的各个领域。

1.2.3 B样条系数的灰色预测灰色预测所需数据量小，一般适合于相对光滑的序列做短期预测。而函数型数据正是通过B样条技术对数据做光滑处理，其系数也比较光滑，将两者结合非常适合做短期预测。

组合预测的思想是通过将数据转化为B样条基函数数据，再通过灰色模型(GM)预测B样条系数(Coefficients of B-Spline，CBS)，扩展样条函数的范围进行预测。这里需要确定的参数有两个，一个是B样条的系数个数，我们采用经验值选择最后的l个系数做短期预测；另一个是样条函数的扩展范围，这取决于预测的长度，预测延后p期则样条函数扩展p期。

最后得到的预测步骤如下：

minPENSSEλ(x|y)=[Yt-x(ti)]′W[Yt-x(ti)]+λPENm(x)

(4)

2) 提取函数数据的最后l个B样条系数

(5)

(6)

(7)

其中Corr(·,·)表示求相关系数。

2 数值实验

为检验方法的预测效果，本文选择了2013年逐月邮电业务总量(亿元)和含有异常值的商品房平均销售价格(元/平米)为预测对象，并用常用预测方法(GM(1,1)、ARMA、BP神经网络和SVM)做比较，主要查看预测精度、预测速度和预测稳定性。

2.1 常规数据

利用CBS-GM可以通过2013年1-9月份的邮电业务总量当期值(亿元)预测未来3个月的邮电业务总量。预测结果见图2。作为参照方法，分别选取GM(1,1)、ARMA、BP神经网络和SVM几种常用方法做同样的预测，结果见表1。

由表1可见，GM-CBS和GM预测精度高且预测时间短，而SVM耗时短但精度差；其余方法则精度相对不高，耗时也多，不适合短期预测。

表1 邮电业务总量的预测结果比较Table 1 The comparison among the forecasts of the business of Posts and Telecommunications based on different methods (100 million ￥)

2.2 含有异常值数据

利用CBS-GM可以通过2000—2009年的商品房平均销售价格(元/平米)预测后3年的平均销售价格，预测结果见图3。图中2008年的价格发生了突然下降，可视为异常值。作为参照方法，分别选取了GM(1,1)、ARMA、BP神经网络和SVM几种常用的预测方法，其结果见表2。

图2 邮电业务总量的CBS-GM预测结果Fig.2 The forecast of the business of Posts and Teleco- mmunications based on CBS-GM

图3 商品房平均销售价格的CBS-GM预测Fig.3 The forecast of the average sale price of commercial housing with CBS-GM

表2 商品房平均销售价格的预测结果Table 2 The comparison among the forecasts of the average sale price of commercial housing based on different methods

由表2可见，对于存在异常值的短期预测，虽然GM和SVM的预测时间很短，但精度要逊于效率较高的GM-CBS；其余方法的预测精度和效率都不及GM-CBS。

以上两个实验结果表明，对于普通数据，GM和GM-CBS预测效果较好，但是GM预测在出现异常值时不及GM-CBS，再次说明GM-CBS继承了非参数方法良好的稳健性和适应性，并且预测精度高速度快。

3 结语

本文结合时序数据常用的参数回归和非参数回归方法的特点，提出一种基于B样条系数(CBS)与灰色模型(GM)的组合预测方法CBS-GM，此方法兼有参数和非参数的优点。数值试验表明，此方法具有较高的预测精度和预测速度，适应性强，稳定性高，非常适合做短期预测。

[1] 陈根永,史敬天,毛晓波等.考虑温度积累效应的短期电力负荷预测方法研究[J].电力系统保护与控制,2009,37(16):24-28

[2] 扈文秀,卢时光.用自回归模型预测中国股市未来现金股利水平[J].数理统计与管理,2005,25(4):85-93

[3] 张晓利,陆化普.非参数回归方法在短时交通流预测中的应用[J].清华大学学报：自然科学版,2009,49(9):1471-1475

[4] Hardle W.Applied Nonparametric Regression [M].Berlin:Humboldt University,1994

[5] 叶阿忠.我国通货膨胀的非参数回归模型[J].数理统计与管理,2002,21(1):47-51

[6] 吴喜之,王兆军.非参数统计方法[M].北京：高等教育出版社,1996

[7] 陈希孺.非参数统计教程[M].上海:华东师范大学出版,1993

[8] 孙浩,陈小鸿.基于K-近邻核估计的港口空箱吞吐量预测研究[J].交通与计算机,2008,26(3):86-88