基于区间型数据的金融时间序列预测研究*

2017-01-20 11:16威韩艾汪寿阳
系统工程学报 2016年6期
关键词:高价股票市场低价

杨 威韩 艾汪寿阳

(1.山西大学管理与决策研究所,山西太原030006; 2.中国科学院数学与系统科学研究院,北京100190)

基于区间型数据的金融时间序列预测研究*

杨 威1,2,韩 艾2,汪寿阳2

(1.山西大学管理与决策研究所,山西太原030006; 2.中国科学院数学与系统科学研究院,北京100190)

提出了金融数据预测新方法––区间型时间序列模型,是传统时间序列模型的拓展.在与传统的点值AR模型、VAR模型以及Na¨ıve模型的比较分析中发现,区间数据模型的预测精度更高,区间高价和区间低价预测误差均较小,而且具有统计显著性.进一步,不同的估计样本量、数据频度以及不同市场特征的区间价格数据对区间模型的稳定性检验再次验证了区间数据模型的可靠性.区间型金融时间序列预测研究不仅为金融问题的定量分析提供了新的视角,也可为政策制定和交易策略实施提供了更丰富的决策参考信息.

区间时间序列;区间运算;DK-估计;区间预测

1 引 言

随机游走理论和有效市场假说(effcient market hypothesis,EMH)[1]暗含着仅基于金融资产过去价格信息的交易规则并不能打败简单的买入并持有策略,但这一结论却未得到一致的认可,成为金融领域争论的热点,Ang等[2]对相关的研究结论进行了梳理.技术分析者们认为,与消极被动的接收金融市场信息相比,积极依靠历史信息能够带来更高的收益,且已有大量成果作为其支撑.Brown等[3]和Grundy等[4]研究表明理性投资者能够从历史价格中得到对资产价格交易信号准确的推断.Brock等[5]和Lo等[6]从实证分析的角度发现与买入持有策略相比,由技术交易提供的买入信号能够获得更高的收益且收益波动率较小. Caporin等[7]利用序列协整和长记忆特征建立了金融资产高价和低价过程的分数向量误差修正模型,实证结果表明历史高、低价格可以为价格预测提供有价值的信息,而且通过高价和低价设定的买卖信号可以改进一般技术交易分析策略的效果.可见,对于金融资产历史价格序列的建模、预测研究具有很强的应用价值.

然而,Brock等[5]和Lo等[6]的研究是基于传统的单个点值数据序列进行分析的,而Caporin等[7]是利用高价和低价两个点值数据序列构建了向量模型,使用的仍是传统的点值运算法则,而不是通过区间整体运算法则进行的,但其研究视角表明高低价格的同时使用能够提供更多的信息,那么如何利用区间型数据建立高、低价格同时预测的模型成为本文研究的核心问题.针对金融资产区间时间序列的预测问题探讨意义在于:1)将统计建模研究对象从传统的点值数据推广到区间数据,对现有的部分点值数据计量模型进行拓展;2)利用区间数据的丰富信息,以期提高统计推断效率和预测精度;3)金融市场研究中的技术分析、流动性测度以及交易成本等问题依赖金融资产的高价和低价序列[8,9],所以区间数据模型预测精度的提高更有助于拓广区间数据模型在金融问题探讨中的应用范围.本文以区间数据为切入点,尝试针对区间数据建模并进行区间时间序列预测研究,通过不同模型方法的区间预测精度的比较分析,探究区间数据的建模方法在金融资产高、低价格预测方面的优势特征,基此为投资者交易分析提供更加精准的参考信息.

计量经济分析基于可观测或可得样本数据建立统计模型,对生成样本的概率总体进行统计推断并进行样本外预测,广泛应用于经济和金融市场现象的解释、经济和金融假说的检验、重要变量的预测预警等,为政府部门和相关行业、企业提供决策依据.传统计量模型基于点值随机变量通过回归分析寻求较为准确的因果关系以及有效的预测,但模型中所涉及的随机元是点值变量,其仅能反映变量的水平或者波动单方面的信息,无法两者兼得,破解这一困惑的一个有效方法是区间数据的选择.区间数据广泛存在于经济、金融和社会生活中,可以通过下限和上限来刻画变量的变化范围,将所有具体的数字包含于这个范围之内,不仅包含丰富的信息优势,对经济决策制定而言,区间预测比点值预测能够提供更加丰富的参考信息.

区间数据的研究始于Moore[10]提出的区间分析,通过将一系列数据作为区间来处理,以解决数学模型中变量不确定取值的问题,使得计算结果更加准确.区间数据较点值数据在处理不完全信息上的优势,使其不仅在数值分析中得到广泛的应用[11,12],在经济金融领域中也逐渐被采用[13-15].与点值数据相比,区间数据所含的信息量较大,不仅包含了最大值和最小值,还能够刻画变量取值的不确定性和可变化性.区间数据建模方法虽然种类繁多,但是多数研究都是从区间数据点值属性分析、区间运算下的简单区间回归分析以及预测等角度入手.鉴于区间可以由中点和极差(或上界和下界)唯一确定,一类代表性的区间数据建模方法是采用传统的二维变量统计方法针对区间数据的中点和极差建立联立模型,其核心思想分为两大类:一类是将区间数据的生成机制看成是中点和极差两个独立的点值过程并分别建模[16-19];另一类则认为上述两个点值过程相互影响,其数学表达是在各自回归式中引入另一变量的滞后项,建立关于中点和极差的二维向量自回归(VAR)模型[20].尽管如此,这些二维统计推断模型依旧是在传统的点值随机变量框架下进行研究,并不能从计量经济分析角度给出相关区间数据模型参数估计的统计性质、假设检验以及对应的经济解释,但是区间数据计量模型研究的总体却是区间取值的随机变量.

基于区间数据点值属性(上界、下界、中点和极差)来分析区间数据回归问题已经有许多相关研究方法[16-19].Billard等[16]引入依赖中心趋势和分散测度方法来研究区间数据的回归问题.具体来讲, Billard等[16]提出利用中点方法(center method,CM)来拟合区间数据回归模型,基于区间中点建立点值回归模型,然后将所得到的回归系数分别应用于区间的上界和下界得到对应的区间.但是,该研究结论是基于区间中的点是服从均匀分布的.Billard等[17]提出了最小最大方法(min-max method),通过区间的上界和下界分别建立回归模型进行区间拟合和预测.Neto等[18]提出了中点与极差方法(center and range method,CRM)来研究区间数据的回归问题,在CM方法基础上又考虑了区间极差信息,通过区间中点和区间极差分别建立对应的回归模型,再依据区间生成方式给出区间上界和下界且在一定程度上要比Billard等[16,17]更加有效.李汶华等[21]基于误差传递理论提出了区间符号数据的回归方法.然而,上述方法均不能够保证模型本身暗含的假设条件,即预测区间下界要小于等于区间上界.为了保证合理的区间结构,Neto等[19]提出带有限制条件的区间回归模型(CCRM),通过对区间极差方程系数施加一定的约束条件确保预测区间结构的一致性.但这种通过区间中点和极差点值属性来对区间进行建模的方法仍然存在问题.正如Gil等[22]所指出,利用区间点值属性建立回归模型进行分析是一种很直观的研究思路,但是研究区间极差属性或者区间中点和极差属性相关性的回归模型必须考虑一些很重要的限制条件.因此,这些线性回归模型参数估计的最优解不能简单的依靠已有的最小二乘估计来获得,而是要通过带有约束的最优化求解过程并以此保证参数估计的一致性.

基于区间运算法则建立的区间线性回归模型可以有效解决Gil等[22]所提出的基于区间点值属性研究区间回归问题中所遇到的困难,其参数估计通常采用区间最小二乘(interval least squares,ILS)估计方法[23-27].对于区间时间序列的研究,现有方法多数利用区间点值属性(上界,下界,中点和极差)序列来建模和预测[28-30],或者针对区间点值属性分别构建时间序列模型,或者构建二元向量自回归模型,但均不是以区间样本总体为研究对象.Han等[31]从区间样本总体出发,首次提出了针对区间时间序列数据构建自回归模型(autoregressive conditional interval model,ACI)的研究框架,延拓了区间定义和区间运算法则,给出了模型参数估计的方法以及参数估计量的渐进有效性.与已有的区间数据研究方法相比,ACI模型能够直接针对区间型数据建模来捕捉区间过程的动态特征,且其最小DK–区间距离估计方法能够给出更加有效的参数估计.进一步,在区间模型实证分析应用中,Yang等[32]提出了区间虚拟变量,并且将虚拟变量与区间数据模型相结合,给出了能够度量危机事件对区间数据过程影响的模型框架以及参数的经济解释;Yang等[33]利用区间数据模型从水平收益和极差波动两方面实证分析了美国次贷危机前后原油市场与美国股票市场相互作用的变化特征.在区间模型预测应用中,Yang等[34]基于区间数据模型和点值自回归AR模型分别对金融资产价格极差进行预测,发现了区间数据模型对极差波动的预测优势.基于区间运算法则,本文构建了相应的区间时间序列模型,比较分析区间数据模型与点值数据模型的区间预测表现,并通过误差分析和统计检验分析区间数据模型的预测优势,基此为金融时间序列建模提供一个新的研究视角.

2 区间时间序列预测模型

区间时间序列是金融资产最高价和最低价构成的一系列区间,针对区间序列的预测研究从两个视角进行,一是利用区间运算法则构建区间自回归模型进行区间预测,二是利用点值运算对金融价格区间的最高价和最低价时间序列分别构建自回归模型或者向量自回归模型进行区间预测.

2.1 区间随机变量运算法则

设Kc(R)为R中的非空紧区间构成的集合,且Kc(R)中赋予某种加法和数乘运算,即对于任意的A,B∈Kc(R),有A+B和λA.在不同的区间运算假设下,由于缺少对称区间元素使得[Kc(R),+,·]不能够成为一个线性空间[22].为此,学者们引入了Hukuhara差分(Hukuhara difference)概念,其形式定义为对任意的A,B∈Kc(R),Hukuhara差分C=A-HB满足

给定概率空间(Ω,A,P),映射X∶Ω→Kc(R)如果满足A|Bd*–可测性,则称为相应于(Ω,A,P)的区间随机变量,其中d*是Kc(R)中的距离测度,Bd*表示Kc(R)上由d*诱导的σ–域.

为了针对区间数据模型建立相应的估计方法,首先需要明确区间距离函数d*(·,·)的具体形式.比较直观的区间距离度量方式是Hausdorff距离,随后这种区间距离度量从不同角度得到了推广,例如dW–距离,dθ–距离和DK–距离等[25-27].其中DK–距离具有如下最为一般化的形式,且用‖·‖K表示区间相应于核函数K的L2–距离

对任意的A,B∈Kc(R),K是一个是半正定对称矩阵.函数s是从空间Kc(R)到Hilbert空间中闭凸锥[C(S0),‖·‖K]的一个等距映射.如果用〈·,·〉K表示对应的内积,那么有

2.2 基于区间数据运算的预测模型

基于区间数据运算法则,本文将从区间过程的短期和长期作用分别构建区间时间序列自回归模型.当考虑金融资产区间价格过程的短期动态作用时,可构建如下区间自回归模型

其中α0,β0,βi,i=1,2,...,p均为待估参数;I0=[-0.5,0.5]是常值单位区间;α0+β0I0=[α0-β0/2,α0+β0/2]是区间截距项;PSt=[PSLt,PSHt]是金融资产区间价格过程;Δ表示区间价格过程的Hukuhara差分;ut=[uLt,uHt]是相对信息集It-1的区间鞅差分序列过程并且满足E[ut|It-1]=[0,0]几乎处处成立.

上述区间数据模型的优势在于其不仅能够充分利用数据信息进行更加有效的参数估计,而且可以从区间数据模型中得到一些点值过程模型.例如,如果对于区间数据的两个边界过程感兴趣,即金融资产的最低价格序列和最高价格序列,那么可以通过区间运算获得如下参数模型

基于此区间数据模型预测的区间高价和低价分别记为ACIH和ACIL.类似的,如果感兴趣的是区间价格极差过程,那么通过区间最低价格和最高价格可以得到如下价格极差的参数模型

当考虑将区间高价信息和低价信息分别引入到区间低价和高价预测中时,可以考虑在式(4)的区间数据模型结构中引入一个新的区间变量

当同时考虑金融资产区间价格过程的短期和长期动态作用时,可以对区间价格时间序列过程设定如下的区间自回归模型

其中γ0是相应于区间误差修正项ECSt-1的待估参数,其构建形式是依据Johansen协整检验可获得的低价PSLt和高价PSHt之间的误差修正项对资产价格未来走势含有重要的预测信息,结构表达与Yang等[32,33]类似.

对于上述区间数据模型的参数估计,将采用Han等[31]所提出的两阶段最小DK-距离估计方法.假设区间数据回归模型的参数向量为φ,那么最小DK-距离估计量为

2.3 基于点值数据运算的预测模型

Na¨ıve模型.Na¨ıve模型是区间鞅序列的一个简单形式,其可以被看做为点值鞅序列或者点值随机游走的区间版本.通过点值鞅序列或者随机游走的研究可以发现,Na¨ıve模型对时间序列样本外预测有一定的优势,所以很直观的想法就是利用区间版本的Na¨ıve模型来预测区间时间序列过程.为了获得金融资产区间价格过程的高价和低价预测,假设随机区间过程服从于鞅序列或者随机游走过程,那么在时刻t时可以获得的所有信息It条件下,区间过程在时刻t+1时的预测区间值等于时刻t时的真实区间值,即基于此模型预测的区间高价和低价分别记为NAIVEH和NAIVEL,该方法的预测结果将被作为其他各种预测模型表现的比较基准.

AR模型.在点值时间序列预测研究中,经常用到的方法是自回归滑动平均(autoregressive integrated moving average,ARIMA)模型,其中自回归AR模型是ARIMA模型的一种特殊情况,其是利用时间序列的历史值来预测未来值.标准的自回归AR模型结构如下

其中yt表示时间序列在时刻t的取值;αi,i=1,2,...,p为模型待估参数;模型AR(p)中的参数p表示自回归模型的滞后阶数.

针对区间数据,如果要预测区间的两个边界,即区间高价和区间低价,那么可以分别对区间高价序列和区间低价序列建立下述自回归模型

值得注意的是,区间高价和区间低价各自的AR(p)模型容许采用不同的回归系数,其参数估计过程中不会同时利用高价和低价的信息,而这也正是该预测模型与上述介绍的直接针对区间数据建模方法的不同之处.基于此模型预测的区间高价和低价分别记为ARH和ARL.

VAR模型.向量自回归(vector autoregressive,VAR)模型是一般自回归模型在多变量情形下的推广.对于K个变量的VAR(p)模型可以写成如下形式

其中K×1向量εt为白噪声误差随机变量且满足独立同分布假设.C是K×1常数向量,Yt是K维平稳时间序列向量,算子φp(B)=φ1B+φ2B2+···+φpBp是p阶自回归矩阵多项式且后移算子,BjYt=Yt-j.本文将考虑针对区间高价和区间低价的二元系统,其在估计参数过程中可以考虑高价和低价之间的相关性.尽管如此,该方法假设高价和低价方程可以容许不同的系数,因此与本文给出的区间模型相比,该方法不够简约.一般的,针对金融资产高价和低价过程的二元VAR(p)模型可以表示成如下形式

其中PYt=(PSHt,PSLt)T,µ,Γi,i=1,2,...,p是未知待估参数矩阵,εt是二元扰动误差项.基于此模型预测的区间高价和低价分别记为VARH和VARL.

3 区间预测精度判别准则

对于金融资产高价序列和低价序列的预测,可以通过上述的Na¨ıve模型,AR模型,VAR模型和区间模型方法来实现.不同模型的预测表现比较可以通过以下两种判别准则来进行.

首先,因为关注金融资产价格区间的预测精度,所以会考虑平均绝对误差(mean absolute deviation, MAD)和均方误差(mean squared error,MSE)这两个常用的误差判断准则.令{PAt}为观测到的区间属性变量而为相应的预测值,t=1,2,...,T,那么可将MAD和MSE定义为

这里的PAt可以代表任意的区间属性变量(诸如区间边界、区间极差等).一般而言,较小的MAD和MSE表示相应模型的预测精度较优.

其次,为了进一步确定不同模型的区间预测精度优势的显著性,可以用修正的Diebold-Mariano检验方法(modifed Diebold-Mariano,MDM)[35-36].MDM检验的优势在于可以用于一步预测和多步预测精度的检验.令eit和ejt分别表示由模型i和模型j所得到的预测误差,平方预测误差定义为

基于两种预测误差测度MAD和MSE,在原假设两个待比较预测模型的误差没有差异性下,可以通过MDM方法进行检验.对于MDM检验中的记号模型1/模型2而言,显著负的MDM检验统计量表示模型1产生的预测误差MAD或者MSE要显著的比模型2产生的预测误差要小,其中模型1和模型2可以分别取Na¨ıve模型,AR模型,VAR模型和ACI区间模型.

4 区间预测模型实证比较分析

为了进一步说明区间数据模型在区间预测方面的优势.本文将基于美国股票市场和中国股票市场中主要的价格指数区间时间序列过程,对比分析不同模型区间预测精度,在金融资产价格区间低价和高价序列预测值的MAD和MSE进行比较分析的基础上,利用MDM方法进行统计检验,提供更有力的支撑.

4.1 数据描述和基本统计分析

在预测精度比较中,以美国股票市场中的标普500指数(S&P500)、道琼斯工业指数(DJIA)、纳斯达克指数(NASDAQ)为对象,采用每支股指最低价(PSLt)和最高价(PSHt)的日度对数价格数据形式,样本期为2003–01–03–2012–12–31.由于美国股票市场和中国股票市场的特征存在很大差异,所以为了保证不同模型区间预测比较结果具有稳定性,本文还将基于中国股票市场数据进一步比较不同模型对金融区间时间序列的预测精度,采用中国股票市场中的上证综指(SHCI)和深证成指(SZCI).上证综指(SHCI)和深证成指(SZCI)样本期为2005–01–04–2012–12–31.用PSt=[PSLt,PSHt]表示相关的金融资产区间价格过程, PSRt表示区间价格过程的极差变量,全部数据样本来自万得(Wind)数据库,基本统计量见表1和表2.

表1 美国股票市场区间价格指数变量的基本统计分析Table 1 Statistical analysis of interval price index variables in the U.S.stock market

表1给出了美国股票市场指数区间价格过程的高价、低价和价格极差的基本统计分析.对于美国股票市场中的S&P500指数、DJIA指数和NASDAQ指数而言:1)区间高价和区间低价变量在标准差、偏度和峰度方面有较为相似的特征;2)区间价格极差变量(日内波动)的峰度特征与区间高价差分(日间波动)和区间低价差分(日间波动)有很大不同;3)各个变量的JB统计量值很大,且对应的P值为0,表明从全样本来看这些区间点值属性变量不服从正态分布.类似的,表2中给出的中国股票市场指数区间价格过程的基本统计分析表明,与美国股票市场不同,上证综指和深证成指区间价格极差变量(日内波动)的峰度特征与区间高价差分(日间波动)和区间低价差分(日间波动)序列的峰度特征比较相似.进一步,以美国股票市场中的S&P 500指数和中国股票市场中的上证综指为代表,通过趋势图来观察不同区间属性变量和不同市场指数之间的差异,见图1和图2.

图1和图2表明无论是美国股票市场还是中国股票市场,区间高价和区间低价的走势特征非常相似.从日内价格极差(PSR)走势和日间价格变化(DPSH和DPSL)走势可以看出,中国股票市场较美国股票市场波动更加剧烈.美国股票市场日内价格极差波动大部分时间相对稳定,而中国股票市场的日内价格极差波动剧烈.此外,美国股票市场和中国股票市场在美国次贷金融危机之后的走势特征也有很大差异.因此,中国股票市场和美国股票市场的特征差异性为不同金融市场区间价格预测的稳定性检验提供了可能.

表2 中国股票市场区间价格指数变量的基本统计分析Table 2 Statistical analysis of interval price index variables in the Chinese stock market

图1 美国股票市场中S&P 500指数各个区间属性变量趋势Fig.1 Each interval attribute variable trend of S&P 500 index in the U.S.stock market

4.2 实证分析中预测比较方案设计

金融资产区间高价和区间低价的预测将考虑以下情形:

(a)区间数据的Na¨ıve预测模型(NAIVEH和NAIVEL);(b)区间高价和区间低价各自的AR预测模型(ARH和ARL);(c)区间高价和区间低价的VAR预测模型(VARH和VARL);(d)基于区间运算的ACI模型(ACIH和ACIL).

这里有几点特别值得注意的地方:1)Na¨ıve预测模型为研究其他模型的预测表现提供了一个基准.2)利用区间高价和区间低价分别建立各自的AR预测模型,可以得到区间高价和区间低价的预测值.然而,该种预测方法并不考虑区间高价和区间低价之间的相关关系.因此,将该种预测方法得到的预测值与VAR模型和ACI模型的预测值进行比较,可以分析区间高价和区间低价相互作用关系能否帮助提高预测精度.3)基于区间运算的ACI模型在参数估计过程中能够同时利用中点趋势信息和价格极差信息,而VAR模型作为区间高价和区间低价的二元模型系统能够考虑高价和低价之间的相互作用.然而,VAR模型和ACI模型的差异在于,VAR模型中的过多参数可能会导致参数估计的有效性下降以及样本外预测误差增加,所以这两种模型的区间预测精度的比较分析更有意义.

图2 中国股票市场中上证综指各个区间属性变量趋势Fig.2 Each interval attribute variable trend of SHCI index in the Chinese stock market

进一步,由于过度拟合和数据测量偏差的存在使得好的样本内拟合并不能够保证好的样本外预测表现,所以对于不同模型预测效果的比较,拟从样本内预测比较和样本外预测比较两个方面进行.首先将所考虑的区间时间序列分为两部分:测试部分和验证部分,然后所有的预测模型都将通过这两部分数据进行调整和检验.训练部分的数据是用于模型方法的初始化以及参数的调整,而验证部分的数据将用于评价模型的预测效果.

对于不同模型的区间预测表现比较,还将考虑不同的模型阶数p,不同的估计窗口宽度以及不同的数据频度.令记号表示在t时刻获得的h–期后的预测值,其中PA代表所关注的预测对象(例如区间高价或者区间低价).样本外预测值是通过一个动态递归迭代过程产生的,其中在递归的每一步中模型参数都将重新估计,但是不改变预先设定好的模型阶数.当h>1时,各种预测模型右侧变量的真实观测值是不可知的,此时需要由预测值来替代真实值进行下一步的预测.下面小节实证中的预测结果分析主要以样本外一阶预测为主.对模型滞后阶数的选择,首先由于整个估计和预测过程采用样本外滚动方式进行,因此本文利用各个时间序列的偏自相关图(短截尾)以及AIC,SBIC等模型阶数判定准则选取模型阶数为p=3;其次,由于本文提出的区间时间序列模型的变量选择理论还在进一步研究中,为了保证模型预测比较的稳定性,本文从不同阶数(p=1,2,3)分别将区间模型和其他各种模型进行预测比较.

4.3 基于美国股票市场的预测比较结果

对于不同模型的样本内预测比较,采用样本期内模型估计和拟合得到区间高价和低价预测的MAD和MSE,然后计算平均值,具体比较结果见表3.表3表明,基于美国股票市场S&P500指数的VAR预测模型和区间预测模型的样本内区间拟合效果优于随机游走Na¨ıve模型和区间高价、低价各自的AR预测模型.

表4中显著为负的检验统计量结果表明,无论是从样本内区间预测精度MAD还是预测稳定性MSE来看,AR模型要显著优于随机游走Na¨ıve模型,VAR模型和区间ACI模型要显著优于AR模型.对于样本内的ACI区间模型与VAR模型的比较没有显著的结果,故文中没有列出相应的结果.此外,基于美国股票市场DJIA和NASDAQ指数的样本内区间预测有类似比较结果,说明了VAR模型和区间ACI模型的样本内区间预测优势.

表3 基于美国股票市场S&P500指数的样本内区间预测比较Table 3 In-sample interval forecasting comparison based on S&P500 index in the U.S.stock market

表4 基于美国股票市场S&P500指数的样本内区间预测比较检验结果Table 4 The testing results of in-sample interval forecasting comparison based on S&P500 index in the U.S.stock market

为了更加细致区分不同模型的预测精度,文中比较了不同模型的样本外预测效果.基于美国股票市场指数的各种模型方法得到的区间高价和区间低价的预测误差结果见表5和表6,对应的统计检验比较结果见表7.

从表5和表6中不同模型对区间高价和区间低价预测误差MAD和MSE均值结果可以看出,无论是预测偏差还是预测稳定性,区间ACI模型较Na¨ıve模型、高价和低价各自回归的AR模型以及VAR模型都具有预测优势,而且这种预测优势对于美国股票市场中S&P500指数、DJIA指数以及NASDAQ指数都是一致的.这是由于区间ACI模型估计过程中不仅利用了区间高、低价信息,而且还利用了区间价格极差信息,更加丰富的信息有助于区间模型得到准确的统计推断和预测效果.为了进一步比较不同模型预测优势的显著性,本文在表7中给出了关于美国股票市场S&P500指数的样本外区间预测比较的统计检验结果.

从统计检验角度分析,表7中对区间高价和区间低价预测误差MAD和MSE的检验结果说明:1)从MAD检验来看,ACI区间模型的高价和低价预测表现均要显著优于Na¨ıve和AR模型的区间高价和区间低价预测表现.2)从MSE检验来看,除了ACI区间模型高价预测与Na¨ıve模型高价预测相比检验不显著之外,其余的ACI区间模型与Na¨ıve模型和AR模型检验均是显著的,表明ACI区间模型的高价和低价预测稳定性均要显著优于Na¨ıve和AR模型的高价和低价预测稳定性.此外,尽管ACI区间模型与Na¨ıve模型的高价预测相比检验统计量不显著,但是其数值是负的,表明ACI区间模型的高价预测还是有优势的. 3)ACI区间模型与VAR模型的高价和低价预测相比,无论是基于MAD还是基于MSE的检验统计量均为负值,而且对于高价预测MAD的检验是显著的,表明ACI区间模型的高价预测要显著优于VAR模型的高价预测.为了进一步表明ACI区间模型对VAR模型的样本外预测优势,本文以美国次贷金融危机全面爆发时刻(2008年08月)为分割点,将预测样本分成危机前(2003–01–2008–07)与危机后(2008–08–2012–12)两个时间段后分别比较ACI区间模型和VAR模型的样本外预测精度,比较检验结果见表8.

表5 基于美国股票市场S&P500指数的样本外区间预测比较Table 5 Out-of-sample interval forecasting comparison based on S&P500 index in the U.S.stock market

表6 基于美国股票市场DJIA和NASDAQ指数的样本外区间预测比较Table 6 Out-of-sample interval forecasting comparison based on DJIA and NASDAQ indices in the U.S.stock market

从表8中可以看出,在美国次贷金融危机前的样本期(2003–01–2008–07),除了基于MSE的低价预测检验不显著以外,基于MAD和MSE的高价和低价样本外预测检验结果均表明ACI区间模型较VAR模型有较高的样本外预测精度.

综上,区间模型在金融资产区间价格序列预测方面有较为明显的优势.

4.4 稳健性检验

为了检验预测结果的稳健性,考虑多种参数对预测结果的影响,基于美国股票市场指数区间价格数据研究各个模型预测表现的实证研究中,除了基于MAD和MSE基本误差统计量比较分析以外,还利用MDM统计方法检验不同模型预测优势的显著性.此外,由于美国股票市场和中国股票市场在市场发展程度和有效性等方面差异性较大[37],所以本文基于中国股票市场数据进一步比较不同预测模型对金融区间时间序列的预测精度.基于滚动区间预测的结果,逐月计算各个模型区间预测的MAD和MSE,误差结果和检验结果见表9和表10.

表7 基于美国股票市场S&P500指数的样本外区间预测比较检验结果Table 7 The testing results of out-of-sample interval forecasting comparison based on S&P500 index in the U.S.stock market

表8 基于S&P500指数的ACI和VAR模型在美国次贷金融危机前后预测比较检验结果Table 8 The forecasting comparison testing results between ACI and VAR models before and after the U.S.subprime mortgage crisis based on S&P500 index

表9 基于中国股票市场的样本外区间预测比较Table 9 Out-of-sample interval forecasting comparison based on the Chinese stock market

表9从预测误差MAD和MSE两个方面表明ACI区间模型有较好的样本外预测精度.表10中基于中国股票市场数据的统计检验结果表明,ACI区间模型的预测效果是显著的.此外,表11中基于上证综指的ACI和VAR模型在美国次贷金融危机前后预测比较检验结果同样验证了ACI区间模型比VAR模型有较好的样本外预测表现.最后,本文对不同的估计样本窗宽、不同数据频度以及不同模型阶数也进行了相应的模型预测比较分析.多种条件的改变均得到类似的结论,进一步证实了区间数据模型的可靠性.

表10 基于中国股票市场的样本外区间预测比较检验结果Table 10 The testing results of out-of-sample interval forecasting comparison based on the Chinese stock market

表11 基于上证综指的ACI和VAR模型在美国次贷金融危机前后预测比较检验结果Table 11 The forecasting comparison testing results between ACI and VAR models before and after the U.S.subprime mortgage crisis based on SHCI index

5 结束语

传统点值模型的区间预测损失了部分可用信息的预测能力,本文提出了基于金融区间时间序列构建的区间预测模型,并通过实证检验了其预测能力更强.基于美国股票市场和中国股票市场数据与传统的点值AR模型、VAR模型以及Na¨ıve模型比较分析结果显示,区间时间序列预测模型在区间高价和区间低价预测方面有较为明显的优势,而且该优势是具有显著性的.可见,区间时间序列模型不仅能够提供区间高价和低价的预测,而且具有较优的预测表现,是金融数据预测的更好选择.因而,区间数据建模理论与方法有广泛的应用前景,值得进一步深入的研究,诸如细化估计样本特征对区间数据模型预测误差的影响,完善参数估计最优核K的选择理论以及将不同模型的预测优势进行组合等,以此进一步提高区间时间序列的预测精度.

[1]Fama E F.Effcient capital markets:A review of theory and empirical work.Journal of Finance,1970,25(2):383–417.

[2]Ang A,Bekaert G.Stock return predictability:Is it there.Review of Financial Studies,2007,20(3):651–707.

[3]Brown D P,Jennings R H.On technical analysis.Review of Financial Studies,1989,2(4):527–551.

[4]Grundy B,McNichols M.Trade and revelation of information through prices and direct disclosure.Review of Financial Studies, 1989,2(4):495–526.

[5]Brock W,Lakonishok J,LeBaron B.Simple technical trading rules and the stochastic properties of stock returns.Journal of Finance, 1992,47(5):1731–1764.

[6]Lo A W,Mamaysky H,Wang J.Foundations of technical analysis:Computational algorithms,statistical inference,and empirical implementation.Journal of Finance,2000,55(4):1705–1765.

[7]Caporin M,Ranaldo A,de Magistris P S.On the predictability of stock prices:A case for high and low prices.Journal of Banking &Finance,2013,37(12):5132–5146.

[8]Corwin S A,Shultz P.A simple way to estimate bid-ask spreads from daily high and low prices.Journal of Finance,2012,67(2): 719–759.

[9]Deuskar P,Gupta A,Subrahmanyam M G.Liquidity effect in OTC options markets:Premium or discount.Journal of Financial Markets,2011,14(1):127–160.

[10]Moore R E.Interval Analysis.Englewood Cliffs:Prentice-Hall,1966.

[11]郭均鹏,李汶华.一种区间PCA的效度分析方法.系统工程学报,2009,24(2):226–230. Guo J P,Li W H.Analysis of validity of the PCA for interval data.Journal of Systems Engineering,2009,24(2):226–230.(in Chinese)

[12]郭均鹏,陈 颖,李汶华.一般分布区间型符号数据的K均值聚类方法.管理科学学报,2013,16(3):21–28. Guo J P,Chen Y,Li W H.K-means of clustering of generally distributed interval symbolic data.Journal of Management Science in China,2013,16(3):21–28.(in Chinese)

[13]Jerrell M E.Interval arithmetic for input-output models with inexact data.Computational Economics,1997,10(1):89–100.

[14]Kreinovich V,Longprˊe L,Starks S A,et al.Interval versions of statistical techniques with applications to environmental analysis, bioinformatics,and privacy in statistical databases.Journal of Computational and Applied Mathematics,2007,199(2):418–423.

[15]Moore R E,Kearfott R B,Cloud M J.Introduction to Interval Analysis.Philadelphia:SIAM,2009.

[16]Billard L,Diday E.Regression analysis for interval-valued data//Data Analysis,Classifcation and Related Methods,Proceedings of the Seventh Conference of the International Federation of Classifcation Societies.Belgium:Springer,2000:369–374.

[17]Billard L,Diday E.From the statistics of data to the statistics of knowledge:Symbolic data analysis.Journal of the American Statistical Association,2003,98(462):470–487.

[18]Neto L E A,Carvalho F A T.Center and range method for ftting a linear regression model to symbolic interval data.Computational Statistics and Data Analysis,2008,52(3):1500–1515.

[19]Neto,L E A,Carvalho F A T.Constrained linear regression models for symbolic interval-valued variables.Computational Statistics and Data Analysis,2010,54(2):333–347.

[20]Arroyo J,Espˊınola R,Matˊe C.Different approaches to forecast interval time series:A comparison in fnance.Computational Economics,2011,37(2):169–191.

[21]李汶华,郭均鹏.区间型符号数据回归分析及其应用.管理科学学报,2010,13(4):38–43. Li W H,Guo J P.Methodology and application of regression analysis of interval-type symbolic data.Journal of Management Science in China,2010,13(4):38–43.(in Chinese)

[22]Gil M A,Gonzˊalez-Rodrˊıguez G,Colubi A,et al.Testing linear independence in linear models with interval-valued data.Computational Statistical and Data Analysis,2007,51(6):3002–3015.

[23]Diamond P.Least squares ftting of compact set-valued data.Journal of Mathematical Analysis and Applications,1990,147(2): 351–362.

[24]Gonzˊalez-Rodrˊıguez G,Blanco A,Corral N,et al.Least squares estimation of linear regression models for convex compact random sets.Advances in Data Analysis and Classifcation,2007,1(1):67–81.

[25]Blanco-Fernˊandez A,Corral N,Gonzˊalez-Rodrˊıguez G.Estimation of a fexible simple linear model for interval data based on set arithmetic.Computational Statistical and Data Analysis,2011,55(9):2568–2578.

[26]Sinova B,Colubi A,Gil M A,et al.Interval arithmetic-based simple linear regression between interval data:Discussion and sensitivity analysis on the choice of the metric.Information Sciences,2012,199(9):109–124.

[27]Han A,Lai K K,Wang S Y,et al.An interval method for studying the relationship between the Australian dollar exchange rate and the gold price.Journal of Systems Science and Complexity,2012,25(1):121–132.

[28]Maia,A L S,de Carvalho F A T,Ludermir,T B.Forecasting models for interval-valued time series.Neurocomputing,2008,71(16): 3344–3352.

[29]Garcˊıa-Ascanio C,Matˊe C.Electric power demand forecasting using interval time series:A comparison between VAR and iMLP. Energy Policy,2010,38(2):715–725.

[30]Maia A L S,de Carvalho F A T.Holt’s exponential smoothing and neural network models for forecasting interval-valued time series. International Journal of Forecasting,2011,27(3):740–759.

[31]Han A,Hong Y M,Wang S Y,et al.A vector autoregressive moving average model for interval-valued time series data.Advances in Econometrics,2016,36:417–460.

[32]Yang W,Han A,Cai K,et al.ACIX model with interval dummy variables and its application.Procedia Computer Science,2012, 9(1):1273–1282.

[33]Yang W,Han A,Wang S Y.Analysis of the interaction between crude oil price and US stock market based on interval data.International Journal of Energy and Statistics,2013,1(2):85–98.

[34]Yang W,Han A.A new approach for forecasting the price range with fnancial interval-valued time series data.ASCE-ASME Journal of Risk and Uncertainty in Engineering Systems,2015,1(2):1–8.

[35]Diebold F X,Mariano R S.Comparing predictive accuracy.Journal of Business&Economic Statistics,1995,13(3):253–263.

[36]Harvey D,Leybourne S,Newbold P.Testing the equality of prediction mean squared errors.International Journal of Forecasting, 1997,13(2):281–291.

[37]张晓莉,严广乐.中国股票市场长期记忆特征的实证研究.系统工程学报,2006,22(2):190–194. Zhang X L,Yan G L.Empirical analysis of long-term memory of stock market of China.Journal of Systems Engineering,2006, 22(2):190–194.(in Chinese)

Forecasting research of fnancial time series based on interval data

Yang Wei1,2,Han Ai2,Wang Shouyang2
(1.Institute of Management and Decision,Shanxi University,Taiyuan 030006,China; 2.Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China)

This paper expands the traditional time series models by proposing a new methodology to forecast thefnancialdatabasedontheintervaltimeseriesmodel.Thecomparisonresultsofintervalpredictionaccuracy between the interval model with the traditional point-valued AR model,VAR model,and Naive model indicate that the proposed interval forecasting model has a smaller forecasting error than other models in the intervalbased low and high price forecasting and that this predictive advantage is statistically signifcant.In addition, some stability tests based on different estimating samples,data frequency,and index interval price data in different fnancial markets,prove the reliability of the interval model.This forecasting research of fnancial interval time series not only provides a new perspective for the quantitative analysis of fnancial problems,but also provides more decision reference information for making policies and implementing trading strategies.

interval time series;interval arithmetic;DK-estimator;interval forecasting

F224

A

1000-5781(2016)06-0816-15

10.13383/j.cnki.jse.2016.06.010

杨 威(1982–),男,山西大同人,博士,副教授,研究方向:区间计量分析,金融工程与风险管理,Email:yangwei@sxu.edu.cn;

2016-01-07;

2016-02-29.

国家自然科学基金资助项目(71501115;71201161)和教育部人文社科基金资助项目(14YJC630163).

*第十二届金融系统工程与风险管理年会优秀论文

韩 艾(1983–),女,北京人,博士,助理研究员,研究方向:计量经济分析,金融工程与风险管理,Email:hanai@amss.ac.cn;

汪寿阳(1958–),男,江苏盐城人,博士,研究员,博士生导师,研究方向:金融工程与风险管理,经济预测,物流与供应链管理,Email:sywang@amss.ac.cn.

猜你喜欢
高价股票市场低价
低价≠实惠 吃喝玩乐购,切记避开这些“坑”
高价收青麦作饲料?坚决禁止毁麦!
“傅抱石”为何屡拍高价?
中国股票市场对外开放进入下半场
货币政策与股票市场流动性的互相关关系研究
货币政策与股票市场流动性的互相关关系研究
注重桃的品质,早中晚熟品各搭配 科学种桃 卖出高价
我国股票市场的有效性研究
我国股票市场的有效性研究
基于协整的统计套利在中国股票市场的实证研究