股票指数收益率分布研究

2019-01-04 02:55李静

科技与创新 2018年24期

李静

股票指数收益率分布研究

李静

（同济大学经济与管理学院，上海 201804）

分析了沪深300指数从2005-01-04—2018-04-13的价格数据，发现其日收益率分布具有左偏、尖峰厚尾的特征，不满足正态分布；用高斯混合分布对沪深300指数日收益率进行拟合，并用基于BIC指标的EM算法求解混合分布参数，结果表明，高斯混合分布可以很好地捕捉到指数收益率的分布特征。

股指收益率；正态性检验；高斯混合分布；EM算法

金融资产收益率分布在现代风险管理理论中具有十分重要的作用。20世纪50年代以前，人们对金融资产风险的判断主要是通过定性分析，具有较强的主观性；20世纪80年代之后，金融风险度量方法进入了蓬勃发展的阶段，相继产生了Value at Risk（VaR）、Conditional Value at Risk（CVaR）、Coherent Risk Measure等风险度量方法及理论，其中，VaR和CVaR在行业中的应用最为普遍。

在求VaR或CVaR的解析解时，需要对金融资产收益率的分布形式进行假设，通常假定其服从正态分布。但Mandelbrot（1963）研究发现，金融资产的收益率具有异方差性，并不服从正态分布[1]。李萌、叶俊（2003）研究证明了上证指数和深证成分指数收益率也存在异方差现象，不满足正态分布[2]。既然正态分布无法完全描述金融资产收益率的分布特征，则可以考虑使用高斯混合分布来代替正态分布。袁礼海、李钊等（2007）证明了有限高斯混合分布可以逼近任意概率分布密度函数[3]。

本文以能够反映中国证券市场股票价格变动概况的沪深300指数为研究对象，对其收益率的分布特征进行了研究。本文内容按照以下方式进行组织：第一部分对数据的描述性统计量进行分析，然后研究了其是否满足正态分布；第二部分用高斯混合分布对指数收益率进行拟合，并用基于BIC指标的EM算法求解混合分布参数，然后检验混合分布的拟合效果；第三部分对整篇文章进行了总结。

1 正态性检验

本文以沪深300指数收益率为研究对象，对其分布形式进行了研究。这里的收益率是指以连续复利的方式计算求得的日收益率，即：

t=100*log（t/t－1）. （1）

式（1）中：t为第天股票指数的收益率；t为第天股票指数的收盘价格。

因为沪深300指数的基日为2004-12-31，所以，选定的计算期为2005-01-04—2018-04-13.

从表1中可以看出，此次研究的样本容量为3 225；股指收益率的偏度为－0.529 2，呈负偏态，说明出现较大的负收益率的概率相比于出现较大的正收益率的概率会更大；股指收益率的峰度为6.779 0，大于正态分布的峰度3，具有尖峰厚尾的特征。

基于以上分析，有理由相信沪深300股指收益率并非服从正态分布。以下用几种方法对沪深300指数是否服从正态分布进行了检验。

表1 沪深300股指收益率描述性统计量

样本容量最小值最大值均值方差偏度峰度 3 225－9.694 98.931 00.042 51.772 1－0.529 26.779 0

1.1 统计图正态性检验

图1是沪深300指数收益率的分布直方图，图中的曲线为正态分布概率密度函数，其均值和方差分别为用样本数据估计的均值和方差，即：

从图1中可以看出，样本数据的分布具有较为明显的尖峰、尾厚特征。图2是用样本数据绘制的Q-Q Plot正态检验图，图的横坐标为正态分布理论分位数，图的纵坐标为样本数据分位数。如果样本数据满足正态分布，则散点的分布应大致成一条直线，并分布在图中直线的附近。但从图2可以看出，散点的分布并非成一条直线，且与图中的直线存在较大的偏离，由此可见样本数据不满足正态分布。

图2 Q-Q Plot正态检验图

1.2 统计量正态性检验

用三种常用的统计量正态性检验方法对样本数据进行正态性检验，检验结果如表2所示。Kolmogorov-Smirnov（K-S）检验是一种基于经验分布函数的检验方法，通过将样本数据的经验分布与正态分布相比较，判断样本数据是否满足正态分布。Shapiro-Wilk（S-W）检验是一种专门用于正态性检验的方法，当样本容量较小时较多采用。Jarque-Bera（J-B）检验是一种偏度峰度联合检验方法，即检验样本数据的偏度和峰度是否均满足正态分布情况下的要求。限于篇幅，本文仅对几种统计量正态性检验方法进行简单概述，具体原理及适用情况请参考马兴华、张晋昕（2014）所著的文献[4]。

进行检验时可以根据具体问题的需要设定显著性水平，如果想减少第一类错误，可以将定的小一些；如果想减少第二类错误，可以将定的大一些。在此处，令=0.05.从表2中可以看出，各类检验方法的值均小于0.05，所以可以认为，沪深300股指收益率不服从正态分布。

表2 统计量正态性检验表

检验类型K-S检验S-W检验J-B检验统计量值0.089 40.940 12 069.558 1 p-value2.2e－162.2e－162.2e－16

2 高斯混合分布拟合收益率

2.1 高斯混合分布

混合分布模型最早可追溯至1886年Newcomb对生物性状的研究，其主要用于对一组样本进行分类，或是拟合样本未知的概率密度函数。因为高斯分布的密度函数形式简单，只由均值和方差两个参数控制，但混合后又具有很高的灵活性，而且存在大量的相关文献可以参考，所以选择用高斯混合分布对沪深300指数收益率的密度函数进行拟合。高斯混合分布的密度函数如下：

2.2 EM算法

EM（Expectation Maximization）算法是一种迭代优化算法，主要有2种应用：①在有数据缺失的情况下估计概率模型的参数；②在似然函数不能求导或导数求解比较复杂的情况下估计概率模型的参数[5]。该算法将随机变量的一组观测看作是不完全数据，引入隐含变量，使与一起形成完全数据，以解决在进行最大似然估计时存在数据缺失或似然函数导数求解困难的问题。算法每次迭代由两步组成：

虽然EM算法能够求解混合模型中各个未知参数的值，但却需要提前指定模型中所含成分的数量，即的值。当指定的成分数量过多时，可能造成算法不收敛、过度拟合等问题，但如果指定的成分数量过少，又不能很好地捕捉样本数据的分布特征。

为了解决模型成分数量选择问题，在EM算法中加入贝叶斯信息准则（Bayesian Information Criterion）[7]，贝叶斯信息准则（BIC）的形式为：

给定混合分布成分数的最大取值max，分别计算当=1，2，3，…，max时的BIC值，取BIC最大时的值作为混合模型最优成分数量。一系列基于BIC值进行模型选择的应用均给出了很好的结果，Fraley、Raftery（2002）的研究中给出了一系列可参考的相关文献。

在R语言中用基于BIC的EM算法求解高斯混合分布的参数，算法给出的高斯混合分布最优成分数量是3，即沪深300指数收益率的分布可以用3个正态分布的混合来拟合，各个成分的混合概率、均值、方差如表3所示。

表3 高斯混合分布参数

成分混合概率均值方差 10.184 0－0.595 09.912 6 20.279 80.044 90.285 5 30.536 20.260 12.116 4

因为成分数量为3，所以可将样本数据分为3类，从各成分均值上可以看出，成分1，2，3分别捕捉了收益率均值为负、0、正的样本数据的分布特征，收益率均值为负的样本数据的方差最大，均值的绝对值也最大。根据表3中的参数便可写出混合分布的密度函数，从而可以得到任意收益率出现的概率以及对沪深300指数进行风险度量（比如计算VaR、ES等）。

图3是在样本数据分布直方图的基础上绘制的高斯混合分布密度函数曲线，从图3中可以看出，相对于正态分布，高斯混合分布很好地捕捉到了样本数据的分布特征。图4是累积分布函数诊断图，黑色实线是高斯混合分布的累计分布函数曲线，灰色虚线是样本数据经验累计分布函数曲线，两条曲线几乎完全重合，即高斯混合分布对样本数据进行了非常好的拟合。

图3 混合分布密度曲线图

图4 累计分布函数诊断图

3 总结

本文以沪深300指数为研究对象，对其日收益率的分布形式进行了研究，对收益率的正态性进行了检验，发现沪深300指数的收益率不服从正态分布；用高斯混合分布对股指收益率进行拟合，最终结果表明，高斯混合分布可以很好地捕捉沪深300股指收益率的分布特征。

此研究结果的意义在于：①验证了股票指数收益率的分布不满足正态分布；②证明了用高斯混合分布可以很好地描述股票指数收益率的分布特征；③为度量金融资产的风险提供了一种更好的描述金融资产收益率分布的工具。沪深300股指收益率的分布具有左偏、尖峰厚尾的特征，如果假设其服从正态分布并对其进行风险度量，则会低估其存在的风险。而以高斯混合分布为基础计算其风险值，可以更加精确地度量其存在的风险，不仅可以降低投资者的损失，还有助与维持金融体系的稳定。

［1］Mandelbrot B.The Variation of Certain Speculative Prices［J］.Journal of Business，1963，36（04）：394-419.

［2］李萌，叶俊.中国股票市场风险的实证分析研究［J］.数理统计与管理，2003，22（04）：12-17.

［3］袁礼海，李钊，宋建社.利用高斯混合模型实现概率密度函数逼近［J］.无线电通讯技术，2007，33（02）：20-22.

［4］马兴华，张晋昕.数值变量正态性检验常用方法的对比［J］.循证医学，2014，14（02）：123-128.

［5］BILMES J A. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models［R］.Berkeley California USA：International Computer Science Institute，1998.

［6］张宏东.EM算法及其应用［D］.济南：山东大学金融研究院，2014.

［7］FRALEY C，RAFTERY A E. Model-Based Clustering，Discriminant Analysis，and Density Estimation［J］.Journal of the American Statistical Association，2002，97（458）：611-631.

2095－6835（2018）24－0059－03

F224

10.15913/j.cnki.kjycx.2018.24.059

〔编辑：张思楠〕