基于模式识别的“高送转”预测模型

2017-04-27 00:59石好邢小艳
时代金融 2016年35期
关键词:主成分分析

石好+邢小艳

【摘要】近年来高送转题材受到投资者的追捧,但是对高送转股票的预测模型多采用主观性较强的打分排序法。本文深入分析了各主要因素对高送转行为的影响程度,采用Logistic回归与主成分分析相结合的方法,构建了年报高送转股票的预测模型,并用2009~2015年高送转股票样本数据对模型进行了验证。实证结果显示,模型正确率在55%以上,预测准确度最高可达80.91%。

【关键词】高送转 logistic回归 主成分分析

一、引言

高送转股票(简称—高送转)是高比例送股或高比例转股的统称。一般10股送转合计5股(包括5股)以上才为高送转。

对投资者而言,实施高送转被看作重大利好消息,如果能够提前介入市场,在分享除权前的超额收益的同时,也可从除权后的填权行情中获利。因此,为了赚取尽可能高的超额收益,如何准确预测可能实施高送转的公司就成为关键。

本文尝试主成分分析与logistic回归相结合的方法构建高送转预测模型,该方法既避免了市场上常用的打分排序法在指标选取和权重分配上的主观性,又通过降维解决了多元回归中的多重共线性问题,还可以比较各个主要因素对高送转行为的影响程度,并对未来实施高送转的概率进行直接估计。因此,从方法的科学性和严谨性角度,本文的研究方法更具优势。

二、研究设计

(一)主成分分析与logistic回归原理

主成分分析,它通过变量变换的方法把相关的变量变为若干不相关的综合指标变量[4],从而实现对数据集的降维,使得问题得以简化。

逻辑回归模型是一个非线性模型[5],但是它本质上又是一个线性回归模型,是二项分类因变量常用的统计分析方法。

(二)影响高送转实施的主要因素

对高送转行为进行量化,变量名为gsz,如果公司实施了高送转,gsz=1;否则,gsz=0。影响上市公司实施高送转的因素有很多,包括市场环境、财务状态、股价表现和监管层政策等。经研究验证后,本文选取因素如下:每股净资产(mgjzc)、每股资本公积金(mgzbgj)、每股未分利润(mgwflr)、每股现金净流量(mgxjjll)、上市时间(years)、股价(price)、股本(gb)。

(三)高送转预测模型的构建

在线性回归模型中,若解释变量之间存在精确相关关系或高度相关关系,会导致模型估计失真,所以本文采用主成分分析法消除自变量之间的共线性性,以便使模型更加准确。

首先对上文所述自变量提取主成分,具体形式如下:

其中式中ln(.)为自然对数,pi是第i个样本实施高送转的概率。β0,β1,…,βs是回归系数,εi为随机扰动项。

然后利用pi的大小来判断样本股票是否发生高送转。若pi>0.5,则认为该样本股票实施高送转,gsz=1;否则,该样本股票不实施高送转,gsz=0。

三、数据来源与处理

(一)数据选取

本文拟选取了2009~2015年间所有A股为样本。上市公司的利润分配方案包括中期方案和年度方案,从历年情况来看,中期方案的高送转股票较少,本文只考虑年度方案。基于T年年报做出的送转方案,其对应的高送转实施年份一般在T+1年中期,即存在财务年份和实施年份的区别,本文统一选取实施年份为高送转年份,即,基于T年年报在T+1年实施的高送转行为定义为T+1年高送转。

假定在T年年末预测T+1年实施高送转的股票,因为此时T年年报未出,为了保持建模与预测一致性,每股净资产等财务数据统一选取T年三季报数据,股价等非财务数据统一选取T年最后一个交易日数据。本文数据均来源于TinySoft金融数据库。

(二)数据处理

为了消除由于计量单位和数量级不同对回归模型产生的影响,本文对变量进行了Z值标准化的去量纲处理。

(三)统计量描述

我们把2009~2015年股票按照是否实施高送转分为两组,分别考察每年每股净资产、每股资本公积等因子的差异情况,发现各指标存在显著差异性,表明这些指标对高送转行情是有一定识别作用。

四、实证分析

本文以2015年高送转股票的预测为例,来实证上述模型的有效性,即用2014年高送转股票数据预判2015年高送转股票,其它年份方法类似。

(一)主要变量相关性分析

我们考察了2014年A股股票各变量之间的相关系数,发现每股净资产与每股资本公积、每股净资产与每股未分配利润之间相关性较高,为了使模型结果更加准确,本文通过主成分分析法提取主成分来有效避免多重共线性。

(二)主成分提取

首先对样本进行主成分分析,我们选择七个变量为主成分分析的对象,分析结果见表1:

如表1所示,前5个主成分的累计贡献率为92.68%,说明前5个主成分已经反映原来7个指标92.68%的信息,因此确定选择前5个主成分建立模型。可以根据系数矩阵B,可以给出主成分的表达式:

(F1,F2,F3,F4,F5)=(mgjzc,mgzbgj,mgwflr,mgxjjll,years,price,gb)*B (1)

(三)模型建立

对2014年高送转股票的logistic模型,运用SAS9.3对模型参数进行极大似然估计,得到模型估计结果发现:变量F4的p值为0.1849,即使在显著性水平为0.1的情况下也不显著,即F4对gsz(是否高送转)并无显著影响。因此,我们可将F4从模型中剔除,重新建立Logistic回归模型。

运用SAS9.3对模型参数进行估计,得到模型整体检验结果中似然比、评分及Wald的p值都<0.0001,另外,模型回归系数检验结果如表2:

由表2可知,在0.05的显著水平下,F1、F2、F3和F5对gsz(是否高送转)具有显著影响。根据表2中的参数估计值,我们可以把2014年高送转的logistic回归模型改写为:

则股票发生高送转的概率为:

(四)模型结果

将股票数据代入模型中,可预测出2015年A股股票发生高送转事件的概率,若p>=0.5则認为该只股票实施了高送转,否则不实施。预测出147只股票会发生高送转,与2015年真实实施高送转股票对比,准确率达62.80%.

为了模型稳健性,下面采用同样的方法对2010~2014的高送转股票进行预测,预测准确率分别为69.77%、80.91%、66.10%、56.94%、55%。

可以看出本文模型对高送转股票的预测准确率维持在55%以上,其中2011年的准确率高达80.91%。

五、结论

每股净资产、每股资本公积、每股未分配利润、每股现金净流量和股价对公司实施高送转具有显著的正面作用,这意味着这些变量越高,公司实施高送转的概率越大。上市年限和股本对公司实施高送转具有显著的负作用,意味着这两变量越高,公司实施高送转概率越小。

作者简介:石好(1989-),女,汉族,湖北黄石人,就读于华南理工大学,研究方向:随机分析与金融工程;邢小艳(1989-),女,汉族,河南人,毕业于于华南理工大学,研究方向:随机分析与金融工程。

猜你喜欢
主成分分析
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用