基于集成学习的高送转股票研究

2017-03-31 05:44王凯龙卫江
时代金融 2016年36期
关键词:投资组合

王凯+龙卫江

【摘要】高送转预案公告发布前,高送转股票具有显著的累计正收益,因此预测高送转股票对于投资具有重要意义。高送转股票的预测是分类预测问题,本文利用上市公司三季度财报数据,采用3种集成学习算法:由K-近邻算法、决策树以及加lasso惩罚项的逻辑斯蒂回归算法构建预测模型——“组合”模型,经典的集成学习算法——AdaBoost算法以及随机森林算法进行建模。本文采用准确率以及G-mean作为模型评价标准,结果显示:“组合”模型的准确率最高,随机森林和“组合”模型的G-mean表现相当,均优于adaboost算法。由于每年高送转股票所占比例小于50%,数据可以看成是非平衡数据,为了改善“组合”模型较差的召回率,本文采用K-Means聚类的欠抽样方法,将此方法用在“组合”模型上,效果显著。最后分别对上面三种模型预测的股票构建投资组合,并以HS300指数做基准。结果显示:“组合”模型预测得到的高送转股票组合表现优于另外两种集成学习模型。

【关键词】高送转 集成学习 非平衡数据 投资组合

一、引言

所谓“高送转股票”是指上市公司大比例送红股或大比例以资本公积金转增股票,市场送转股比例超过0.5的股票为“高送转股票”。虽然上市公司送股、转增股票及不影响其当期现金流,也不影响其未来现金流,从而这种分红并不影响公司价值,但高送转事件向市场传递了公司发展良好、行业发展前景乐观的信息,这导致不少投资者盲目的投资具有高送转概念的股票。据文献研究:中国股市具有明显的高送转公告效应,即高送转股票在预案日公布前会出现正的超额收益率[1],陈珠明(2010)通过实证研究发现:高送转股票在预案公告日之前具有显著的超额收益[2],因此,投资者为了在高送转事件中获取更多的超额收益率,在公告前预测高送转股票显得至关重要了。影响上市公司实施高送转的因素有很多,车仲春等人认为高送转股票通常具有高积累、高业绩、高股价和小股本这些特征[3],同时结合市场上一些券商的研究,本文将影响高送转事件的主要因素定为:每股资本公积金、每股未分配利润、每股收益、每股净资产、每股现金净流量、每股营业收入、上市时间以及股价九大因素。因此,投资者将预测高送转事件是否发生视为一个二分类问题,即股票要么“高送转”,要么“不高送转”。由于高送转股票在A股市场上所占比例远小于50%,此分类问题可以看成是非平衡数据分类问题,因此本文将采用K-Means聚类的欠抽样方法[4]解决非平衡问题。

二、高送转预测模型构建及评价

(一)数据来源

本文研究的样本是2009年至2015年剔除ST、PT股票的全部A股市场股票,选用的指标数据如表1所示,数据来源于天软(Tinysoft)数据库。

(二)模型算法

令T年为测试集年份,为了构建“高送转”预测模型,我们训练集数据选为T-1年的三季度数据,训练集样本选取T-1年10月31日这天公布三季度报的非ST、PT股票,训练集的响应变量则由T-1年样本公告預案日公布的送、转股比例是否超过0.5决定,如果超过0.5,表明样本为“高送转”股票,训练集的样本标签为1,否则为0;本文的测试集样本为T年10月31日公布三季度报的非ST、PT股票。

首先,我们将分别使用K-近邻算法、决策树决策树以及正则化的Logistic回归构建预测模型,并对这三种预测结果进行投票以构建一种“组合”模型,同时我们也分别采用集成学习算法Adaboost、随机森林来构建“高送转”预测模型。

1.K-近邻算。K-近邻算法[5]的工作原理是:存在一个样本数据集合,并且样本集中的每一数据都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本数据集中数据对应的特征进行比较,然后算法提取样本集中前K个最相似(最近邻)的数据,选择数据中出现次数最多的分类,作为新数据的分类。采用K-近邻算法需要对自变量数据归一化,这里采用下面公式对数据归一化:

newValue=(oldValue-min)/(max-min) (1)

其中min和max分别是对应属性数据集的最小特征值和最大特征值。

对应K-近邻算法,模型的参数主要为K和距离,通过对该样本数据进行检验,发现K取3,距离选用欧氏距离时,预测结果较好。

2.决策树算法。决策树算法[5]由Breiman等人在1984年提出的,是应用广泛的决策树学习方法,该算法有两部分组成:(1)决策树生成;(2)决策树剪枝。本文决策树生成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。决策树剪枝算法由两部分组成:首先从生成的决策树T0底端开始不断剪枝,直到根节点,形成1个子树序列{T0,T1,…,Tn};然后通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优子树。

3.正则化Logistic算法。二项逻辑斯蒂回归模型[5]是一种分类模型,由条件分布P(Y|X)表示,形式为参数化的逻辑斯蒂分布,条件概率分布如下:

P(Y=1|x)=exp(w*x+b)/[1+exp(wx+b)] (2)

P(Y=0|x)=1/(1+exp(wx+b)) (3)

其中随机变量Y取值为1或0,随机变量x为实数,w和b是参数。

逻辑斯蒂回归模型学习时,对于给定的训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)},可以应用极大释然估计求出参数。为了解决多重共线性的问题,本文采用增加lasso惩罚项的方法,采用10折交叉验证求出lasso的最优参数lambda,然后求出逻辑斯蒂回归。

4.AdaBoost算。AdaBoost算法[5]是一种常用的集成学习算法,它从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。AdaBoost根据每次训练样本中样本的分类是否正确,来确定下一次学习时的样本权值,将修改权值的样本再次进行弱分类算法学习,这样构成一个弱分类器组合,AdaBoost采取加权多数表决的方法,具体的,加大分类误差率小的弱分类器的权值,使其在表决中起到较大的作用,减少分类误差率大的弱分类器的权值,使其在表决中起到较小的作用。

5.随机森林算法。随机森林算法(RF)[6]是Breiman在2001年提出的一种集成算法。它利用bootstrap重抽样方法从原始样本中抽取多个样本,对每个bootstrap样本进行决策树建模,然后通过投票取得最终分类结果。

6.基于K-Means聚类的欠抽样算法。K-Means聚类是最常用的聚类方法之一,常采用距离作为样本相似性的度量,即样本之间的距离越小,则样本的相似性越高。

欠抽样是通过减少多数类样本的数量来平衡两类样本的,欠抽样可以有效减少数据的不平衡性,然而欠抽样会破坏多数类样本的整体结构,针对此问题本文使用了一种基于K-Means聚类的欠抽样算法[3]:首先,将多类数据聚类,然后采用欠抽样计数按照一定比例在多类数据的每个类别里抽取一定数量的样本。

(三)模型评价指标

本文所使用的数据为非平衡数据,关注的重点是高送转股票,因此本文以高送转股票(正类样本)的准确率作为模型评价指标,同时G-mean也是衡量分类器性能的常用指标,表2是二分类的混淆矩阵:

其中,TP和TN分别表示正确预测的正类和负类的样本数量,FP和FN分别表示误分类的正类和负类的样本数量。在高送转预测模型中,高送转股票占比比较少,我们关注更多的是发生高送转的股票(正类样本),正类样本的准确率为:

三、实验

下面分别使用由K-近邻,决策树以及逻辑斯蒂回归构成的“组合”模型、Adaboost算法模型以及随机森林算法模型,对2009年~2014年的年报公布的“高送转”股票进行预测,训练数据集选用相应年份前一年的三季度财报数据。分别求出每个模型每年的正类准确率、召回率以及G-mean值,结果如下面图所示:

由上面两个图形可以看出,“组合”模型的准确率较高,而在G-mean值上,随机森林与“组合”模型的表现相当。由此可以看出,“组合”模型在高送转预测模型中表现的最好。

为了处理非平衡数据,本文采用K-mean聚类的欠抽样技术减少数据的非平衡度,本文将每年正、负类比例调整为2,然后比较“组合”模型在数据平衡化前后的表现,以G-mean值作为衡量整体分类性能的指标,比较结果如下图所示:

由上图可知,平衡化数据后模型的整体分类性能有所提高,这表明对于非平衡数据,先对非平衡数据进行平衡化处理,之后再进行分类,可以提高模型的整体分类性能。采取欠抽样计数只是处理非平衡数据众多技术之一,对于欠抽样,最理想的正、负类的比例并不一定是1:1,針对不同的数据,可以不断尝试以获得使模型达到较好的表现。

为了检验“组合”模型、adaboost算法模型以及随机森林模型的投资表现,本文对每年模型预测得到的高送转股票进行等权配资,每年的1月30日后一交易日开仓,当持仓票发布年报时,将这只股票平仓,在3月30日将还在持仓的股票全部平仓,共231个交易日,另外以HS300指数为基准,则各个模型及基准的净值曲线如图6所示,各个模型的最终收益率、年化收益率、夏普比率以及最大回撤率如表3所示:

由图5可以看出,高送转股票具有高送转公告效应,每个模型表现均明显优于基准HS300指数,同时,“组合2”模型的表现表现要好于非平衡数据下的“组合”模型,而它们均优于Adaboost和随机森林模型。本次实验表明,经过平衡化处理的“组合2”模型对于投资有较好的指导作用。

四、结论

本文为了建立有效的高送转股票预测模型,以KNN,逻辑斯蒂回归以及决策树为基分类器构建了“组合”模型,同时也采用Adaboost以及随机森林等集成学习算法构建预测模型。本文以高送转股票(正类)的准确率以及G-mean值为模型的评价指标,发现“组合”模型表现高于Adaboost算法以及随机森林算法,同时具有令人满意的准确率,这说明多分类器构建的分类模型在高送转股票应用中有很多的实际价值。本文针对数据的非平衡性,使用了基于K-mean聚类的欠抽样技术,采用“组合”模型进行实验,结果显示:平衡化数据后,“组合”模型的投资效用有所提升。

参考文献

[1]沈海平.我国上市公司高送转公告效应的实证研究[J].区域金融市场,2011,28(4):47-51.

[2]车仲春,赵玉新,关爽.上市公司“高送转”政策的趋势与特征分析[J].会计之友,2013,(6):26-31.

[3]陈珠明,史余森.高送转股票财富效应的实证研究[J].系统工程,2010,(10)

[4]周宾宾.基于非平衡数据的集成学习分类及应用[D].广州:华南理工大学,2014.

[5]统计学习方法/李航著.——北京:清华大学出版社,2012.3.

[6]Verikas A,Gelzinis A,Bacauskiene M.Mining data with random forests:a survey and results of new tests[J].Pattern Recognition,2011.44(2):330-349.

作者简介:王凯(1992-),男,汉族,河南周口,华南理工大学硕士研究生,研究方向:金融工程;龙卫江(1962-),男,博士,副教授,研究方向:金融工程。

猜你喜欢
投资组合
实例模型在投资组合最优化中的应用
美国纽约州罗伯特小学“健康的投资组合”课外体育活动分析与启示
个人理财投资组合策略分析
含有模糊约束的最优投资组合模型
证券投资组合实证研究及绩效评价
我国开放式证券投资基金投资组合研究
几何Levy市场下的最优投资与超额损失再保险