基于混合学习策略的企业信用评级研究

2016-04-07 09:27夏婷婷
卷宗 2016年2期
关键词:混合学习

夏婷婷

摘 要:由于在实际企业信用评级中,通常存在着大量的未标记样本,同时在少量的有标记样本中,企业信用评级的数据往往呈现非均衡分布的特点,因此本文将半监督学习和非均衡数据分类方法结合起来,提出一种基于混合学习策略的企业信用评级方法,同时通过企业评级数据集对提出的方法进行实验验证。

关键词:半监督;非均衡数据分类;混合学习;企业信用评级

1 引言

在现代经济生活中,信用作为市场经济的基础,对企业的生存和发展有着重要的影响。然而,企业信用缺失已成为制约我国经济可持续发展的突出问题之一,据相关资料统计,我国企业每年由信用缺失导致的经济损失高达6000亿元[1]。因此如何建立一个适用的企业信用评级模型,强化企业信用风险管理,已成为学术界和产业界迫切需要解决的问题。

目前在企业的信用评级领域,常见的企业信用评级方法主要有基于统计分析的方法和基于机器学习的方法,其中根据建立判别函数形式和样本的假定不同,基于统计分析的方法主要有一元判别模型、多元判别模型、Logistic回归模型、Probit 模型等[2]。由于基于统计分析的方法对样本数据都有严格的假设条件,如多元正态分布、等协方差等,在现实中这些假设一般都不成立,极大地限制了基于统计分析方法的应用。因此,基于机器学习的方法越来越多地被应用到企业信用评级中[3]。基于机器学习的方法需要构建一个具有良好性能的财务风险预测模型,这就需要大量的有标记样本,然而在企业信用评级实际应用中,通常存在着大量的未标记样本,有标记样本相对较少,与此同时,在少量的有标记样本中,企业信用评级的数据集往往呈现非均衡分布的特点,因此,本研究提出了基于混合学习策略的方法,用来解决企业信用评级中存在的问题。

基于混合学习策略的方法是一种把半监督学习和非均衡数据分类方法结合起来的学习方法,它利用少量的有标记样本和大量的未标记样本,将非均衡数据分类方法引入到半监督学习方法中,从而形成一种混合学习策略的企业信用评级方法。通过本研究,丰富和完善了企业信用评级研究的理论研究体系,为及时准确地预测企业的信用风险提供了行之有效的方法,加强了企业的信用风险管理,保护了企业利益相关者的利益,具有重要的意义。

2 基于混合学习策略的企业信用评级方法

2.1 自训练方法

自训练算法是最早提出的半监督学习方法,也是半监督学习中较为常见的方法之一。它通过已有的少量有标记样本训练出分类器,然后利用该分类器预测大量未标记样本的类别,选出置信度较高的样本加入到训练集中重新训练,重复执行以上过程,直到满足条件为止[4]。算法的流程如图1所示。

2.2 非均衡数据分类方法

2.2.1基于取样的非均衡数据分类方法

基于取样的方法主要是将原本非均衡的样本类别变得均衡,从而提高分类器对少数类样本的分类准确率,常用的基于取样的方法有欠取样方法(Under Sampling)和过取样方法(Over Sampling)[5]。欠取样方法通过随机去掉多数类样本来降低数据集的非均衡程度,但这种方法会丢失多数类的一些重要信息;而过取样方法与欠取样方法相反,它通过随机复制少数类样本的方式来使数据集达到均衡,这种方法虽然保留了已有样本的所有分类信息,但容易造成分类器的过度拟合。为了克服上述随机欠取样和过取样方法存在的缺点,研究者提出了SMOTE取样方法,它根据一定的规则,在一些相距较近的少数类样本间加入“合成”样本,随机生成新的少数类样本,并将这些新生成的少数类样本加入到原来的数据集中,从而对少数类样本进行扩充,产生新的训练数据集。通过SMOTE方法增加的少数类样本并不存在原来的样本中,因此SMOTE可以避免过取样的缺陷。

2.2.2基于集成学习的非均衡数据分类方法

基于集成学习的方法通过训练多个分类器并将其结果按照一定的方式进行有效的组合,以此来获得比单个分类器更好的性能。当前,构建集成学习的方法主要有Bagging和Boosting方法[6]。Bagging方法首先对原始的训练样本集进行有放回随机抽样,得到若干个样本数量与初始样本数量相当的训练样本子集,其次对每个样本子集进行训练,得到若干个基分类器,最后采用少数服从多数的投票方式将这若干个基分类器的结果进行组合。Boosting 方法首先赋予原始训练样本集中的每一个样本相同的初始权重,由这个训练集训练第一个基分类器,计算分类错误率,提高那些被错误分类的训练样本的权重,降低那些被正确分类的样本权重,从而得到一个权重被调整后的训练样本集,其次由这个权重被调整后的训练样本集训练第二个基分类器,重复这一过程,直到生成若干个基分类器,最后采用加权合并的方式进行多个分类器的集成。

2.3 基于混合学习策略的方法

由于常用的半监督学习方法主要有自训练和协同训练方法,常用的非均衡数据分类方法主要有基于取样的方法和基于集成学习的方法,故本文从以下两个角度构建了基于混合学习策略的企业信用评级方法,分别为:基于取样和自训练的企业信用评级方法和基于集成学习和自训练的企业信用评级方法。

基于取样和自训练的企业信用评级方法,首先采用取样方法对有标记样本进行处理使得样本类别分布均衡,其次训练类别均衡的有标记样本得到一个分类器,最后对未标记样本进行训练来提高这个分类器的分类性能。算法流程如图2所示。

基于集成学习和自训练的企业信用评级方法,首先采用集成学习方法生成基础分类器,其次利用基础分类器对未标记样本进行标记,最后将置信度高的未标记样本添加到有标记样本中,重复这一过程来提高分类器的分类性能。算法流程如图3所示:

3 实验设计

为了验证基于混合学习策略的方法在企业信用评级领域中的有效性,本文选取了中国工商银行2006年至2007年间共239家企业进行试验,该数据集包含企业的财务数据及银行评定的信用风险状况,包括148家无风险企业和91家有风险企业。本研究采用工商银行征信部门专家提出的18个财务指标作为企业信用评级指标,具体指标见表1。

实验的评价指标使用目前常用的评价指标:平均分类精度(Average Accuracy),指的是被分类器正确预测的样本数据占全部样本数据的百分比。当实验数据集类别分布均衡时,平均分类精度作为评价指标能够很好的评价分类器的性能,然而由于企业信用评级问题的数据分布是非均衡的,采用平均分类精度指标已经不能恰当的反映分类器的性能,因此本文还采用非均衡数据分类领域常用的AUC作为评价指标。

实验选用了目前常用的机器学习分类器Decision Tree(DT)作为基础分类器,半监督方法选取Self-training方法,非均衡取样方法选取Under Sampling、Over Sampling和SMOTE方法。对于自训练与非均衡数据分类方法相结合的方法,采用本文提出的Self-US、Self-OS、Self-SMOTE、Self-Bagging、Self-Boosting方法。本文使用5次10倍交叉验证法来提高实验结果的可信性,因此,最终的实验结果取5次10倍交叉验证的平均值。

4 实验结果与分析

根据以上实验设计,最终实验结果如表2所示。

从表2中我们可以看出,当标记比例为0.4时,Self-Boosting取得了最高的平均分类精度:87.37%,同时取得了最高的AUC:0.9285。当标记比例为0.8时,Self-Boosting取得了最高的平均分类精度和最高的AUC,分别为88.35%和0.9296。实验结果表明,在平均分类精度指标和AUC指标上,本研究提出的基于混合学习策略的企业信用评级方法取得了很好的实验结果,证明了本研究提出的基于混合学习的方法在企业信用评级中的有效性。

为了分析不同的半监督学习方法在企业信用评级中应用的效果,我们通过公式(3.1)计算自训练方法相对于基础分类器DT的AUC提高的百分比,得到图4。

从图4中可以看出,在不同的标记比例下,自训练方法在AUC上都有了显著的提高,这表明与基础分类器方法相比,本文提出的基于混合学习策略的企业信用评级方法,能够充分解决了企业信用评级数据中存在的未标记样本学习和数据分布非均衡问题,因此取得了较好的实验结果,验证了本文方法的有效性。

5 总结

为了解决企业信用评级实际应用中存在的未标记样本学习和数据分布非均衡问题,本文提出了基于混合学习策略的企业信用评级方法,并在企业信用评级数据集上进行了实验验证,实验结果表明,与单一学习方法相比,基于混合学习策略的企业信用评级方法能够有效解决企业信用评级中存在的问题。然而本文主要关注企业信用评级领域,在未来的研究中,本文提出的方法也可以应用于其它领域,对方法的可靠性进行验证。

参考文献

[1] 何平, 金梦. 信用评级在中国债券市场的影响力[J]. 金融研究, 2010, (04): 15-28.

[2] 姚潇, 余乐安. 模糊近似支持向量机模型及其在信用风险评估中的应用[J]. 系统工程理论与实践, 2012, (03): 549-554.

[3] 蒋盛益, 汪珊, 蔡余冲. 基于机器学习的上市公司财务预警模型的构建[J]. 统计与决策, 2010, (09): 166-167.

[4] 丁涛. 半监督自训练分类模型的研究与实现[D]. 大连理工大学, 2009.

[5] 高嘉伟, 梁吉业. 非平衡数据集分类问题研究进展[J]. 计算机科学, 2008, (04): 10-13.

[6] 韩敏, 朱新荣. 不平衡数据分类的混合算法[J]. 控制理论与应用, 2011, (10): 1485-1489.

猜你喜欢
混合学习
慕课混合教学:理论、形态、目标
基于SPOC的混合学习模式在高职专业基础课中的改革与实践
信息技术教育中混合学习模式的应用
高职计算机应用基础课程SPOC混合教学模式设计探讨
混合学习在高等教育:三类不同设计方法
SPOC平台下IPAD在初中生物混合学习中应用初探
基于Unipus的大学英语混合式教学模式探索
基于混合式学习理念的大学生自主学习能力的培养研究
基于MOOC的高职混合学习策略研究
基于混合学习的工程制图课程教学改革探索