基于AdaBoost-随机森林算法的农户信贷风险评估研究

2021-09-10 23:09郑印殷莹莹王鹏刘金婵梁斌
商业2.0-市场与监管 2021年3期
关键词:随机森林

郑印 殷莹莹 王鹏 刘金婵 梁斌

摘要:精准扶贫是打赢脱贫攻坚战的重要手段,而金融扶贫在精准扶贫工作中举足轻重。目前,农村信贷风险管理问题频繁出现,严重影响金融机构在农村开展信贷业务;规范农村信贷体系,降低风险,迫在眉睫。本文以“农户信贷风险评估”为主题,收集农户信贷数据,多维度构建信贷风险评估体系,运用AdaBoost-随机森林方法对农户小额信贷风险进行评估。根据模型结果,构建农村信贷风险管理体系,在降低信贷风险的同时最大限度致力于金融扶贫工作。

关键词:农户信贷风险;AdaBoost;随机森林

二十一世纪以来,“三农”问题一直对国家农村经济发展和金融稳定有着很大的影响,要想发展农村经济,必不可少的一步就是加大对农村金融的投入,基于此农户小额信贷开始在我国农村普遍实行开来。金融政策不断加大对农户的服务力度,力求建立完整、完善的信贷风险评估机制对有贷款需求的农户进行放贷并定制合适的贷款额度、利率和期限。但在当前的农村金融环境下,农户对于信贷的风险少有认知,农村金融机构对于风险的控制能力也有待加强,所以如何规范信贷风险问题,提高信贷管理水平,就成为当前影响着农村经济发展的重要因素。Congjun Rao(2020)以 Pterosaur Loan平臺中的信贷数据集作实验样本,建立了两阶段融合成本敏感随机林(SCSRF)模型来评估借款人的信用风险。从随机森林出发,据数据类别的实际分布构造代价关系,在代价函数中使用熵权方法引入加权马氏距离,对代价敏感的决策树基分类器采用加权投票。通过网格搜索对SCSRF模型的参数进行了优化。顾洲一(2020)以国内 Y 银行的相关信贷数据作为样本,应用XGBoost 模型建立客户申请评分模型,并运用该模型对新客户的违约概率进行预测,研究发现模型在训练集和测试集上得分最高 (得分即模型预测为坏客户的概率)的5%的客户可以分别覆盖 78.7%和 55.6%的坏客户。本文将从农户小额信贷领域检验 AdaBoost-随机森林算法的优异性,并与其他方法做出实证对比。

1.数据来源及基本理论

1.1数据来源

为获取与农户信贷相关数据指标,本文采取实地调研与问卷相结合的形式从A省B区取得123家有信贷评级的农户信息,以及A省C区302家无信贷评级的农户信息。

1.2基本理论

为了更好的了解与预测农户信贷风险水平,本文根据收集的农户信贷数据,多维度构建信贷风险评估体系,运用AdaBoost-随机森林方法对农户小额信贷风险进行评估,下面对随机森林(random forest)算法工作原理与AdaBoost如何优化随机森林算法进行解释说明。

(1)随机森林算法的基本原理

随机森林算法是一种对样本进行训练和预测的分类模型,其本质是一种装袋集成算法。装袋集成算法是对决策树(基评估器)的预测结果进行平均或用多数表决原则来决定随机森林(集成评估器)的结果。

决策树的结构类似与一棵树,它将每种可能发生的情况及对应概率清晰的表示在一个流程图中,是一种非常直观的图解法。决策树是一种预测模型,其每个决策分支对应不同的情况不同的概率,通过计算分析得到不同的结果,常用于估计项目的风险,判断项目的可行性。

为使随机森林中每棵分类树互不相同,一种简单的方法是采用不同的训练集建立决策树,再将多棵决策树合并在一起组成随机森林。

随机森林算法的基本步骤:

1)原始训练集中包含n个样本,从中有放回的抽取n次形成一个含有n个样本的自助集

2)从自助集的所有属性中选取a个属性,根据这些属性建立一棵决策树

3)重复以上步骤m次,可以得到m棵不同决策树,随机森林由这m棵决策树组成

4)m棵决策树分别对样本进行预测,得到m个分类结果

5)对产生的m个分类结果进行投票,得票最多的结果是最终的结果

(2)AdaBoost-随机森林算法的基本原理

AdaBoost算法是一种迭代算法。AdaBoost算法的工作原理,初始样本中每个样本所占权重相同,用弱分类器训练样本,将各个学习误差率联系在一起,不断调整误差率高的训练样本点的权重值,误差率低的弱分类器在最终分类器中占的比例较大,以得到一个强分类器。

本文将随机森林作为弱分类器,用AdaBoost算法进行迭代构建AdaBoost-随机森林模型,基本步骤如下:

1)给每个初始样本赋权重得到权值分布D1,保证每个样本初始权重相同w1i=1/N,同时建立好随机森林。

2)对样本数据进行多次迭代,得到样本数据新的权值分布Dm,再对权值分布为Dm的样本进行训练得到弱分类器。

em为评估误差和,ym(xn)为评估的结果,tn为期望的结果

3)计算随机森林(弱分类器)在最终分类器中的权重,得各随机森林的权重为。

4)更新样本中每个样本的权重,进行新一轮的迭代

Dm+1是新一轮迭代的样本权值分布,wm-1,i是第i个样本的权重,Zm是归一化因子

5)迭代完成后,将若干个弱分类器(随机森林)按其权重组合起来

2.AdaBoost-随机森林模型

2.1研究思路

通过对调研得到的数据进行分析并选取指标,将其按层次结构划分为一级二级指标。一级指标有农户基本情况、农户信贷情况、农户家庭收入情况三个。其中农户基本情况共分为户口、年龄、婚姻状况、家庭关系、文化程度、健康状况和家庭成员品行等七个二级指标;农户信贷情况共分为是否违约、贷款金额、信誉评价等三个二级指标;农户家庭收入情况共分为家庭人均年净收入、家庭年净收入等两个二级指标。通过对指标进行量化,最后构建Adaboost-随机森林模型对农户信贷风险进行研究。

2.2研究过程

通过对A省B区123个已知信誉评级的农户信贷数据进行分析,通過构建Adaboost-随机森林模型,把是否违约映射为0,1两个值,其中没有违约映射为0,违约映射为1。以是否违约为目标,用综合指标进行逻辑回归,划分训练集和测试集,拟合出逻辑回归函数,得出一个0-1区间的连续值,模型拟合准确度为84%,混淆矩阵得出的ACC准确率为80%。

2.3结果分析

结果显示,A省C区的302个农户有35个农户获得A等级信誉评级,137个农户获得B等级信誉评级,123个农户获得C等级信誉评级,7个农户获得D等级信誉评级。同时结果显示,在302个农户中,有69个农户可能会出现违约情况。

3.结语

本文通过A 省B 地区调研得到的123个农户的信贷数据对C区的302个农户进行了信誉评级和是否违约的预测,构建了AdaBoost-随机森林模型,使用 ROC 曲线的值对 A 省 C 地区的调研数据进行了预测。

参考文献:

[1]Rao,CJ;Liu,M;Goh,M;Wen,JH.2-stage modified random forest model for credit risk assessment of P2P network lending to Three Rurals borrowers [J].Applied Soft Computing Journal,2020,95.

[2]顾洲一.基于XGBoost模型的银行信贷高风险客户识别研究——以我国Y银行为例[J].上海立信会计金融学院学报,2020(01):17-28.

[3]宋鑫.随机森林优化算法在农户信用风险评估中的应用[D].云南师范大学,2018.

[4]许剑,张洪伟.Adaboost算法分类器设计及其应用[J].四川理工学院学报(自然科学版),2014,27(01):28-31.

[5]田莹莹,马一宁,韩景旺.“乡村振兴”战略下农户信用评价体系构建研究[J].现代商贸工业,2019,40(15):106-107.

[6]李佳容.随机森林在甘肃省农村贫困户识别中的应用[J].农村经济与科技,2018,29(04):188+190.

本文系 安徽财经大学大学生科研创新基金项目研究成果,项目编号:XSKY2198。

作者简介:

郑印(2001—)男,汉族,安徽六安人,安徽财经大学管理科学与工程学院,2018级本科生,信息管理与信息系统专业。

殷莹莹(2000—)女,汉族,安徽六安人,安徽财经大学金融学院,2018级本科生,金融学专业。

王鹏(2001—)男,汉族,安徽六安人,安徽财经大学管理科学与工程学院,2018级本科生,计算机科学与技术专业。

刘金婵(2000—)女,汉族,安徽安庆人,安徽财经大学统计与应用数学学院,2018级本科生,数据科学与大数据技术专业。

梁斌(2000—)男,汉族,安徽六安人,安徽财经大学管理科学与工程学院,2018级本科生,计算机科学与技术专业。

猜你喜欢
随机森林
随机森林算法在中药指纹图谱中的应用:以不同品牌夏桑菊颗粒指纹图谱分析为例
基于随机森林的登革热时空扩散影响因子等级体系挖掘
基于随机森林的HTTP异常检测
个人信用评分模型比较数据挖掘分析
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于奇异熵和随机森林的人脸识别
基于随机森林算法的B2B客户分级系统的设计