基于随机森林的中小微企业信贷问题研究

2022-05-30 10:53张子越
中国集体经济 2022年24期
关键词:随机森林中小微企业

张子越

摘要:文章针对中小微企业信贷问题进行建模求解分析,构建了基于优化的随机森林算法构建的信贷策略模型,将发票的进销账目、供求关系和企业信誉作为自变量,将企业实力评估和判断是否提供贷款作为因变量。结合模型并综合考虑银行的收益,结合额度和年利率数据,确定各企业所能拥有的最大额度的放款,列出对企业放款的优先级排序。根据模型求解得出信贷策略为根据信誉等级ABC以及是否违约得出年利率和信贷额度分别为6.82%,95万元,8.95%,85万元,10.53%,70万元。文章主要的创新点在于针对数据维数过高,无关特征对检测结果产生干扰的问题,提出了一种基于随机森林的特征重要度特征选择方法,能够给中小微企业信贷问题提供方法参考。

关键词:中小微企业;信贷策略;随机森林;信贷额度

中小微企业融资一直是世界性难题,信息不透明、主体分散且缺乏标准化,这些特点意味着小微企业的经营风险很高,更是造成银行不敢贷、不愿贷的主要原因。由于中小微企业规模小和资产较少,也缺少抵押资产,因此银行通常是依据信贷政策、企业的交易票据信息和上下游企业的影响力,向实力强、供求关系稳定的企业提供贷款,并可以对信誉高、信贷风险小的企业给予利率优惠,是政府重点扶持的对象。政府通过银行对信誉高、风险小的企业给予贷款政策优惠,为评定不同企业的贷款方式,需建立中小微企业的信贷决策模型。

一、基于随机森林的模型构建

(一)数据预处理

在训练模型之前,首先要进行特征提取从而最大限度地从原始数据中提取特征以供算法和模型使用,并使用python中的sklearn提供了较为完整的特征处理方法,包括数据预处理、特征選择、降维等。本文中使用特征提取的原因是各表格中数据零散,无法进行直观分析,需要通过提取特征值,对数据进行子集的划分,进而得到指标,在构造的特征中筛选出最能刻画研究问题的特性,也就是特征选择,便于模型的训练和预测。

首先对数据进行删除无用数据处理(见表1)。

对各企业的进项发票和销项发票数据进行合计,录入为“进货价税合计”和“销售价税合计”两类新数据用于判断企业的资金流动量,数据处理的代码和结果如表2所示。

(二)随机森林算法原理

随机森林是在bagging算法的基础之上进行了一些小的改动,首先随机从原始数据集中随机抽取m个子样本,而且在训练每个基学习器的时候,不是从所有特征中选择最优特征来进行节点的切分,而是随机选取k个特征,从这k个特征中选择最优特征来切分节点,从而更进一步降低了模型的方差。而后随机森林使用的基学习器是CART决策树。随机森林随机选择的样本子集大小m越小模型的方差就会越小,但是偏差会越大,在实际应用中,一般会通过交叉验证的方式来调参,从而获取一个合适的样本子集的大小。故随机森林除了其学习器使用CART决策树和特征的随机选择以外,其他方面与bagging方法相似(见图1)。

最终的分类结果如式(1)所示:

本文将“是否违约”作为第一属性值,对根节点“企业代号”进行划分成“非叶子结点123……”,并对违约的企业进行“NO”处理;再对划分出的“非叶子结点”依据“企业的信誉等级ABCD”继续向下划分,直到不能再依据属性值判定,成为叶子结点。

(三)指标计算

根据公式对其他指标进行计算处理,将用到的公式如下所示:

结合python中panda和numphy算法对数据进行特征提取,得到处理后结果(见表3)。

二、模型求解过程

信贷策略提供首先需要对信贷风险进行量化分析。对于贷款额度和利率,仅从企业的信誉评级和信誉层面考虑分配是不合理的,还需要考虑银行的总收益。本文需要从发票的总金额、开票的频率是否异常、发票的作废比例、发票的金额波动是否正常多个指标对企业实力进行观察,从发票周期、进项发票信息和销项发票信息对银行的总收益进行观察。在完成提取指标后,利用“随机森林”算法对指标进行处理。最后,将处理结果的数据按照放款顺序自上而下的优先级进行排序,然后在固定总额的前提下,按照优先级分配。

选取数据中的特征值作为训练数据,企业风险ABCD作为训练标签,构建出随机森林对应模型。分析统计银行等级数据,综合分析计算得出企业信誉分别为ABC时的年利率及额度(见表4)。

根据前面处理的数据得到企业的风险评级结果,进行模型求解,并给出企业信誉等级与年利率之间的关系如图2所示。

三、随机森林模型的分析

在对特征值进行随机森林算法处理之后,数据的回归性如表5所示:其中,Accuracy表示回归结果的准确性,Macro avg表示算数平均值,Weighted avg表示加权平均值,Pricision表示精确度,Recall表示召回率,即是否符合该模型0或1条件下的线形数据处理,Support表示在该模型下的可满足条件的企业数,数据处理的代码和结果如表5所示。

对该结果进行双重检验:1.与实际中银行贷款额度相比,结果中的贷款额度处在正常范围;2.对算法进行检验,没有问题且运行正确,数据正确可信。综上可知,该模型具有结果可靠性,可以为银行解决信道分配策略问题。

四、结语

本文通过构建基于优化的随机森林算法构建的信贷策略模型,选取进销账目、供求关系和企业信誉作为自变量和企业实力评估和判断是否提供贷款作为因变量。确定各企业所能拥有的最大额度的放款,列出对企业放款的优先级排序。模型得出的结果中,99.9%不相关的树得出的预测结果涵盖所有的情况,这些预测结果将会彼此抵消。少数优秀的预测结果会显现出主要决定作用,从而得出优良的预测结果。根据模型求解得出信贷策略为根据信誉等级ABC以及是否违约得出年利率和信贷额度分别为6.82%,95万元,8.95%,85万元,10.53%,70万元。

参考文献:

[1]汪政元.基于优化的随机森林方法的企业信用风险评价研究[D].广州:暨南大学,2017.

[2]单光年.大数据背景下商业银行信贷风险管理策略研究[J].商业经济,2020(08):164-165.

[3]于立勇,詹捷辉.基于Logistic回归分析的违约概率预测研究[J].财经研究,2004(09):15-23.

[4]朱沁.F市农商银行信用风险管理研究[D].南昌:江西财经大学,2020.

[5]马琬清.新冠疫情对中国宏观经济的影响分析[J].湖北经济学院学报(人文社会科学版),2020,17(09):34-37.

[6]邓伟.基于KMV模型的信用风险评估研究——以制造业上市公司为例[J].现代营销(信息版),2020(07):18-19.

[7]胡宁,方兰婷,秦中元.基于随机森林和深度的自编码高斯混合模型的无监督入侵检测方法[J].网络空间安全,2020,11(08):40-44+50.

[8]刘玲,郑建国.一种基于随机森林的组合分类算法设计与应用[J].电子设计工程,2020,28(16):54-57.

(作者单位:淮北师范大学数学科学学院)

猜你喜欢
随机森林中小微企业
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
金融支持新疆中小微企业发展问题研究
论中小微企业融资困境的应对路径选择
浅析中小企业财务压力及策略
试论中小微企业知识产权保护
我国民营银行发展的风险及防范研究
中小微企业在四板市场的融资方式分析
基于随机森林算法的飞机发动机故障诊断方法的研究