基于数据挖掘方法的我国非寿险公司规模效率实证研究

2016-04-11 05:45张日升中央财经大学金融学院方肇益中央财经大学保险学院

上海保险 2016年2期

张日升　中央财经大学金融学院　方肇益　中央财经大学保险学院

张日升中央财经大学金融学院方肇益中央财经大学保险学院

一、引言

我国保险业自恢复经营以来，以超越国内生产总值增长率的超常速度快速发展。特别是进入21世纪我国加入WTO以来，我国保险市场真正实现对外开放，随着外资公司的入驻，我国保险市场竞争加剧，但同时在行业制度、业务模块、机构设置以及市场监管等方面的革新起到了促进作用，加速了我国保险市场的改革进程。

随着保险业的深入发展，我们发现很多保险公司盲目扩张资产规模，而忽视了公司经营的效率问题，导致出现费用支出不合理、损失率过大、盈利能力下降等问题。保险公司经营效率已经成为当今保险业发展的焦点。本文采用《中国保险年鉴2014》的数据，通过数据挖掘的方法对国内50家财产保险公司进行聚类分析，筛选主要财务指标对财险公司进行归类，旨在用数据来发现我国保险业发展存在的问题。

二、研究文献综述

自2005年以来，大量已发表的财务分析、财务危机识别、企业绩效评价的文章采用了数据挖掘中的技术。李思志、郭春晖、李艳红（2006）分析，2000—2005年间中国核心刊物上发表的利用数据挖掘在财务领域运用的文章不到10篇，而数据挖掘的技术主要运用于行业企业特征分类和财务预警。之后，学术界主要利用数据挖掘中的机械学习、决策树方法，对企业绩效进行评价，如傅毓维、尹航、杨贵彬（2006）选取了财务报表中的一些重要指标，设定输入和输出因素，进行了BP神经网络学习，得到评价模型。此外，机械学习在异常点诊断方面，也被应用到财务领域。黄章树、乔昕（2011）利用神经网络和SVM对ST公司进行分类判别。数据挖掘中的PCA降维方法也被广泛运用到企业财务领域，如范瑜、宋宇翔（2013）对2006—2011年的具有完整数据的上市公司进行了因子分析。本文采用的聚类分析方法相对于神经网络方面的文献较少，但是也被运用到企业财务研究中。李剑锋（2005）对我国十大钢铁公司进行了聚类研究，齐中华、黄丽娜（2010）对上市公司财务状况采用了模糊聚类的研究方法，孙力（2009）则在其论文中对沪市上市公司进行分类，并对聚类剖面进行了分析。

三、方法简介

（一）数据挖掘

数据挖掘（Data Mining）是近年来随着计算机技术被广泛应用的数据处理技术，主要分为聚类、关联、分类、异常点诊断、预测、回归。数据挖掘的流程一般为目标定义、数据准备、数据探索、模型建立、模型部署，而日新月异的数据库技术和各类优化算法的发展，极大促进了数据挖掘的应用。

以往的数据挖掘在公司经营状况的研究，主要利用的是传统打分法和神经网络、SVM、决策树等有监督的机械学习结合，构建评价模型，对于聚类这样的无监督学习方法应用较少。此外，之前的数据挖掘主要对一些一级或二级财务指标进行评价，作为输入，有一定加工，而本文尝试使用原始财务报表简单处理的信息。先前的公司研究对象一般是生产制造型企业，而对保险公司的研究几乎一片空白，而保险公司的财务报告又具有特殊性，因此本文在此基础上进行了尝试。

（二）聚类分析

聚类方法在多元统计领域已经被广泛运用，其属于无监督学习的方法，这是指对于聚类的结果，并没有统一的外部评价。聚类是将相似的样本归为一类，当达到外部设定的类数时，则停止聚类，那么聚类的关键是对于相似的定义。本文应用的聚类方法是K-means方法，给出分组数k以及初始分组，随后反复迭代，直到分组不再变化为止。

类的度量方法主要是指类的距离，这里的距离往往有三种定义：闵科夫斯基(Minkowski)距离、兰式(Lance、Williams)距离和马哈拉诺比斯(Mahalanobis)距离。这里我们采用闵科夫斯基距离进行归类。闵科夫斯基(Minkowski)距离：

当q=1，闵氏指绝对距离；当q=2，闵氏指欧式距离；当q〉2时，是切比雪夫距离。本文采取的是欧氏距离，它是m维空间中两点之间的真实距离：

（三）轮廓系数法

对于分组的个数k，往往采用经验法、阈值法和轮廓系数法。经验法是根据经验给出分组数，阈值法是观察分类结果，给出适当阈值重新分类，防止类数太少或者类数过多，轮廓系数法是计算类别数和轮廓系数关系，尽量使平均轮廓系数变大。这里我们采用轮廓系数法确定分组数k。

轮廓系数（ASW,averagesilhouettewidth）是由Kaufman和Rousseeuw提出的用于度量类内相异度与类间最小相异度比值的参数。第i个点的轮廓系数定义如下：

a是第i个点与其他同类点的平均距离，b表示第i个点与不同类的类内个点平均距离构成的向量，S(i)在[-1,1]之间。因为K-means方法受初始点敏感性较大，所以分类时多次实验，取其中最频繁结果为其稳定结果，避免离散点的干扰。

图1　固定资产总计、负债总计、资产总计和投资收益企业数量频次分布图

图2　已赚保费、实际期望损失、营业费用和利润总额频次分布图

图3　剔除离群点后的固定资产总计、负债总计、资产总计和投资收益企业数量频次分布图

四、数据处理

（一）数据选取

本文选取的数据为2013年内的我国所有财险公司，数据来源自《中国保险年鉴2014》。截止到2013年年末，全国共有保险集团公司10家，保险公司143家。其中财险公司有64家，原保险保费收入达到6212.26亿元，同比增长16.53%。

数据挖掘前应当对数据进行预处理及清洗。资产负债表保留固定资产、负债总计、资产总计三项，损益表营业收入保留已赚保费、投资收益，营业支出归纳为实际损失期望（赔付支出+提取未决赔款准备金）、营业费用（营业税金及附加+手续费及佣金支出+业务及管理费），利润类保留利润总额，总计8项属性。上述删减是由于财务报表中各项分录相关性大，而相互之间有线性关系，因此在尽量保留信息的情况下对属性类型进行降维处理，以解决样本数较少的问题。

图4　剔除离群点后的已赚保费、实际期望损失、营业费用和利润总额频次分布图

▶表1　八因素聚类5组别数据归一化平均系数

▶表2　八因素聚类5组别保险公司

▶表3　八因素聚类5组别原始数据（单位：百万元）

（二）数据探索

数据预处理后，我们需要对数据进行预先探索，了解其特征。对于上述筛选出的八项属性，我们利用MATLAB画出每项属性的值的频次分布图，如图1、图2。

从图中可以清晰发现，大部分属性的集中度较高，但是有少数离群点，所以我们需要对离群点进行筛除，经过检测，我们采取的过滤条件为资产总计大于200亿元人民币以及实际期望损失小于0。经过去除离群点后，我们得到如图3、图4的频次分布情况。

可以看出剩余点所形成的分布较为连续，具有可聚类性。筛除的公司为人保财险、国寿财险、大地、太保产险、平安产险、中华联合、阳光产险、安邦产险、阳光农险。其中阳光农险因为其实际损失期望为负而被筛除，其余几家保险公司因为其资产规模庞大而被筛除。

五、聚类分析

（一）初步聚类分析

在对数据进行归一化处理后，笔者对3项主要数据项进行了聚类。聚类的类数利用了轮廓系数法。因为每次K-means结果都有可能不同，因此我们进行了5次轮廓系数—类别数关系图的绘制，其结果都基本相同，图5、图6为一次结果展示。

可以发现2、3类别数时，结果较为完好，而2类类别数过于稀少，因此采取3类类别数分类结果较为有意义。接下来，进行3类类别的聚类，同样，采取了多次实验的方法，寻找出现频率最高的分类结果，下述结果被确定为聚类的结果。图7为分类结果的空间分布图以及各点的轮廓系数图。

通过对图7进行分析发现，保险公司的资产规模、费用支出与利润抱成三团，三个属性存在确定的相关关系。

（二）八属性聚类

在对3项主要属性聚类分析后，我们对八项属性也进行了聚类分析。首先多次实验，判别聚类数量，经过20次实验，笔者发现，聚类效果并不明显，这可能是因为各样本不是按照球状簇分布导致的。因为样本数为50，而聚类效果不应当超过5类（50/10），否则会产生过度拟合，因此，本文选用5类来对八属性样本进行聚类。

图5　3因素聚类类别数—平均轮廓值折线图

图6　3因素聚类3组别轮廓值柱状图

图7　3因素聚类3组别空间分布图

图8　八因素聚类类别数——平均轮廓值折线图

图9　八因素聚类5组别轮廓值柱状图

进行10次5类聚类后，下述结果是最频繁结果，且轮廓系数值较为优秀，其结果如表1，而分类结果如表2。按分类结果提取原始数据，结果如表3。

六、实证分析

（一）对资本利润率进行分析

根据表4，第1类公司处于严重亏损状态，平均资本利润率低至-12.25%；而资本利润率随着资产规模的增大而趋于好转，到第2类、第3类、第4类盈利能力好转但还是处于亏损或面临亏损状态；而在第5类才基本实现盈利状态。表明保险公司的盈利能力与资产规模存在一定的正相关关系。而观察被剔除的大规模保险公司，例如国寿财险、大地保险及阳光财险三家大保险公司的平均资本利润率是1.45%，说明资产规模并不是越大越好，在达到一定规模后盈利能力减弱。

▶表4　5组别保险公司资本利润率（单位：百万元）

▶表5　5组别保险公司费用率（单位：百万元）

▶表6　5组别保险公司承保风险（单位：百万元）

（二）对营业费用进行分析

根据表5，我们发现资产规模较大的财险公司资产费用率一般也较大，如第2、5类大于第3、4类；但第1类资本费用率显然与其资产规模不匹配，而其费用利润率（每单位费用贡献的利润）处于超低水平，不难推断费用支出不合理是造成第1类公司巨亏的重要原因。在剔除的公司中，我们发现安邦财险资本费用率低至1.163%，同时其费用利润率高达336.018%，说明营业费用低是公司实现盈利的一个重大因素。

（三）对已赚保费、实际期望损失进行分析

根据表6，由于已赚保费与实际期望损失一般都随资产规模增大而增大，难以发现其中关系。我们观察两者比值发现资产规模较大的保险公司，如第2类、第5类实际期望损失/已赚保费值普遍小于规模较小的公司。可能的原因是资产规模较大的保险公司相对充足的业务规模使得承保风险得以有效分散，从而增加了风险管理的灵活性，维持了公司的稳定经营。

（四）对投资收益进行分析

根据表7，第1、3、4类公司投资收益率低于第2、5类公司，此时保险公司的投资收益率与资产规模存在一定正相关关系。而对比异常样本点，8家大规模财险公司（人保财险、国寿财险、大地保险、太保产险、平安产险、中华联合、阳光产险、安邦产险）平均投资收益率处于3.5%的水平，说明投资收益率在第2类规模的水平已经达到相对最优状态，此后不会再出现规模递增。

七、结论与建议

由以上几项分析，我们不难发现规模不佳是大多数中小规模保险公司存在的主要问题。规模不佳导致保险公司盈利能力的下降主要表现在以下几个方面：

（一）费用支出不合理。营业费用作为保险公司一项主要管理成本，主要由新合同费用、合同维持费用和收费费用构成。许多保险公司或者规模小难以分摊成本，或者盲目扩增资产规模而忽视了公司内部运营效率，导致费用支出占比过大。

（二）经营稳定性低。保险业务得以开展的基础是大数定律，即风险单位越多，实际损失的结果会越接近预期损失。而当公司规模过小，导致承保业务量少，违背大数法则，风险不能有效分散，使得公司经营稳定性差。

（三）投资环节薄弱。资金的投资运营是保险公司的一个重要的收入来源，当保险公司规模小，资金不能有效运用，投资收益下降。

针对保险公司存在的问题，笔者认为在做好内部管理、提高效率的同时，适当增大公司规模将有助于提高公司盈利能力。而规模的扩增应以有序的保险市场竞争体系、完善的市场监管机制为前提，提高经营效率的同时需要推进市场改革，从公司内部与市场环境两方面着手实现保险公司经济规模。