基于K-Means和Logistic的寿险客户流失预测模型研究

2020-09-24 03:16张馨予门玉杰孙晓红
中国商论 2020年17期

张馨予 门玉杰 孙晓红

摘 要:为了帮助寿险行业从海量业务交易中提取有效客户信息并进行客户保留,本文首先用K-Means算法进行寿险客户的价值细分,初步判断哪类客户最有可能流失,并针对不同价值群体的客户给予公司不同的建议;其次对细分后的客户群体建立Logistic二分类回归预测模型,比较与细分前的预测精度差异。实验结果中,细分后客户群对应Logistic模型的准确率、召回率和F1值较细分前均有提升,这说明客户细分能为其流失预测提供有价值的信息,有助于寿险公司盈利水平的提高。

关键词:寿险客户流失  客户细分  K-Means算法  Logistic模型

中图分类号:F840.62 文献标识码:A 文章编号:2096-0298(2020)09(a)--03

客户流失是指公司现存客户停止与当前公司的业务交易,转而与该公司的竞争对手进行业务交易[1],它是引发公司经济不景气的潜在不利因素。寿险客户为非合约客户,相关性较弱且流动率较高,因此客户保留工作不容小觑。

国内针对寿险行业的客户流失预测研究起步较晚、成果较少。2008年,孙红等建立寿险客户流失的价值指标体系,用决策树算法输出各项指标对决策的影响[2]。2013年,周晓玮构建寿险预警指标,使用BP神经网络建立流失预测模型[3]。2015年,梁锋将数据挖掘技术应用到寿险行业中,利用决策树算法建立预测模型[4]。20世纪50年代中期,温德尔提出“客户细分”的概念,旨在从庞大的客户信息中获取少量精准信息进行客户分类,方便公司进行营销管理,实现经济效益最大化。考虑到在寿险行业中,甚少有学者采用对客户进行先细分后流失预测的建模方法。本文首先用K-Means聚类算法对寿险客户进行价值细分,获得不同价值类别的客户;其次建立Logistic二分类模型进行客户流失预测,并比较细分前、细分后的预测效果。本文提出的方法,可以帮助寿险公司从宏观上预测客户流失的人数,从微观上判断客户的状态,为寿险行业的客户保留提供可行建议。

1 寿险客户价值指标体系

实验数据为某寿险公司网站(http://www.chinalife.com.cn/)2016年1月1日—2018年12月31日的交易数据。观察到原始数据的交叉性较强:若一位投保人同时为多位被保险人支付保险订单,且其中的一位被保险人退保,其他几位未退保,此时已发生客户流失现象。因此有必要寻找对应关系(投保人—被保险人—客户),整理得到寿险客户价值指标体系,如表1所示。

2 寿险客户细分

将处理后的2000条寿险客户数据导入SPSS20.0中进行K-Means聚类分析,最终聚类结果如表2所示。

通常,在寿险客户与公司的业务交易中,若客户的信用水平越高、对应缴费金额越大,说明该客户的经济水平以及对产品的热衷度越高,发生流失现象的可能性越小。由表2观察到,III客户群的缴费金额最大、信用水平最高,由此识别为高价值群体;II客户群的信用水平一般,且缴费金额最小,由此识别为低价值群体;I客户群的缴费金额介于II客户群和III客户群之间,由此识别为中价值群体。最终得到价值排序:III>I>II。统计各类客户的人数以及所占百分比,发现高价值客户仅占总数的4.7%,低价值客户占总数最多,为77.3%,差异较大。

3 基于Logistic模型的寿险客户流失预测

3.1 Logistic二分类回归预测

将原始数据中含“退保”字样的客户识别为流失(Y=1),其他为未流失(Y=0),进行Logistic二分类回归预测,并以细分前客户的实验过程为例进行展示。选取训练数据1000条,测试数据700条。

将7个寿险客户价值指标全部用来拟合Logistic模型,筛选出P值小于0.5的寿险客户价值指标{年龄、职业、收入、信用、动机},并作为自变量重新拟合Logistic模型,得到训练集的预测结果,如表3所示。

表3说明,使用该Logistic回归方程对样本点进行分类,其总计预测精确度为96.4%;实际未流失的911位客户中有903位被预测出来,有8个发生误判现象,正确率达到99.1%。这表明该模型在预测实际未流失人数上精度较高,但实际流失人数的预测精度仅为68.5%,有待提升。

从表4可以看出,年龄的偏回归系数为负数且绝对值最大,这说明其与客户流失的负相关性很强,年龄越大,客户越不易流失。动机的偏回归系数为正数且绝对值较大,说明其与客户流失的正相关性较强:动机越倾向于按需购买,客户状态越稳定。

动机的OR值最大(为1.920),说明它是影响客户流失的主要危险因素;收入与职业的OR值(分别为1.397和1.341)也均大于1,也是影响客户流失的重要危险因素。而年龄和信用的OR值均小于1,是保护因素。由Logistic模型原理[5]和表4中的Exp (B)一列可得式(1)。其中变量X1~X5分别表示“年龄”“职业”“收入”“信用”和“动机”。

Logistic二分类模型的概率形式如式(2)、式(3)所示。

将700条测试数据带入式(2)、式(3)检验,得到预测结果如表5所示。

从表5可以看出,使用建立的Logistic模型预测训练样本外的客户状态,其预测精度高达98.1%,较之前的96.4%有明显提升。实际未流失的639位客户有634位得到了正确的预测,有5位错判,预测精度达到99.2%;对于实际流失的61位客户,有53位得到了正确的预测,预测精度高达86.9%,相比之前训练集的预测精度68.5%得到显著提高,这表明该模型有较好的泛化能力。

3.2 实验结果汇总

将细分后的高价值客户、中价值客户以及低价值客户分别用于Logistic二分类回归预测建模,根据测试集预测结果的二分类混淆矩阵计算准确率、召回率、F1值,并进行细分前、细分后的对比。

从表6可以看出,细分后三类客户实验结果的准确率、召回率、F1值均有提高,说明客户细分有助于流失预测效果的提升。其中提升最明显的是低价值客户,准确率为94.5%、召回率为89.3%、F1值达到91.8%;提升最不明显的是高价值客户。

4 结语

对寿险行业而言,客户是其生存和发展的重要基础,而客户细分和流失预测能帮助公司从海量交易中提取出有效的客户信息,方便公司的营销管理。本文建立寿险客户价值指标体系,对不同价值类别的寿险客户进行细分和研究,并对细分前后的客户运用Logistic二分类模型进行流失预测。实证表明,细分后的准确率、召回率、F1值较细分前有明显提高,这表明客户细分对于流失预测效果的提升有一定作用。

在实际经营中,寿险公司应当与时俱进,及时调整管理策略,不断提升服务水平,减少流失客户,保持现有客户。公司可以对客户进行分类管理:对于购买力强、较理性的高价值客户,在为其精心策划寿险服务的同时,还应当给予完善的售后服务,使其尽最大可能保持;对于人数比重大的低价值客户,公司可以给予该群体中信用评级相对高的客户一些优惠活动,以增加客户续购产品的可能性;对于中价值客户,可以综合前两者的方案进行保留管理。

参考文献

任红娟,夏国恩.客户流失研究综述[J].中国商论,2018(32).

孫红,朱雷,刘毅婷.决策树在寿险企业客户流失分析中的应用[J].现代商业,2008(20).

周晓玮.BP神经网络技术在寿险营销系统中的应用研究[D].上海:上海交通大学,2014.

梁锋.数据挖掘技术在寿险客户流失中的应用[J].电子科学技术,2015,02(01).

郑宇晨,吕王勇.基于logistic模型的证券公司客户流失预警分析[J].郑州航空工业管理学院学报,2016,34(05).