主流客户投诉预测模型的对比与研究

2018-10-20 11:01穆晓玛
智能计算机与应用 2018年5期
关键词:因变量线性神经网络

穆晓玛

Abstract: Time series, multiple linear regression and BP neural network are current mainstream forecast algorithms. In this paper, the application of these three algorithms in the field of customer complaint forecasting is studied and compared, and SPSS is used as a tool to predict one week customer complaints, which is taken as the target. Through contrast and analysis, the result of the actual prediction shows that BP neural network algorithm is the most appropriate customer complaints prediction algorithm.

引言

客户投诉是客户对于企业服务的反馈批评与合理陈情,如何更好地预防、处理投诉一直以来都是以客户为中心的各家企业重点关注的工作内容。在投诉发生后,再花费大量人力物力去弥补前愆,也并不可取,消弭投诉于未然无疑是目前堪称理想的应对措施[1]。如何在大量投诉到来之前实现预知,即是此次研究的核心与关键。

时下,客户投诉预测模型往往以ARIMA (Autoregressive Integrated Moving Average Model)时间序列[2]、多元线性回归[3]、BP(Back Propagation)神经网络[4]为基础的算法设计构建而成。这3种算法也各具一定的优、劣势,而当实际分析确定投诉预测模型时,优选合适的研发算法将从根本上决定了投诉预测模型的成功与否。

基于此,本文将以客户一周投诉数量为预测目标,进行3种算法预测的对比研究,从而探讨得出适用于客户投诉预测模型的有效算法。

1算法原理

1.1ARIMA时间序列算法

时间序列是指以时间先后顺序依次排列的一组统计数据。ARIMA时间序列算法包括了自回归过程AR、移动平均过程MA、以及差分过程DX=diff(y,i)。这里,将此算法可解析分述为如下3步:

(1)时间序列差分/平稳处理。通过散点图、自相关(Auto-Correlation Function)、偏自相关(Partial Auto-Correlation Function)查证序列的平稳性,根据平稳性特点确定差分阶数,以及是否需要进行差分处理。

(2)模型参数阶数识别。ARIMA(p,d,q)模型中,参数p为自回归项,参数q为移动平均项数,参数d为时间序列趋于平稳时需调用的差分次数[5]。研究中,可参照数据序列的自相关函数与偏相关函数的截尾、拖尾特性来设定ARIMA(p,d,q)模型中的各特征参数。

(3)模型检验。通过构造box-pierce的修正统计量Q来进行残差序列白噪声检验。研究推得公式表述如下:Q=(N-D-max(p,q))∑mk=1p2k(a^)(1)1.2多元线性回归

回归可用于研究因变量与自变量之间的关系,就是通过回归方程来刻画表达自变量与因变量之间的依存关系。多元线性回归模型则是特别表征了某一因变量与多个自变量之间的相互关系[6]。对此设计过程可解析分述为如下3步。

(1)自變量选择。在建模时,首先将选择自变量。自变量筛选方法主要有逐步回归法与灰色关联度方法。

1.3BP神经网络

BP神经网络是一种多层前馈式神经网络,基础原理是通过使用误差逆传播算法进行神经网络训练,这也是目前得到广泛使用的神经网络算法之一。BP神经网络的神经元主要具备了3个基本功能,即修改权值、求和及转移[7]。设计流程步骤可详见如下。

(1)神经网络初始化。为各个神经元连接权值(Wji)与阈值(Bj)赋予(-1,1)的随机数。

(2)计算输入层输出。随机选取一个输入向量Xp=(x1x2...xn),计算期望输出向量Yp=(y1y2...yn)。

2测试过程

2.1数据说明

本文以用户投诉工单一周总量为预测目标,选取的数据时段的范围区间为2015年7月至2016年9月。其中,ARIMA时间序列预测方法仅需要投诉大类的统计数据。

多元线性回归与BP神经网络则将使用一周投诉总量为因变量,经过数据筛选,从信息查询、业务咨询、故障报修、举报、意见、建议、表扬、服务申请中筛选25个一级工单作为预测模型自变量。时间区间同样设定为2015年7月至2016年9月,可截选数据约为1 444 248条。

2.2ARIMA时间序列算法

考虑到预测目标为一周的投诉事件总量,故而本研究需要将原始数据按照周期为7进行划分,得到7组时间序列。继而重复7次ARIMA时间序列预测得到所有预测值,这就将原始时间序列拆分为7组不同的时间序列,并以此建立时间序列预测模型。模型参数及模型评价的综合运行结果可见表1。

2.3多元线性回归

多元线性回归采用投诉量/周作为因变量。当要预测t天的投诉量/周时,可采用除投诉工单外的t-1天其它一级工单作为自变量,并且采用stepwise逐步回归法进行因变量筛选。

2.4神经网络算法

由于数据量较小,训练量及计算量不大,故采用较低的学习率来提高模型的匹配度。使用IBM SPSS Statistics为工具进行拟用于预测的神经网络模型构建,相关配置信息可见表3。

3結束语

综合以上结论,对各种算法的运行集结归类,由此得到设计处理后的最终呈现具体可见表4。从表4中可以得出,神经网络算法构建的预测模型在准确度上远高于其它2种算法。从算法的本质及预测结果分析可得,时间序列的原理是通过自回归与移动平均的过程,进行未来值的预测。此类预测是建立在对于长期趋势、季节变动、循环变动的识别基础上,而对于不规则变动预测性很差。多元线性回归应用在现实情况中会遭遇投诉与其它客户诉求之间本就不是线性关系的困扰,回归拟合的方式并不能真正体现自变量与因变量的映射关系。同样,在实际构筑模型的过程中,自变量的选择也是一个难题,众多自变量中的灰色相关度彼此之间相差不大。大量选择自变量将无法确保有效拟合,少量选择自变量则无法进行准确预测。而神经网络算法则是基于非线性的特点来寻求自变量与因变量之间联系的模型,通过多层的网络结构反映数目可观、且更为复杂的自变量与因变量的映射关系[8]。同时,BP神经网络的误差逆传播算法也使其获得了强大的学习训练能力。

至此,可得如下研究结论:BP神经网络从算例预测的准确性、自变量与因变量之间关系的拟合程度来看,都是构筑客户投诉预测模型的最优算法。

参考文献

[1] 刘莹莹, 田雪, 姚佳,等. 电子商务的客户抱怨管理[J]. 电子商务, 2015(1):54,62.

[2] 颜伟, 程超, 薛斌,等. 结合X12乘法模型和ARIMA模型的月售电量预测方法[J]. 电力系统及其自动化学报, 2016, 28(5):74-80.

[3] 付倩娆. 基于多元线性回归的雾霾预测方法研究[J]. 计算机科学, 2016, 43(6A):526-528.

[4] 陈昕昀, 蒋永康, 李牧原,等. 基于BP神经网络的公共自行车单站点调度需求量研究[J]. 交通运输研究, 2016, 2(3):30-35.

[5] 韩超, 宋苏, 王成红. 基于ARIMA模型的短时交通流实时自适应预测[J]. 系统仿真学报, 2004, 16(7):1530-1532,1535.

[6] 陈永胜, 宋立新. 多元线性回归建模以及SPSS软件求解[J]. 通化师范学院学报, 2007, 28(12):8-9,12.

[7] 柳小桐. BP神经网络输入层数据归一化研究[J]. 机械工程与自动化, 2010(3):122-123,126.

[8] 张景阳, 潘光友. 多元线性回归与BP神经网络预测模型对比与运用研究[J]. 昆明理工大学学报(自然科学版), 2013,38(6):61-67.

猜你喜欢
因变量线性神经网络
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
基于自适应神经网络的电网稳定性预测
关于非齐次线性微分方程的一个证明
非齐次线性微分方程的常数变易法
线性耳饰
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则