顾客满意度测评中的缺失值处理方法

2013-05-10 10:04赵富强

统计与决策 2013年6期

赵富强

（天津财经大学，天津300222）

1 缺失值产生的原因、方式及处理方法

缺失值（Missing Value）是指在进行问卷抽样调查或实验性研究中，应该从抽样的样本单元中得到而实际上却由于种种原因而未得到所需的数据；也称为缺失数据（Missing Data）。

在进行实验性研究或问卷抽样调查中，数据缺失现象经常发生，主要原因包括：①被调查者不愿提供调查所需要的信息；②不可人为控制的因素造成数据的缺失；③调研人员本身或调查系统的原因没有收集到完全的信息；④信息填报汇总错误原因造成数据的缺失等。产生缺失数据原因多种多样，实际工作中有时很难判断和检测缺失数据产生的机制与方式。为了认识和研究缺失的数据，从形式上将其分为单元缺失与项目缺失两种。Little和Rubin定义了以下三种不同的数据缺失机制：完全随机缺失(Missing Completely at Random，MCAR)、随机缺失（Missing at Random，MAR）和不可忽略的缺失（Non-ignorable Missing，NIM）。整个缺失数据的推估过程中，缺失数据的情况表现为三种方式[1,2]：单变量缺失、单调缺失型和任意缺失型。

缺失值的处理方法主要包括删除法(Deletion)、插补法（Imputation）和最大似然估计法(Maximum likelihood)[3]等。缺失值插补法包括：均值插补法（Mean Imputation）、随机插补法和多重插补方法（Multiple Imputation，MI）等。

在文献[4]中，Lohmöller’s PLSX对缺失值的处理为：⑴如果所有的显变量样本值都缺失，那么该样本无效，无法估计潜变量。⑵如果该块的显变量样本值不全缺失，那么计算潜变量估计时，缺失的显变量值由该显变量的均值替代。⑶如果该潜变量估计值有缺失，那么计算内部估计时，缺失值由0替代。⑷权重的计算：①模式A（Mode A）：权重根据公式计算；②模式B（Mode B）：当没有缺失值按照公式计算；有缺失值时，采用成对删除法把对应的缺失样本值删除，即不考虑在内，然后利用公式来计算权重。

除了上述方法外，缺失值处理方法还有回归或主成分法、最大似然估计法、相似反应模式算法（Similar Response Pattern Imputation）、EM算法（Expected Maximization Algorithm）和MCMC算法（Markov Chain Monte Carlo）等。

2 基于分类的缺失值处理方法

基于分类的缺失值处理方法是通过对被调查对象问卷分值的分析，选择关键字段进行分类，然后使用上述的缺失值处理方法进行缺失值处理。主要包括：分类的均值插补法、分类的多重插补法和分类的K-means方法等。

均值插补法是用每个变量的均值取代该变量的缺失值。分类均值插补法是先对数据进行分类，然后同类中的缺失值进行均值插补；在一定程度上克服了均值插补法替代值过于凝集和容易扭曲目标变量分布的弱点，使替代值的分布与真值分布更为接近。

多重插补法由1987年由Dempster教授和美国哈佛大学Rubin教授提出。在2000年，Paul D.Allison[5]博士也对多重插补法进行了深入研究。它是一种用两个或者更多的可得到的并且能反映数据本身分布概率的值来插补缺失或者不完善数据的一种方法。多重插补方法的主要思想是，给每个缺失值都构造m个估计值（m＞1），这样就产生出m个完全数据集，对每个完全数据集分别使用相同的方法进行处理，得到m个处理结果，最后再综合这m个处理结果，最终得到对目标变量的估计。多重填补法使得被插补的缺失数据能够接近“真实”。该方法主要应用于生物医学、行为学和社会科学等领域，已成为处理缺失数据的最常用方法之一。而分类多重插补法是先对数据进行分类，然后同类中的缺失值进行多重插补；

分类K-means方法是先对数据进行分类，然后同类中的缺失值进行聚类中心值插补。

3 分类缺失值处理方法在满意度测评中应用

以某食品公司为研究对象，以ACSI为测评模型，即包含6个潜变量，15个显变量。数据的收集采取网上调查的方式进行，参与网上调查的用户为252位，因此样本量为252。

求解带缺失值的顾客满意度指数步骤如下：

（1）异常值处理。

所谓异常值是被调查顾客在回答问卷时，由于各种原因而选择了“不知道”、“拒绝回答”以及“超出数值范围”等选项时系统默认的值。问卷采用10分制，从1分到10分供被调查者选择，且只能选择一个。对被调查者不知道或拒绝的回答，在数据库里进行了标识（98表示不知道；99表示拒绝；101表示从来不购买）。这些数据在进行处理时按照缺失值处理。

（2）数据标准化。

使得样本值的均值为0、方差为1；

（3）缺失值处理。

通过对被调查对象问卷分值的分析，选择满意度字段进行分类，满意度分值从1到10分，共分为十个类别。分别采用类均值插补法、分类多重插补法和分类K-means方法进行缺失值处理。

（4）利用PLS算法来估计模型中各个参数，反复迭代得到潜变量估计值。

（5）求出顾客满意度指数。

根据第四步求得的权重系数，计算出顾客满意度指数[1]。

图1和图2分别表示分类多重插补法在20%的缺失值比率下总体期望取值密度分布和总体期望缺失率与取值分布图；仅给出了总体顾客期望的插补情况，顾客满意度分类值为10，样本量为112个，迭代次数为9次，插补效果满意。

图1 总体期望取值密度分布图

图2 总体期望缺失率与取值分布图

图3 表示在不同缺失率下各种缺失值处理方法均方根误差RMSE比较。其中，(a)图表示均值插补与分类均值插补均方根误差比较；(b)图表示多重插补与分类的多重插补均方根误差比较；(c)图表示K-means与分类K-means均方根误差比较，k的取值不同。

图3 缺失率与RMSE关系图

结果分析：通过实验数据分析，三种基于分类的缺失值处理方法优于未采用分类的缺失值处理方法。其中分类K-means方法RMSE最小，如图(c)所示；在K-means和分类K-means方法中，k的取值不同结果有差异，k值越大误差越小。分类多重插补法误差最大，如图(b)所示（多重插补法缺失值比率超过50%后，RMSE值大于6。）。

在顾客满意度测评中，对满意度关键字段进行分类，进而采用相关的缺失值插补方法，即基于分类的缺失值处理方法是有效的。

4 结论与展望

通过对缺失值处理方法分析，提出基于分类的三种缺失值处理方法：分类的均值插补法、分类的多重插补法和分类的K-means方法；以某食品公司为研究对象，分析了带缺失值的顾客满意度指数测评步骤：异常值处理、数据标准化、缺失值处理等；对顾客满意度测评常规模型进行带缺失值的实证分析和评价，基于分类的三种缺失值处理方法优于均值插补法、多重插补法和K-means方法。但论文仅对顾客满意度字段进行了分类研究，没有考虑其它字段的分类情况、多个字段分类情况及各字段间关系等，这些是今后深入研究的问题。

[1]Wang Q H,Rao J N K.Empirical Likelihood for Linear Regression Models under Imputation for Missing Response[J].The Canadian Jour⁃nal Statistics,2001,29.

[2]Allison,Paul D.Missing Data Techniquesfor Structural Equation Mod⁃els[J].Journal of Abnormal Psychology,2003,112.

[3]Fatukasi,O.Kittler,J.Poh,N.Estimation of Missing Values in Multi⁃modal Biometric Fusion[J].Biometrics Theory Applications and Sys⁃tems,2008,9.

[4]Tenenhaus,M.,Vinzi,V.E.,Chatelin,Y.M.,Lauro,C.PLSPath Model⁃ing[J].Computational Statisticsand Data Analysis,2005，48(1).

[5]Allison,Paul D.Multiple Imputation for Missing Data:a Cautionary tale[J].Sociological Methodsand Research,2000,28.