成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较*

2012-03-19 00:14花琳琳杨永利

郑州大学学报（医学版） 2012年5期

王曼，施念，花琳琳，杨永利

1)郑州大学学报编辑部郑州450001 2)郑州大学临床医学系郑州450001 3)郑州大学第二附属医院科研外事办公室郑州450014 4)郑州大学公共卫生学院卫生统计学教研室郑州450001

#通讯作者，女，1974年12月生，博士，副教授，研究方向:卫生服务统计方法及应用，E-mail:ylyang377@126.com

缺失值在生活研究的各个领域都普遍存在，特别是在医学研究领域，是常见的棘手问题，很难避免而且会掩盖研究结果的真实性，甚至丢失信息、降低检验效能，还会给研究结果带来一定的偏性。在流行病学调查中，由于调查的不严谨，定性变量资料的缺失较为常见，但对其缺失值处理一直未引起研究者的重视。该研究分别采用成组删除法和多重填补法(multiple Imputation，MI)中的logistic回归法对随机缺失的二分类变量数据集进行处理，分析两种方法对不同缺失率的缺失数据集的处理效果，为二分类变量资料的缺失值处理提供参考。

1 资料与方法

1.1 资料资料来源于“十·五”国家科技攻关计划:艾滋病中医症候分布规律及症候标准建立与验证。于2006年7～12月在河南省158个县(区、市)的40个艾滋病高发县(HIV/AIDS超过200例)中进行多阶段分层随机整群抽样。选择其中的消瘦程度和体质量两个变量作为研究指标，有效样本1 189例，其中男567例，女622例。

1.2 模型的构建因变量消瘦程度分为无、轻、中、重4个等级，首先将其转换成二分类变量(0=无、1=有)，再与协变量体质量建立logistic回归模型logistic(P)=α+βx+ε。在完整数据集的基础上，保留10%的低体质量(＜52 kg)所对应的消瘦程度不变，将90%的高体质量对应的消瘦程度随机删除10%～60%，构建随机缺失数据集。

1.3 缺失值的处理方法根据数据的缺失模式［1］和缺失机制［2］，选择合适的处理方法。成组删除法:将有缺失值的数据整列或成对删除。MI/logistic回归法:logistic回归采用极大似然估计方法估计模型参数，依据回归函数值对观测数据进行分类。对于二分类变量，在所拟合的回归模型的基础上，由参数的后验预测分布模拟一个新的logistic回归模型，以完成对缺失值的填充。

1.4 统计学处理利用SAS 9.2产生不同缺失率的随机缺失数据集，采用成组删除法和MI/logistic回归法对缺失数据集进行处理，并与完整数据集进行比较。评价指标为各模型的回归系数以及标准误。

2 结果

2.1 一般信息完整数据集中，体质量xmin=40 kg，xmax=157 kg，μx=62.8 kg，πy=1=0.293。假设缺失均发生于高体质量水平(≥52 kg)对应的消瘦程度内。10%、20%、30%、40%、50%、60%的假设缺失比例对应的例数分别为119例、238例、357例、476例、595例和713例。

2.2 缺失机制和缺失模式的判断对缺失10%～60%的数据集进行Little’s MCAR检验，均有统计学差异(P＜0.05)，显示为随机缺失机制;利用SAS 9.2对缺失模式进行诊断，结果显示为单调缺失模式。

2.3 2种方法的处理效果见表1、2。

表1 成组删除后各数据集的logistic回归分析结果

表2 M I/logistic回归法填充后各数据集的回归系数和标准误

3 讨论

缺失值问题是医学研究领域的常见问题，研究者必须从研究的设计阶段就开始采取各种措施避免研究过程中产生缺失值［3］。对于已经产生的缺失值，要及时地尽可能采取补救措施对其进行补充。对确实无法弥补的数据应考虑使用合适的缺失值处理方法对其进行处理。资料收集和数据分析人员对定量资料的缺失值处理一直以来比较重视［3］，但一定程度上忽视了对分类资料的处理。成组删除法是最为常用的缺失值处理方法，在数据缺失率较低时，成组删除法方便、准确度高，具有一定优势;但当缺失率较高时，该方法处理结果不仅会丧失大量的信息，还会造成结果的偏倚，不能很好地代表总体。MI/logistic法常用于处理有许多分类变量和二分类变量资料。作者用上述两种方法对随机缺失的二分类变量资料进行处理，对处理效果进行了比较。

该研究所模拟的不同缺失比例的缺失数据集均为随机缺失机制、单调缺失模式，适合MI/logistic回归的条件。对完整数据集和两种方法处理后的数据集建立logistic回归模型，x的回归系数均为负值，exp(^β)均小于1，说明体质量是保护因素。缺失比例很低(缺失率＜10%)时，成组删除法简单易行，结果更接近于真实数据，而MI法程序比较复杂，需占用较大内存和时间进行反复填补，且结果不如成组删除法，与茅群霞等［4］的研究结果相一致。缺失20%～30%时，MI/logistic填补后x的回归系数和标准误偏离了完整数据集，没有成组删除法的效果好，与茅群霞［4］的研究结果相矛盾，可能是因为研究资料的缺失机制不同造成的。缺失40%～50%时，MI/logistic填充2次时x的回归系数和标准误非常接近于完整数据集，优于成组删除法的效果。缺失60%时，两种方法处理效果均不理想，特别是MI/ logistic填充后x的回归系数严重偏离完整数据集。与殷杰等［5］研究结果比较，二分类变量的MI/logistic填充效果较连续性变量填充的优势并不明显。这是由于二分类变量自身分布范围狭窄，MI/logistic回归填充可发挥的空间狭窄造成的。

综上所述，对于随机缺失机制、单调缺失模式的二分类变量资料数据，在缺失较少(缺失率＜40%)的情况下，采用成组删除法简单易行、准确、高效;缺失40%～50%时，采用MI/logistic回归法填充显现出优势，且只需较少的填充次数(2次)即可达到较好的效果;缺失率60%以上时，两种方法处理均不理想，这些数据在当前环境下已失去可利用价值，对于这类数据的处理方法有待进一步探讨。

［1］杨永利，付鹏钰，胡东生，等.期望最大化法和回归法对亚洲心血管病国际合作研究缺失数据填充效果比较［J］.中国卫生统计，2009，26(4):367

［2］曹阳，Sadana R，Tandon A.居民健康调查资料中的缺失数据的多重估算［J］.中国卫生统计，2002，9(5):280

［3］花琳琳，施念，杨永利，等.不同缺失值处理方法对随机缺失数据处理效果的比较［J］.郑州大学学报:医学版，2012，47(3):315

［4］茅群霞.缺失值处理统计方法的模拟比较研究及应用［D］.成都:四川大学，2005.

［5］殷杰，石锐.SAS中处理数据集缺失值方法的对比研究［J］.计算机应用，2007，27:438