缺失数据下线性模型响应变量均值估计的渐近正态性*

2012-12-25 06:49施红星
湖州师范学院学报 2012年1期
关键词:正态楚雄回归系数

施红星

(楚雄师范学院 初等教育学院,云南 楚雄 675000)

缺失数据下线性模型响应变量均值估计的渐近正态性*

施红星

(楚雄师范学院 初等教育学院,云南 楚雄 675000)

考虑响应变量随机缺失下线性模型响应变量均值的估计问题,分别获得了基于完全观测样本数据、线性回归插补后的“完全样本”和逆概率加权插补后的“完全样本”得到的响应变量均值估计,并证明了其渐近正态性.

线性模型;响应变量;随机缺失;渐近正态性

MSC 2000:62J05

0 引言

统计分析的数据主要来自于调查数据和实验数据,在涉及这两大方面的众多研究领域中,不可避免地会遇到数据缺失的问题,对缺失数据的研究一直是统计学界的热点课题之一.处理缺失数据的常用方法是插补法,即利用已观测到的数据对缺失值进行插补,然后将补足后的数据作为“完全样本”进行统计推断.这方面的系统研究详见文献[1]、[2].回归模型是揭示变量间相互影响的有力工具,目前已建立了参数、非参数和半参数回归模型的统计推断理论.线性模型是其中形式最为简单,应用最为广泛的参数模型,也涌现出大批有关线性模型的研究成果.在样本无缺失的情形下,文献[3]对线性模型回归系数估计和误差方差估计的大样本性质进行了系统的研究;在缺失数据情形下,文献[4]、[5]利用线性回归插补的方法,分别研究了响应变量随机缺失情形下回归系数和响应变量均值的经验似然推断,文献[6]在响应变量随机缺失下采用加权调整的方法,构造出线性模型回归系数和响应变量均值的经验似然置信域和置信区间,文献[7]、[8]在协变量随机缺失下,给出线性模型回归系数的经验似然置信域.关于随机缺失的相关研究工作可参见文献[9]、[10].

在缺失数据下,对感兴趣参数估计性质的研究是进一步进行统计推断(如构造置信域和进行假设检验)的基础.文献[11]讨论了缺失数据下线性模型回归系数估计的大样本性质.本文主要讨论响应变量随机缺失下线性模型中响应变量均值估计的渐近正态性.

考虑如下线性模型:

其中Yi为响应变量,Xi为p维协变量,β为p×1未知回归系数向量,随机误差εi为独立同分布随机变量序列,满足E(εi|Xi)=0.假定{(Xi,Yi,δi),1≤i≤n}为来自模型(1)的观测样本,其中所有的Xi能完全观测,Yi有缺失,δi为指示Yi缺失的变量,即

用(X,Y,δ)表示样本{(Xi,Yi,δi),1≤i≤n}所对应的总体,我们假定Yi为随机缺失,满足 MAR缺失机制,即

其中P(x)未知.(2)式蕴含了在给定Xi的条件下,δi与Yi条件独立,该假定在有关缺失数据统计分析中比较常用且在实际应用中是合理有效的.

本文在线性模型响应变量随机缺失的情形下,分别基于完全观测数据、线性回归插补得到的“完全数据”,以及逆概率加权插补得到的“完全数据”,用三种方法得到Y均值θ的不同估计,并讨论它们的渐近性质.

为方便论述,引入下列记号:

1 估计方法和主要结果

1.1 基于完全观测数据的估计

1.2 基于回归插补的估计

1.3 基于加权插补的估计

2 定理的证明

[1]LITTLE R J A,RUBIN D B.Statistical analysis with missing data [M].New York:John Wilry &Sons,1987:50~71.

[2]金勇进,邵军.缺失数据的统计处理 [M].北京:中国统计出版社,2009:58~77.

[3]陈希孺,陈桂景,吴启光,等.线性模型参数的估计理论 [M].北京:科学出版社,1985:35~178.

[4]WANG Q H,RAO J N K.Empirical likelihood for linear regression models under imputation for missing responses[J].Canad J Statist,2001,29(4):597~608.

[5]WANG Q H,RAO J N K.Empirical likelihood-based inference in linear models with missing data[J].Scand J Statist,2002,29:563~576.

[6]XUE L G.Empirical likelihood for linear models with missing responses[J].J Multivariate Anal,2009,100:1353~1366.

[7]杨宜平.协变量随机缺失下线性模型的经验似然推断及应用 [J].数理统计与管理,2011,30(4):655~663.

[8]王秀丽,盖玉洁,林路.协变量缺失下线性模型中参数的经验似然推断 [J].山东大学学报(理学版),2011,46(1):92~96.

[9]WANG Q H,RAO J N K.Empirical likelihood-based inference under imputation for missing response data[J].Ann Statist,2002,30(3):896~924.

[10]XUE L G.Empirical likelihood confidence intervals for response mean with data missing at random [J].Scand J Statist,2009,36:671~685.

[11]李英华,秦永松.缺失数据下线性模型回归系数估计的大样本性质[J].数学研究,2008,41(4):426~433.

MSC 2000:62J05

Asymptotic Normality of Estimators for the Mean of Response Variables in Linear Models with Missing Data

SHI Hong-xing
(School of Primary Education,Chuxiong Normal College,Chuxiong 675000,China)

The present study considers the linear models with response variable data missing at random and investigates the estimation of the mean of response variables,from which we have obtained asymptotic normality of estimators based on the completely observed pairs,the‘complete’data after linear regression imputation and the‘complete’data after inverse probability weighted imputation.

linear model;response variable;missing at random;asymptotic normality

O212.7

A

1009-1734(2012)01-0001-05

2012-02-17

国家社会科学基金项目(10BTJ001);国家自然科学基金项目(11171105);云南省教育厅科研基金项目(06Y027A);楚雄师院科研基金项目(05-YJYB01).

施红星,副教授,从事应用统计研究.

猜你喜欢
正态楚雄回归系数
名家与楚雄
名家与楚雄
穿越“四大走廊” 品味古今楚雄
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
双幂变换下正态线性回归模型参数的假设检验
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
基于泛正态阻抗云的谐波发射水平估计
半参数EV模型二阶段估计的渐近正态性
楚雄盆地扭动构造及其演化