基于多层次模型的小域估计方法研究
——考虑抽样误差与测量误差的比率估计

2024-05-04 11:38武雅萱刘晓宇
统计与决策 2024年7期
关键词:恩格尔系数测量误差样本量

武雅萱,刘晓宇

(1.中国人民大学统计学院,北京 100872;2.首都经济贸易大学统计学院,北京 100070)

0 引言

抽样调查中的小域估计问题指的是,在对有限总体的子总体进行估计时,所存在的样本量无法满足估计精度要求的问题[1]。由于组织时间、调查费用等因素的限制,扩大样本量或补充样本的解决方式收效较低,欲从根本上解决小域估计问题需要依赖对估计方法的改进[2]。传统基于设计的推断方式,例如以样本目标变量观测值与抽样权数的乘积为基础构造的HT估计,需要较大样本量来保证估计量的渐近性质,但小域估计中的域样本量通常不足以获得可靠的基于设计的估计量,基于设计的估计量方差可能会大到难以接受的水平,此时需要采用基于模型的方法进行小域估计。

基于模型的小域估计方法通过模型刻画目标变量和辅助变量之间的关系,并将不同小域联系起来,借助其他相似小域的样本信息对本小域目标变量进行估计,其推断效果仅依赖于模型假设,适用于数据缺失严重、样本量极小的小域估计问题[3]。一般根据辅助信息的层次将模型分为域层次模型[4]和单元层次模型[5]。有限总体和小域之间存在层次结构,多层次模型既能对域间异质性和域内相关性予以考察,又能利用域层次的辅助信息,还能利用单元层次的辅助信息,在小域估计中有着重要应用[6—8]。

测量误差是测量值和真实值之间的差异,导致测量误差产生的原因较多,如问题设置不当、受社会期许影响、受访者受教育程度有限等。最常用的校正思路是,假定观测值和真实值之间满足某种函数关系,通过预测变量真实值来校正测量误差[9]。目前,鲜有研究直接对目标变量的测量误差进行校正,对基于模型小域估计方法的测量误差的考察集中于辅助变量,当纳入模型的辅助变量存在测量误差时,会导致参数估计出现偏差,推断效果有可能劣于基于设计的估计[10]。贝叶斯方法常被用于测量误差校正[10—13]。

我国对贝叶斯小域估计模型的理论研究较少,主要集中于应用上[14]。本文在前人研究的基础上进行拓展,采用多层次模型进行小域估计。第一层模型用于刻画域间异质性,对各小域的变量分布进行建模;第二层模型用于刻画域间相关性,借助其他域的样本单元实现对指定小域的估计,并对第二层模型的参数建立测量误差模型。同时,考察抽样误差和非抽样误差的影响,直接对目标变量建立抽样误差模型和测量误差模型。针对所提出的模型,本文提出具体的参数估计与误差估计方法,通过模拟实验验证所提方法的具体效果,并将其应用于实际数据集。

1 基于多层次模型的小域比率估计

记有限总体为U,总体规模为N,总体可划分为m个小域(U1,U2,…,Um),Ui的规模为Ni。经一定抽样设计,从总体中抽取样本,记样本为s,样本量为n,第i个小域中抽得的样本量为ni,。以第i个小域中第j个单元的比率估计Rij为目标变量,Rij=Yij Mij,i=1,…,m;j=1,…,ni。其中,变量Mij是变量Yij相应的总量度量,Rij∈( 0,1) ,以各小域均值为最终估计目标,,记辅助变量为Xij。对目标变量建立抽样误差模型和测量误差模型。

抽样误差模型为:

其中,uij为第i个小域中第j个单元的抽样误差;为抽样误差方差的估计值,可由抽样设计得到。

测量误差模型为:

以小域为单位建立第一层模型,考虑抽样误差与测量误差,结合式(1)、式(2)可得第一层模型如下:

其中,p(·)为连接函数,用于将数值转化至0~1范围内,以满足Rij∈( 0,1) 的要求。在第一层模型中,各个小域的回归系数βi及方差膨胀因子ψi不同,由此刻画了域间异质性。

考虑不同小域之间的相似性,对域层次的参数建立第二层模型:

其中待估计参数θ=(β,Σ,ψ,Φ )。由于无法获取βi和ψi的真实值,只能从第一层模型中获得βi和ψi的估计值和,故进一步考虑其测量误差,假定:

其中,和为相应的方差估计,本文采用三明治公式,根据第一层模型估计结果和单元层次数据计算得到。三明治估计量的优点在于,即使在拟合参数模型不成立或甚至没有指定的情况下,它也能为参数估计提供一致的协方差矩阵估计值[15]。根据贝叶斯公式,由式(7)、式(8)可得βi和ψi后验分布分别为:

2 参数估计与误差估计

2.1 第一层模型参数估计

对于第一层模型,先采用最小二乘法,计算各个小域的回归系数βi及方差膨胀因子ψi的估计值和:

将估计结果作为初始值和,采用伪极大似然估计法进行迭代更新。给定第t次迭代值和,计算第t+1次迭代值和:

2.2 第二层模型参数估计

对于第二层模型,先采用三明治公式计算测量误差模型中的方差和,化简得:

再利用EM 算法求解待估参数θ=(β,Σ,ψ,Φ ),具体过程如下:

首先,求解(β,Σ)。取初始值重复如下E 步和M 步迭代至收敛,结果记作

(1)E步:给定第t次迭代值和,计算联合分布的条件概率期望:

其中,f(βi;β),Σ为βi的概率密度函数。

(2)M步:最大化联合分布的条件概率期望,记第t+1次迭代值为和,有:

解得:

其次,类似于求解(β,Σ)的过程,再次利用EM 算法求解待估计参数(ψ,Φ )。取初始值。重复如下E步和M步迭代至收敛,结果记作

(1)E步:给定第t次迭代结果和,计算联合分布的条件概率期望:

其中,f(ψi;ψ,Φ )为ψi的概率密度函数。

(2)M步:最大化联合分布的条件概率期望,记第t+1次迭代值为和,有:

解得:

最后,利用βi和ψi的贝叶斯后验分布,获得估计值分别为:

2.3 目标量及其误差估计

根据Prasad和Rao(1990)[16]对最优无偏线性预测的讨论,可得第i个小域中第j个单元目标变量Rij的最优估计为:

为估计的误差,定义,有:

3 模拟研究

为了检验多层次模型在小域估计中的应用效果,本文模拟真实应用场景,按照如下步骤生成样本数据。

考虑两种不同大小的域数量m=10、m=20,假设子总体规模Ni=2000,i=1,…,m。首先,对于第i个小域中第j个单元(i=1,…,m;j=1,…,Ni)生成变量Mij~50+Bin(100,0.5) ,辅助变量Xij1~Mij·Beta(2,5+0.1×i),Xij2~Mij·Beta(5,5+0.1×i)。然后,记Xij=(1,Xij1,Xij2)T,取β=(0,0.4,0.6)T,Σ=diag(σ2,σ2,σ2),σ2=0.01,生成服从多元正态分布的域回归系数βi~N(β,Σ),由此可计算得到比率。假设方差膨胀系数服从正态分布ψi~N(0.5,0.16 ),生成测量误差eij|pij~N(0,ψi pij(1-pij)),进而得到带测量误差的比率为Rij=pij+eij,假设抽样误差的方差为,则可以进一步生成各单元的抽样误差,进而得到观测值。最后,根据辅助变量Xij2的中位数和上下四分位数将总体划分为四层,采用与规模成比例的分层抽样抽得样本量n=100 的样本。将模拟生成的观测值,辅助变量Mij、Xij1和Xij2,以及抽样误差的方差作为已知信息,估计目标变量Rij。

重复实验1000次,采用HT估计和本文提出的多层次模型进行估计,结果见表1。对于域个数较多的情况(m=20),表1中仅列示各小域估计结果的均值。其中,相对有效性表示模型估计误差平方与HT估计误差平方的比值,比值在0 到1 之间说明模型估计比HT 估计有效性更高,比值越小,表明模型校正效果越好。

从表1可知,整体而言,HT估计的相对偏差大于模型估计的相对偏差,模型估计仅有一个小域的相对偏差略大于HT估计,且HT估计的MSE均不小于模型估计的MSE,说明模型估计的结果更稳定。相对有效性均小于1,进一步说明了模型估计的优势。

4 实证分析

本文以恩格尔系数的估计为例,基于2018 年中国综合社会调查(CGSS)数据进行实证分析。恩格尔系数可由年家庭食品消费支出除以年家庭总支出计算得到。基于“省份”“居委会或村委会”“出生年份”“受教育程度”“2017年家庭食品支出”“2017年家庭总支出”“样本权重”构造完整数据集,以不同省份、直辖市、自治区为小域,得到有效样本3579个。

将样本按地理分布划分为华北、东北、华东、中南、西南、西北5 个地区。各省份发展情况存在差异,但同一地区的省份较为接近,因此,假设多层次模型中域间回归系数存在差异,同一地区内的域回归系数独立同分布。以城乡、年龄、受教育程度为辅助变量,采用本文所提多层次模型进行估计,并与传统基于设计的HT估计进行比较,各域有效样本量及估计结果见表2。

表2 各域有效样本量及恩格尔系数估计结果

国家统计局公布的2017 年全国居民恩格尔系数为0.293,城镇居民恩格尔系数为0.286,农村居民恩格尔系数为0.312。从表3中可以发现,HT估计整体偏高,特别是北京的恩格尔系数估计受异常值影响,估计结果为2.710,误差远超可承受范围。模型估计可以较好地解决抽样误差和测量误差较大的问题,对于大部分域而言,模型估计结果更接近国家统计局公布的数据。

模型估计不仅可以给出域级别估计,还可以充分利用小域之间的关联,自下而上得到地区、国家层面的估计。对于华北地区,受到北京数据异常值的影响,HT估计结果为1.514,远超全国平均水平0.293,误差依然处于不可忽略的程度;而多层次模型由于利用了地区内省份的相似性,因此极大地降低了估计误差,模型估计结果为0.214,相较于全国平均水平0.293略低,比HT估计更为合理。类似地,对于东北、华东、中南等地区,多层次模型估计结果相比HT估计均有略微下降,起到了误差校正的作用。对于恩格尔系数低于全国平均水平的西南和西北地区而言,HT估计结果与模型估计结果无较大差异。由于样本代表性较差,HT估计用于估计全国恩格尔系数不再可靠,估计结果为0.536,与国家统计局公布的数据差距较大,但本文所提模型估计结果为0.294,与国家统计局公布的数据几乎一致,更加体现了本文所提模型的优势。

5 结论

利用一套样本进行子总体估计,往往存在划分后的各小域样本量较小且分布不均匀的问题,尤其是当所关注的子总体在抽样设计阶段未考虑到时,需要依赖较少甚至为0 的样本量推断子总体特征。基于模型的推断效果受样本量制约较小,相比基于设计的推断更加适用于小域估计。本文方法采用多层次模型进行小域估计,尽可能挖掘样本信息,第一层模型用于刻画域间异质性,第二层模型用于刻画域间相关性,借助其他域样本估计指定小域特征,并在此基础上对抽样误差和非抽样误差中的测量误差进行校正。模拟结果验证了本文方法的效果:本文方法在样本自身质量较差时仍可作出较为合理、可靠的估计,且在自下而上进行多层次估计时仍能保证估计效果。

虽然基于模型能得到较好的估计结果,但不能因此而忽视数据采集阶段的抽样设计和质量把控,高质量的样本对保证小域估计的精度至关重要。我国大型抽样调查一般以省为单位进行样本抽取和指标估计,调查样本仅能实现国家层面和省级单位的估计,难以满足市级、县级等细分单位的低层次估计需要,此类多层次估计需求可以通过小域估计实现,本文所提多层次模型为此提供了实践方案。事实上,本文模型不仅可以估计比率,而且可以直接对其他分布的目标变量建模,或通过比率间接估计目标变量,两种思路的实际效果如何需要另行讨论。总体而言,我国基于模型小域估计的理论研究与相关实践还不多,本文作了一些尝试,小域之间空间相关性的建模、域层次模型、单元层次模型的选择等都有待进一步研究。

猜你喜欢
恩格尔系数测量误差样本量
理性看待恩格尔系数下降
密度测量误差分析
医学研究中样本量的选择
纵向数据下变系数测量误差模型的渐近估计
恩格尔系数再创新低意味着什么
航空装备测试性试验样本量确定方法
浅析恩格尔系数
Sample Size Calculations for Comparing Groups with Binary Outcomes
牵引变压器功率测量误差分析
IMU/GPS测量误差对斜视条件下机载重轨干涉