条件配置抽样的抽样设计

2018-02-25 05:00闫在在郝晓彤

统计与决策 2018年24期

闫在在，常帅，郝晓彤，汤荣

（内蒙古工业大学理学院，呼和浩特 010051）

1 问题的提出

抽样调查是实践中主要的数据收集工具,它的应用领域,如官方统计、质量控制、市场分析、资源统计等的基石。合适的抽样设计是获取高质量调查结果的本质,它直接影响调查成本和调查精度。应用中常使用不等概率抽样设计包括放回地与单元大小成比例的PPS抽样和不放回地与单元大小成比例的πPS抽样，由于πPS抽样设计不会出现重复的样本单元，在实际中更受重视。如何构造和实施πPS抽样设计是一个公开问题[1-12]。Brewer，Early和Joyce（1972）[17]提出一种称为配置抽样的严格πPS抽样设计，其样本容量n也是随机的，配置抽样先给每个单元赋予一个预定的入样概率pi，然后等概率地给总体单元配置一组序号 (L1，L2，…，LN),它是 (1，2，…，N)的一个随机排列。在[0,1]中抽取一个随机数r,令ri=(Li+r-1)/N。若ri＜pi,则i单元入样，否则，该单元不入样。对所有单元均按上述准则确定其是否入样,构成一轮配置抽样。

Brewer，Early，Joyce（1972）[13]和Brewer，Early，Hanif（1984）[14]建立了配置抽样设计的基本理论,并与泊松抽样比较说明配置抽样的优良性，受条件泊松抽样设计思想启发,本文提出通过不断产生配置样本,直到其样本量实现预定容量n时样本才被接受的条件配置抽样。

考虑从目标总体(Y1，Y2，...，YN)中采用不放回不等概率抽样的方法抽取一个容量为n的样本来估计总体总值Y。在估计量构造和评价阶段,必须使用总体中单元i被包含到样本中的一阶包含概率πi=Pr(i)以及任意两个单元i和j都包含到样本中的二阶包含概率πij=Pr(i，j),对于固定的n,满足见文献[15]。Horvitz与 Thompson（1952）提出了著名的总体总和的H-T估计量：

引理1：若 πi＞0(i=1，2，…，N),则Horvitz-Thompson估计是Y的无偏估计,其方差为：

当n固定时,又有：

引理 2 ：若所有的 πi＞0,πij＞0,(i，j=1，2，...，N;i≠j),则：

2 抽样设计描述

针对配置抽样只能得到随机容量样本的缺点，受泊松抽样发展到条件泊松抽样的启发,本文发展了一种固定样本容量的近似πPS抽样设计，其实施方法:预定样本容量n,目标包含概率pi与辅助变量xi成正比。按如下设计进行抽样:

（1）利用包含概率pi实施配置抽样,抽取一个初始样本s0。

（2）如果s0的样本容量满足:ns0=n,则最终的样本s=s0,否则,重复第一步。

称上述设计为条件配置抽样。它实现了样本容量固定,但其一阶包含概率 πi≈pi,i=1，2，…，N。因此该设计为样本容量固定的近似πPS抽样。

3 包含概率理论推导的讨论

根据条件泊松抽样、2PπPS抽样得到包含概率理论表达式的思想,得出一阶、二阶包含概率表达式：

一旦实现一阶、二阶包含概率的解析计算。就可以构造总体总值的Horvitz-Thompson型估计量：

以及估计量的方差：

需要指出的是,实际上式（6）和式（7）只是一、二阶包含概率理论上的形式表达，并不能真正实现一、二阶包含概率的计算。与条件泊松抽样、2PπPS抽样设计计算包含概率比较,瓶颈在于条件泊松抽样、2PπPS抽样设计下使用的初始泊松样本具有样本个体独立的性质;而条件配置抽样设计下使用的初始配置样本个体间不独立；如何实现理论上计算条件配置抽样的包含概率有待研究，本文作为一个公开问题提出。拟数值上给出计算包含概率的方法并评价了提出设计的优良性。

4 数值模拟

由于上述包含概率的表达式还没有得出,即使有也比较复杂或者为递归公式,理论上给出设计的优良性或方案间的比较非常困难，因此,数值模拟具有重要的意义。本文在小总体和小样本时,基于超总体模型下的总体,借助Monte-Carlo方法数值模拟求解包含概率,进而分析条件配置抽样与条件泊松抽样、简单随机抽样间的差别。调查变量根据线性超总体模型产生。计算时,采用超总体Y=1+2(X-0.5)+ε,辅助变量扰动变量为了保持调查变量Y与辅助变量X的主要回归关系,正态扰动变量的方差的大小选择为1/5调查变量Y的方差。使用条件配置抽样设计和条件泊松抽样设计产生容量为n的样本,实施10000轮模拟抽样,计算每种抽样方法对应的方差。算法如下:

（1）使用上述模型产生目标变量Y，辅助变量X，计算入样概率pi，i=1，2，…，N。

（2）按照配置抽样的要求产生对应的r，Li，ri。如果ri＜pi,则第i个单元入样,否则,该单元不入样。这一样本记为s0,如果s0的样本容量满足:ns0=n,则作为最终的条件配置样本s=s0,否则,重新抽样。

（3）以pi为入样概率进行泊松抽样,如果成功,则第i个单元入样,否则,该单元不入样。这一样本记为s0,如果s0的样本容量满足:ns0=n,则作为最终的条件泊松样本s=s0,否则,重新抽样。

（4）分别按照第2步和第3步实施10000次模拟抽样,得到10000个条件配置和条件泊松样本。

（6）采用样本容量n固定的Horvitz-Thompson方差公式：

分别计算条件配置抽样与条件泊松抽样的方差。

下面给出线性超总体模型下，条件泊松（CP），条件配置（CC），简单随机不放回（SRS）抽样设计的方差比较。

线性模型下,CP，CC设计获得合格样本所需抽样次数比较结果见表1所示。抽样设计精度比较结果见表2和表3所示。

表2 线性模型下不同估计量的方差（固定n=6）

表3 线性模型下不同估计量的方差（固定N=30）

从上面数值计算可以看出，线性模型下提出的条件配置抽样精度高于经典的条件泊松抽样；条件泊松抽样精度高于简单随机抽样。

实例：为了分析条件配置抽样的性能，并和已有的结果（见文献[16]）作比较。考虑文献[20]中的一个总体数据。

y:Percentage of hives affected by disease

x:Mean January temperature

表4 实例中预定包含概率及AP,2Pπps,CP,Pareto,CC设计下一阶包含概率(N=10,n=4)

表5 实例中CC设计下二阶包含概率（N=10，n=4）

表6 实例中CC,AP,2Pπps,CP,Pareto,SRSWOR设计的方差（N=10，n=4）

因此,本文建议的条件配抽样不仅实施简单,也容易通过Monte-Carlo模拟计算一阶、二阶包含概率,而且当研究变量和辅助变量线性相关比较显著时(实例中相关系数ρ=0.79655)，从表6可以看出，条件配置抽样的方差较其他抽样的方差明显的小。

5 结论

本文提出了一种新的不等概率抽样设计.从数值模拟分析得出提出的条件配置抽样优于经典的，在调查中被广泛使用的条件泊松抽样。以总体参数估计的方差作为抽样设计精度的度量,从表2和表3中可以看出在线性趋势模型下提出的条件配置抽样设计精度上优于条件泊松抽样和简单随机不放回抽样设计。表1比较了条件泊松抽样和条件配置抽样得到合格样本所需抽样次数的方差,提出的设计其成功抽取样本所需的试验次数少,比泊松抽样省时。说明条件配置抽样更容易实施。当研究总体中目标变量与辅助变量相关性较显著时,条件配置抽样的精度呈现出优越性，所以提出的方法具有潜在的实际应用的价值。