多分类敏感问题RRT模型下分层三阶段抽样的统计方法及应用*

2015-03-09 14:35苏州大学公共卫生学院215123杨少春歌范玉波陈科锦杜俏俏陈向宇施佳琛

中国卫生统计 2015年4期

苏州大学公共卫生学院（215123）杨少春高歌范玉波陈科锦杜俏俏陈向宇傅颖施佳琛

苏州大学公共卫生学院（215123）杨少春高歌△范玉波陈科锦杜俏俏陈向宇傅颖施佳琛

目的为实际需要的多分类敏感性问题的复杂抽样提供信度高效度高的调查方法及其统计公式；为制订艾滋病预防控制措施提供科学依据。方法根据抽样理论、RRT模型、全概率公式等理论方法推导统计公式；对北京市MSM人群进行实例调查；用SAS编程分别对6个调查指标各类别，各模拟多分类敏感问题RRT模型下分层三阶段抽样调查100个样本，按本文给出的统计公式计算100个总体比例的可信区间。结果推导出多分类敏感问题RRT模型下分层三阶段抽样各类别总体比例估计量及其方差的计算公式；调查得到北京市MSM人群6项敏感问题指标各类别样本比例及其标准误。各指标各类别各模拟得到的100个总体比例95%可信区间几乎均包含其模拟总体比例。结论本文研究的敏感问题调查方法及其公式具有良好的信度和效度，值得推广应用；MSM人群具有艾滋病的高危性行为，应加强对其的预防控制。

敏感问题随机应答技术（RRT）（分层）三阶段抽样 MSM效度与信度

抽样调查一直作为医学科研及卫生工作中的一种重要方法及获取统计资料的重要手段［1－3］。在抽样调查研究中，经常会遇到各种各样的敏感性问题。所谓敏感性问题是指高度私人机密性或大多数人认为不便在公开场合表态及陈述的问题［4］，例如：吸毒、卖淫、嫖娼、男男性行为、性病、艾滋病等。敏感性问题按总体的特征可分为分类特征敏感问题和数量特征敏感问题，分类特征敏感问题又分为两分类敏感性问题和多分类敏感性问题［5］。随机应答技术（random ized response technique，RRT）巧妙地运用一个随机装置，在保护个人隐私的情况下，通过概率计算估计敏感问题特征的比例或均值，消除减小调查对象回答敏感问题时的拒答或说谎偏倚。国外已将各种RRT广泛使用于流产率、女性饮酒量以及偷税漏税等各类敏感问题的调查，并得到了较好的调查结果［6－10］。

在本团队研究前，国内外关于敏感问题调查的研究，主要局限于简单随机抽样调查和随机化装置的改进等理论研究［11－13］。本团队对非敏感问题各种复杂抽样和敏感问题多种复杂抽样的统计方法进行过系列研究［14－15］。本文对敏感问题实际抽样调查中常常采用的多分类敏感问题RRT模型下分层三阶段抽样：从数学上推导出其统计公式；在北京市男男性行为人群的调查中取得了成功的实际应用效果；采用SAS编程进行大样本个数大样本量的计算机模拟抽样调查与分析，得到了高信度和高效度的评价结果。

多分类敏感问题RRT模型下分层三阶段抽样的统计方法

1．分层三阶段抽样方法

假定总体划分成L层。第h层由N1h个一级单位组成；h层第i个一级单位由Ni2h个二级单位组成，h层平均每个一级单位包含2h个二级单位；h层第i个一级单位内第j个二级单位包含Nij3h个三级单位，h层平均每个二级单位包含3h个三级单位，h层共有Nh个三级单位，总体中共有N个三级单位；这里，h＝1，2，…，L；i＝1，2，…，N1h；j＝1，2，…，Ni2h。第一阶段从h层随机抽取n1h个一级单位；第二阶段从h层第i个被抽中的一级单位内随机抽取ni2h个二级单位，平均从h层每个被抽中的一级单位内随机了抽取2h个二级单位；第三阶段从h层第i个抽中的一级单位内第j个抽中的二级单位中随机抽取nij3h个三级单位，平均从h层每个抽中的二级单位中随机抽取了3h个三级单位；这里h＝1，2，…，L，i＝1，2，…，n1h，j＝1，2，…，ni2h。对每个被抽中的三级单位（人），采用多分类敏感问题随机应答模型进行调查。

2．多分类敏感问题随机应答模型

设某敏感问题分为K种互斥的类别1，2，…，K。设计一随机化装置，如：将分别写有0，1，2，…，K的K＋1种按数量比例P0：P1：P2．…Pk（P0＋P1＋P2＋…＋Pk＝1）的若干卡片混合放入袋中。无旁人在场时每个抽中的人（三级单位）有放回地从袋中随机抽出一张卡片，若卡片上写有0则真实回答自己属于敏感问题的那一类的序号；若卡片上写有0以外的某个数则回答该数。

3．统计公式

（1）总体比例的估计量及其方差计算公式

假定pk为第k类敏感特征总体比例的估计量，ph－k为h层第k类总体比例ph－k的估计量，pih－k为h层第i个抽中一级单位第k类总体比例pijh－k的估计量，pih－k为h层第i个抽中一级单位内第j个抽中二级单位第k类总体比例pijh－k的估计量，h＝1，2，…，L，i＝1，2，…，n1h，j＝1，2，…，ni2h，k＝1，2，…，nij3h。

根据抽样理论，虽然原始分类多于两类，但当调查的目的是要估计总体中任何一类的个数占总数的比例时，实质上这些比例是按两类得到的，所以两分类的理论均适合于此种情况［2］。根据高歌、金丕焕给出的公式可得［1］：

（2）pijh－k的计算公式

设pijh－k为h层第i个一级单位第j个二级单位k类敏感问题的总体比例，mijh－k、λijh－k分别表示h层样本中第i个一级单位第j个二级单位回答数字k的频数、概率，根据全概率公式：

应用实例

1．调查设计

（1）调查对象与调查指标

调查对象为2010年9－10月出入北京市男同性恋活动场所的15～49岁男男性行为（men who have sex with men，MSM）人群，总体数量约67750人。调查指标1为男男性行为各方式的比例；调查指标2为安全套全程使用情况各类别的比例；调查指标3为HIV病毒检测结果各类别的比例；调查指标4为性病检测结果各类别的比例；调查指标5为最近一年男男商业性性行为次均费用不同等级的比例；调查指标6为安全套破损情况各类别的比例。

（2）抽样方法

采用分层三阶段抽样，将北京市MSM人群按年龄分为15～29岁和30～49岁两层，各自所占比例分别为W1＝58．24%，W2＝41．76%；在各层内分别以北京的16个区县为一级单位（N11＝N12＝16），以男同性恋活动场所（如男同浴室、会所、酒吧、公园等）为二级单位（调查点），以男男性行为者作为三级单位。两个年龄层内平均每个区县男同性恋人数分别约为2466人＝1768人。第一阶段从各年龄层的16个区县中分别随机抽取3个区县（n11＝n12＝3）；第二阶段在所抽取的区县各随机抽取5个调查点（n＝21＝n22＝5）；第三阶段从被抽中的5个调查点中共随机抽取2062人，在各层内平均从每个抽中调查点分别抽取了

（3）RRT模型

采用多分类敏感问题随机应答模型进行调查，以商业性男男性行为平均费用等级比例调查为例，设计一套随机化装置：将10个大小、重量、触感完全相同的小球贴上数字标签，5个写上数字0、剩余5个分别写上数字1、2、3、4、5，即P0：P1：P2：P3：P4：P5为0．5：0．1：0．1：0．1：0．1：0．1（P0＋P1＋P2＋P3＋P4＋P5＝1），10个小球混合放入袋中；每个被抽中的三级单位有放回地从袋中随机抽出一个小球，若抽中的小球上写有0，真实回答自己“最近一年商业性男男性行为的平均费用的等级序号k；若抽中的小球上写有0以外的数字则直接回答该数字。

3．调查结果

按式（1）至（9）计算得：最近一年男男商业性性行为的次均费用＜200元、200～399元、400～599元、600元以上、无男男商业性性行为的比例分别为5．65%、4．86%、2．67%、6．48%、80．34%，其标准误分别为0．70%、0．49%、0．57%、0．76%、2．20%；最近一个月男男肛交中从不全程使用安全套、有时全程使用安全套、每次全程使用安全套、没有肛交的比例分别为6．46%、31．78%、51．81%、9．96%，其标准误分别为0．77%、0．71%、0．95%、0．44%；最近一年HIV病毒检测结果为阳性、阴性、结果不确定、没有检查过的比例分别为6．31%、78．67%、2．89%、6．45%，其标准误分别为0．42%、1．96%、0．28%、0．45%；最近一年到正规医疗机构性病检测结果有性病、无性病、结果不确定、没有检查过的比例分别为16．79%、67．02%、6．25%、5．23%，其标准误分别为0．66%、1．98%、0．46%、0．33%；男男性行为的方式为肛交、口交、其他的比例分别为65．83%、18．70%、15．47%，其标准误分别为0．930%、0．658%、0．316%；安全套使用有破损、无破损、没有使用安全套的比例分别为5．49%、70．26%、24．25%，其标准误分别为0．57%、2．89%、1．89%。

信度效度评价

1．建立模拟总体

按照北京市的区县数、北京市MSM活动场所数、出入北京市男同性恋活动场所的15～49岁MSM人数（67750人）及年龄构成（15～29岁、30～49岁所占比例分别为W1＝58．24%、W2＝41．76%），以本文调查的6项多分类敏感问题各类别样本比例、二项分布方差的数值作为模拟总体参数，基于蒙特卡洛方法，用SAS编程建立模拟总体。模拟总体的一级单元为16个区县，模拟总体的二级单元为男同性恋活动场所（调查点），模拟总体的三级单元为男男性行为者。

2．模拟抽样调查

模拟多分类敏感问题随机应答模型下分层三阶段抽样调查。第一阶段模拟从16个区县随机抽取3个一级单元（区县）；第二阶段抽样从每个抽中的一级单元中随机抽取5个二级单元（调查点）。第三阶段从被抽中的5个调查点中共随机抽取2062人。

对敏感问题分层三阶段抽样的调查方法及其统计公式，各进行100个样本（每个样本平均包含2533名模拟调查对象）的模拟抽样调查，对模拟总体的抽样由另外输入的随机数控制，根据这个随机数计算机在模拟总体中进行了分层三阶段抽样，并对抽中的三级单位进行模拟调查。RRT调查过程的模拟再次用到了计算机产生确定范围的随机数的功能。例如，将北京市MSM人群按年龄分为15～29岁和30～49岁两层，各自所占比例分别为W1＝58．24%，W2＝41．76%，根据模拟总体的比例，对虚拟调查对象进行赋值，对于一个已经被赋值为1的虚拟被调查者，计算机按一定比例单独为它赋予一个0～3范围的随机整数（随机化装置），这相当于此虚拟被调查者有放回地从袋中随机摸出一个0～3范围的任意标号的小球。若计算机单独为它赋予的随机数是0，则真实回答自己属于敏感问题的那一类的序号，即是1；若被赋予的值是0以外的某个数则回答这个数。所得结果即为该虚拟被调查者的应答值。每一个抽中的单位都产生了应答值后，按照有关公式进行统计计算，得到模拟调查结果计算样本统计量及其估计方差、总体参数95%的置信区间。

3．信度和效度评价

对于本领域内相关的一些研究结果进行了相关的比较，商业性男男性行为比例为19．66%，略高于陈向宇［17］的19．11%；男男性行为的方式为肛交、口交的比例分别为65．83%、18．70%，高于杜俏俏［18］得出的肛交占60．95%、口交占16．85%；男男性行为时没有使用安全套的比例为24．25%，高于于波［19］的没有使用安全套的比例19．77%，并且最近一年HIV病毒检测结果为阳性为6．31%，低于于波的最近一年HIV检测的结果为阳性的比例8．03%；同时，本文对于每个指标都进行了信度和效度评价，分别对各调查指标各类别100个模拟样本，得到的100个总体比例95%可信区间，几乎全部包含其模拟总体比例（真值），更加说明了测量结果的准确性和可靠性。例如，对指标1分类一（肛交），100个模拟样本中有96个（样本1、65、95、100除外）得到的该分类总体比例95%可信区间包含其模拟总体比例（真值），见图1对指标1分类二（口交），100个模拟样本中有99个样本（样本95除外）得到的该分类总体比例95%可信区间包含其模拟总体比例（真值）；对指标1分类三（其他方式），100个模拟样本中有97个（样本1、4、95除外）得到的该分类总体比例95%可信区间包含其模拟总体比例（真值）。说明本文给出的多分类敏感问题随机应答技术模型下分层三阶段抽样的调查方法及其统计公式具有较高的效度，同时具有较高的信度（因几乎所有的样本均数均接近它们的均值）。

对调查指标1的分类一，以样本序号为横坐标，以总体比例95%可信区间为纵坐标绘图，并以模拟总体比例做水平辅助线，见图1。

讨论

1．本团队对多分类敏感问题RRT模型整群抽样、二阶段抽样、分层两阶段整群抽样等复杂抽样的统计方法进行过研究。在此研究基础上，本文对多分类敏感问题RRT模型分层三阶段抽样，从数学上首次推导出各类别总体比例的估计量及其方差、估计方差的统计公式，具有统计理论方法学意义。

图1 多分类敏感问题RRT分层三阶段抽样模拟

2．本团队研究之前，国内外对敏感问题抽样调查的信度与效度评价极少涉及。本文首次对多分类敏感问题RRT模型分层三阶段抽样的调查方法及其统计公式，采用SAS编程建立仿真模拟总体，进行计算机大样本个数（100个）大样本量（每个样本含有2000多例）模拟抽样，获得高信度高效度的评价结论。说明本文研究的调查方法及其统计公式准确可靠。

3．本文研究得北京市MSM人群：男男商业性性行为的比例高达19．66%，每次全程使用安全套的比例仅为51．81%，HIV阳性比例高达6．31%，有性病比例高达16．79%，肛交比例高达65．83%，未使用安全套的比例高达24．35%，安全套使用中有破损的比例高达7．25%。本文为有关部门制定性病、艾滋病预防控制规划、措施提供了科学依据。说明本文研究的调查方法及其统计公式具有较大的实际意义。

4．评价结果表明，通过多分类敏感问题RRT模型分层三阶段抽样敏感问题调查方法能获得大量真实数据，将为有关部门制订HIV／AIDS防治等社会、公共卫生问题的政策、规划提供科学的依据。

附录

模拟分层三阶段抽样并运用多项选择敏感问题随机应答模型进行调查的宏程序代码如下：

填入相应的宏参数，并执行编写的宏程序，即可获得100次运用多项选择敏感问题随机应答模型对模拟抽样的样本进行RRT调查所得的（每类别）100个样本比例及其估计方差、（每类别）100个总体比例的95%可信区间，100个卡方检验的P值。宏参数如下：

［1］高歌，金丕焕，王旭辉．分层三阶段抽样样本大小的研究及应用．中国卫生统计，2000，17（6）：325-327．

［2］科克伦W．G．著，张尧庭，吴辉译．抽样技术．中国统计出版社，1985：87．

［3］温长松．试述抽样调查方法在历史研究中的应用．沈阳大学学报，2006，18（1）：40-41．

［4］王建华．实用医学科研方法．人民卫生出版社，2003：440-450．

［5］高歌，范玉波．敏感问题Simmons模型的（分层）整群抽样研究．中国卫生统计，2008，25（6）：562-565．

［6］Warner SL．Randomized response：a survey technique for eliminating evasive answer bias．JAm Stat Assoc，1965：60（309）：63-66．

［7］Tourangeau R，Smith TW．Asking sensitive questions：The impact of date collection mode，question format，and question context．Public Opinion Quarterly，1996；（60）：275-304．

［8］Stephen EE，Samuel H，Karen LD．Validity of Forced Responses in a Random ized Response Model．Sociological Methods＆Research，1982，11（1）：89-100．

［9］Liu PT，Chow LP．The efficiency of themultiple trial random ized response technique．Biometrics，1976，32（3）：607-618．

［10］Chow LP，Gruhn W，Chang WP．Feasibility of the random ized response technique in rural Ethiopia．Am J Public Health，1979，69（3）：273-276．

［11］孙山泽，孙明举，段钢．二项选择敏感性问题调查的基本方法．数理统计与管理，2000，19（1）：58-64．

［12］洪志敏，闫在在．一种定量敏感性问题的随机化调查方法．内蒙古工业大学学报，2006，25（3）：178-182．

［13］张权，闫在在．二项抽样下随机化调查的比估计模型．内蒙古工业大学学报，2009，28（2）：81-85．

［14］Wang M，Gao G．Quantitative sensitive question survey in cluster sampling and its application．Recent Advance in Statistics Application and Related Areas，Sydeny：Aussino Academ ic Publishing House 2008：648-652．

［15］Liu W，Gao G，Wang L．Stratified random sampling on simmons model for sensitive question survey．Data Processing and Quantitative Economy Modeling，Sydeny：Aussino Academ ic Publishing House，2010：22-26．

［16］陈向宇，高歌，于明润，等．北京市商业性男男性行为Simmons模型调查．中国公共卫生，2013，2：259-260．

［17］杜俏俏，高歌，靳宗达，等．蒙特卡洛模拟在多分类敏感问题两阶段整群抽样信度与效度评价中的应用．中国卫生统计，2013，30（2）：227-229．

［18］于波，高歌，贺志龙，等．北京市MSM人群RRT模型的两阶段抽样调查．中国卫生统计，2012；06：351-352．

（责任编辑：刘壮）

*：国家自然科学基金项目（项目编号：81273188）

△通信作者：高歌，E-mail：gaoge＠suda．edu．cn

多分类敏感问题RRT模型下分层三阶段抽样的统计方法及应用*

多分类敏感问题RRT模型下分层三阶段抽样的统计方法

应用实例

信度效度评价

讨 论

讨论