网站调查与实地调查的实证对比研究:样本偏差程度及其方法论意义

2009-09-27 06:10潘绥铭黄盈盈
江淮论坛 2009年4期
关键词:科学性

潘绥铭 张 娜 黄盈盈

摘要:笔者们在完成总人口的多阶段抽样的笔记本电脑辅助的实地调查之后,以缩减的同一问卷进行网站调查。两者的可比性得以论证。通过对照分析,发现网站调查应答者的阶层分布相比于前者出现了全面的统计学上的显著差异,证明网站调查既不能代表总人口,也不能代表网民,甚至不能代表城市男性网民。网站调查的兴旺与不受批评的现状,来源于当前大众的信息饥渴与无知rr从业者和无良传媒商的自觉合谋制造以及学术界对社会责任的忽视。网站调查本质上是招募调查,因此不是做不到而是不需要总体界定与随机抽样。这违背了科学研究方法的基本定义,因此网站调查只能向着开展定性调查的方向发展。

关键词:网络调查;网站调查;随机抽样;调查方法论;科学性

中图分类号:C915文献标志码:A

一、问题的提出与研究方法

1提出问题的背景。在互联网上的某个网站发布、仅仅由上网者主动登录该网站并且主动回答的定量问卷调查(网站调查,web survey,web-based survey),至晚从2005年开始就在我国呈现为几何式的增加,其调查结果往往被大众传媒广泛地、放大地传播,不但已经在相当大的程度上影响到公众的认知与价值判断倾向,甚至影响到政府行政与立法;就连被认为应该是科学性要求最强的医学领域中,居然也有人堂而皇之地使用起这样的网站调查的结果。在“性”方面最典型的例子是:生产避孕套(安全套)的杜蕾斯公司2004年公布其网站调查结果说:中国人的性伴侣人数达到平均19.3个,是世界上最多的。经大众媒体广泛传播之后,引发了中国公众的极大困惑与争论。尽管该公司的网站调查负责人信誓旦旦地说:“我们就是想尽一些社会责任,了解人们性生活全景,并和社会来分享信息。这个报告和商业没有任何关系,也不会为商业而用。”但是从其社会效果来看,人们仍然很有理由认为,这个网站调查其实从一开始就可能仅仅是该公司的一种促销手段而已。

虽然国际上已有研究,虽然我国的一些学者在泛论式的研究成果中也涉及到这方面的问题,但是我国学术界到目前为止仍然没有专门针对这种大行其道的网站调查的论文。

2问题的提出。网站调查既没有一个调查总体,也不可能进行随机抽样,因此其结果不具有任何意义上的代表性,这是学术界一直坚持的共识(金怀玉,2002;郭继志,2006;胡云峰,2008),某些网站调查的主张者也敢于公然承认这一点。(12)

但是,网站调查的这种非随机抽样方法究竟产生了多大程度的样本偏差,这种偏差又造成了调查结果在多大程度上的失误,我国学术界目前尚缺乏实证的研究成果。这不利于对网站调查方法及其结果进行科学的评价,不利于引导公众正确看待各种网站调查的结果,客观上可能造成学术界放弃引导公众之社会责任。

笔者尤其希望论述的是:网站调查的这种样本偏差为什么值得学术界高度重视?其方法论层面(而不是操作层面)的意义是什么?笔者又主张什么与建议什么?为此,笔者设计了这样的一个研究方案:

(一)研究方法

首先,在福特基金会的资助下,笔者于2006年8月到12月完成了一项全国18—60岁总人口的多阶段抽样问卷调查。第一级抽样单位为县级区域,按照城乡分层,以离婚率排序进行系统抽样,共抽取21个省市自治区的120个县级区域,其中75个城市县级区域,45个农村县级区域。第二级抽样单位是在抽中的县级区域里,采用随机数确定一个街道(镇、乡)。第三级抽样单位是居委会(村),在城市的街道中采用随机数抽取2个居委会,在农村的镇乡中采用随机数抽取一个村,共抽取195个居委会(村)。最后以当地居住人口为第4级抽样单位,按照当地常住人口名单及其地理范围内的流动人口的总人数进行系统抽样,共获得5403个有效样本。(以下简称为“总人口调查”(10)

然后,笔者从2007年8月开始,将同样的问卷,在保留所有基本提问,删除细节追问之后(题量大约是原来的一半),以Web格式挂在一个公共网站上(http://www.omni3w.net/omnisurvey/)。到2008年12月1日为止,共获得18岁到60岁的2593人的有效回答。(以下简称为“网站调查”)

第三步,将两组数据进行对比分析,以便发现其差异。其中总人口调查的数据已经按照抽样方案,使用2005年百分之一人口普查数据进行加权。本文下列的所有统计表格中的所有变量均进行了交叉表的卡方检验(Pealsoil Chi-Square,Asymp,Sig.2-sided)与独立样本的T值检验(independent-sample T test),其统计量均为0.0000。(下文中不再一一列出。)

(二)可比性论证

由于笔者进行的是对比分析,因此将两种调查方法的可比性进行论证如下:

2006年笔者所进行的全国总人口问卷调查,采用笔记本电脑辅助的调查方法(computer survey),也就是把问卷设计成电子格式,显示在调查员随身携带的笔记本电脑的屏幕上,由被调查者来按键回答。这是目前国际上效果最佳的实地社会调查方法。

这种方法与网站调查实际上已经具有完全的同质性,当然可以作为评价网站调查结果的对照标准。其具体表现为:

1笔者在总人口调查中,事先给每位被调查者送交一封预约信,说明笔者的调查目的与大概内容,邀请他们到预定的地点来接受调查。因此被调查者具有完全的自由与相应的能力来选择是否接受调查。这与网站调查所采用的招募自愿者的方法,在自愿回答这一点上不存在任何性质的差异。

2笔者把被调查者请到完全封闭的独立的访谈室,独自面对电脑屏幕,自己作答。访谈室内只有与被调查者同性别的访谈员。他们坐在笔记本电脑的对面,由于电脑屏幕(盖子)的遮挡,完全看不到被调查者的回答结果,只有在被调查者需要的时候才会提供适当的说明与电脑操作上的帮助。这与网站调查所最着力标榜的独立回答(因此最能保密),具有完全相同的性质。

3在被调查者能够“真实表述”这一点上,笔者的反证是:既然笔者的调查在动员与回答的各个环节上与网站调查在性质上相同,那么其回答也就会具有相同性质的真实。

(三)笔者的调查内容对于本论题的特殊意义

笔者的这两个调查都是针对性行为与性关系的高度敏感问题。调查这样的内容,网站调查往往被认为具有大得多的真实性。姑且不论这一点,笔者的假设是:如果网站调查的样本偏差程度在统计学上是显著的,那么众多的个体的真实回答汇集起来的恰恰就是总体认知上的谬误。

(四)问题的凝炼

综上所述,笔者所进行的笔记本电脑辅助的实地社会调查,在操作方法上与网站调查并不存在性质上的差异,那么对于调查结果来说,唯一

的差异只能是来自于是否进行了随机抽样。也就是说,笔者所设计的对照研究,不仅足以检验网站调查的样本偏差的程度及其后果,而且是检验的最佳途径。

二、网站调查样本的社会阶层分布严重偏离实况

1与总人口的偏差。在现实生活中,网站调查的实施者经常把大规模的样本量当作标榜其调查结果具有代表性的最重要的指标,有时甚至是唯一标准。

我国的绝大多数相关的研究成果都已经指出了上述说法的荒谬。笔者的实证对比研究也清楚地表明:在笔者所设置的30个社会阶层特征指标中,与全国总人口调查的结果相比,网站调查结果中基本持平的指标仅有7个,而其余的23个指标相差可以达到58个百分点,甚至相差20倍(上过大学或者研究生的比例)。这就使得任何统计技术层次上的矫正都失去了可能性。

2与全国网民总体的偏差。在大众传媒领域中,虽然尚无直接的理论论述,但是在使用过程中相当多的人认为,网站调查虽然不能代表中国的总人口,但是至少在一定程度上可以代表中国的网民。这成为网站调查结果被广泛传播的重要理论依据之一。

但是,笔者把全国总人口调查中的网民抽出来与网站调查结果进行对照却发现:即使仅仅针对网民这个群体,网站调查的对象也系统地偏向于城市的、30岁以下的、大学以上的、中等以上收入的科技人员与知识分子。其间的差异可以达到49个百分点,甚至5倍左右(上过大学或者研究生的比例)。显然,网站调查无法代表全国的网民总体。

3与城市男性网民总体的偏差。网站调查样本就连特定的网民小群体也无法代表。笔者把两个调查中的城市男性网民这样一个总体单独抽取出来进行对照分析,发现网站调查在其他社会阶层特征上的差异仍然很大而且具有统计学显著性。上述三点汇总起来便得到下面的表1。

表1充分表明:即使网站调查中的某些社会阶层的数据,恰巧基本符合了随机抽样的总人口调查的结果,它也仍然因其在另外那些重要社会特征方面所存在的偏差而无法代表那些数据恰巧基本相符的社会阶层。

三、网站调查的样本偏差带来的认知谬误

表2说明:那些在网上回答笔者调查的人,其实都是那些性活动非常活跃而且不遵守传统性道德的人们中那些表现欲更强一些的人。可是,即使是仅仅针对这些特定人,网站调查的结果也仅仅是表现出这些人的共同倾向,仍然不具有任何意义上的代表性。

如果学术界任由这样的网站调查结果在大众传媒中扩散,那么就会夸大“性自由者”的比例,就会扭曲城市男性网民、全体网民乃至全体中国人的性的存在状况,甚至可能引来社会管理方面的决策失误。

四、网站调查兴起及其社会文化原因

网站调查得以兴起,最基本的社会推动力来自于中国公众的“统计数字饥渴”。长期以来,中国的统计数字一是过于官方化(唯有官方机构在调查与发布),二是过于物质化(主要是调查与统计各种可测量的客观存在物),对于普通人所关心的常人生活中的各种生动现象与人们的实践活动却缺乏调查与统计,造成了供给不足所引发的需求旺盛。

首先,无知与无良自觉合谋的“统计数字经济学”是大约21世纪以来中国的独特产物㈣。它虽然来自“眼球经济”(注意力经济,the economv of attention)”,但是在当今的中国,这往往是一种高度自觉的合谋行为:一些缺乏社会科学基本训练的IT从业者,持续地、商业化地、批量化地生产出各式各样的非随机抽样的网站调查结果,再由一些力图吸引眼球的传媒商人包装为五花八门的耸人听闻的“统计数字”来赚钱。他们还发出豪言壮语:“网络调查必将取代传统的调查方式,这是调查业发展的趋势和方向。”结果,中国公众在信息供不应求的同时,还不得不面临着信息的商业化选择甚至是公然造假。

其次,中国社会科学界在社会调查与统计分析方面的专业化程度不够,而普及程度更低。网站调查对于公众的误导,在相当大的程度上应该归因于社会科学家既没有积极抗争“传媒的话语霸权”,也没有用日常语言把社会调查中随机抽样的必要性给公众讲清楚。

五、网站调查的欠科学性

表面上看来,网站调查与总人口调查之间在代表性方面的巨大差异,来源于网站调查既没有调查总体也无法进行随机抽样。因此,许多网站调查中的有识之士已经开始努力接近随机抽样,不断地提出各种解决方法,例如“正确界定目标总体”(袁峰,2005)、运用IP地址限制技术、Cookie技术(滕文杰,2005)等等。一些专业学者也试图进行评估与控制(杜婷,2004;李军军,2005),或者矫正各种抽样误差(陈珍珍,游家兴,2002;黄建,2004;徐浪,2006;杜婷,2006;颜承元,2007;王东,2007;胡云峰,2008),或者在统计技术层面上进行弥补(刘玮,2005;李军军,2005;浦国华,2006)。还有一些学者则是提倡规范网站调查的应用范围(滕文杰,2005;郭继志,2006;),或者提倡“网络调查与传统调查相结合”(钟蕾,2006;石磊,2008)。

但是笔者认为,上述努力都是治标而不治本。其实,网站调查与总人口调查之间所具有的方法论层次上的根本区别,或者说,是否进行随机抽样之所以具有方法论意义上的决定性,在于前者是依赖于调查对象主动地去寻找调查问卷,而后者则是研究者有目标有设计地去寻找被动反应的调查对象。

这是网站调查无法克服的根本缺陷。这又可以分为三个层次步步深入地来看。

首先,任何网站,即使是仅仅针对网民,也不可能具有起码程度的涵盖性。这说的是:任何网站调查都不可避免地会出现极高比例的无应答误差(这往往被刻意隐瞒了)。它的来源,并不是潜在的应答者看到了问卷而不回答,而是他们根本就看不到发布问卷的该网站或者看到了而根本不去点击。这是因为互联网上永远也不会有一个人人必须点击之的网站,哪怕是最大的门户网站或者搜索引擎也是如此。

其次,网站调查的抽样框永远无法涵盖人口总体。无论科技与经济如何发展,只要人类还存在着各种差异,那么互联网使用者就永远也不可能覆盖任何一个较大规模的人口总体。这是因为,这不仅是能不能用上互联网的问题,更是愿不愿意用的问题。总会有人不上网的,而这种偏差又是非实地调查而不可测定的。所谓“随着互联网的发展,网站调查的代表性会日益提高”的说法其实只是以假设来代替前提的谬误。

第三,最根本的是对主动应答者无法进行任何抽样。也就是说,只要调查对象是主动地、任意地参加的(这常常被认为是网站调查最重要的优点),那么任何一种抽样(哪怕是非随机的)就不可能实现,任何程度的代表性也就根本无从谈起。在现存的网站调查中,别说抽样,就连那些根本不适合回答本问卷的应答者也没有去阻挡,夫

复何言?

归根结底,网站调查与实地调查的本质区别在于:前者的样本规模与代表性完完全全掌握在被调查者手中,无论调查者把问卷或者抽样方法(如果有的话)设计得多么科学多么巧妙,都无法控制调查实际进程的任何一个环节,甚至连最微小的影响与干预都无法施加。反之,在笔者所进行的电脑辅助的实地调查中,一切尽在掌控之中。

这一本质区别标识了网站调查方法的非科学性。

网站调查的方法论的实质是招募式调查,是守株待兔、愿者上钩。这违背了任何一种问卷调查的最基本的原理。

社会科学中的问卷调查属于方法论意义上的实证主义范畴内的科学主义流派,来源于对于自然科学基本研究方法之一的“受控条件下可重复的试验”的模仿。后者要求“我”(调查者)必须主动地去研究被动存在的“它”(调查对象),才能得到对于“我”的假设的检验。

在社会调查中,经典的实地调查方法由于是调查者自己需要进行“试验”(实地调查),因此不得不主动地追求“受控条件”(总体界定)与“可重复”(随机抽样),结果客观上也就达到了模仿自然科学的效果,实现了自己的科学性。

可是网站调查却恰恰相反。由于它一开始就没打算进行“由调查者来操作的试验”(实地调查)而是依赖于应答者自投罗网,所以根本不需要任何主动寻找调查对象的设计与实施;结果也就不需要“受控条件”、“可重复”这两大原则。也就是说,招募调查对象的网站调查,绝不是在总体界定与抽样方法方面做得不够,而是根本不需要这些东西。这就是它的非科学(不是反科学)的性质,任何基于科学性的统计技术都无法改善之,因为两者牛头不对马嘴。

进一步说,正是由于招募调查这一实质不可改变,因此网站调查被认为所拥有的一切优越之处(方便、及时、廉价、时空广泛等等),统统都会因其调查结果在代表性上的谬误而变成助纣为虐之举。

更进一步说,经典的实地问卷调查是客观测量的方法,是调查者主动去收集被动存在的数据,而网站调查所使用的招募调查方法则在很大程度上是“主体建构”,是应答者们主动创造出调查数据。这两者之间的区别已经超出统计技术与调查方法的操作层次,实际上是方法论层次上的科学主义与人文主义的冲突焦点,甚至需要从认识论层次上来进行分析。本文仅希望指出双方的不同质,不再展开论述。

六、发展建议

由于“招募调查对象”这一方法论上的本质,网站调查不应该再朝着总体代表性这个无望的方向发展,而是应该朝着三个不同的方向前进。

第一个方向仍然在问卷调查的范畴之内,把网站调查作为实地调查的预调查(试调查)。这样的网站调查绝对不是寻求任何绝对数与百分比,而是用来修订调查问卷。这样,我们就很可能提前发现许许多多问卷设计中的缺点。这样,网站调查的各种优点(方便、及时、廉价、时空广泛等等)才能真正变成正向的长处,才能极大地弥补实地调查的预调查中成本高、耗时长、时空狭小等缺点。

第二个发展方向是把网站调查所发现的小概率的社会现实转化为定性的表述。招募式调查不可能实现代表性,却足以反映社会生活的多样化存在。它所得到的任何数字的意义,并不是某种情况在某种群体中占百分之多少,而是在社会生活中确实存在着这种情况。因此网站调查应该努力去揭示那些发生概率很小甚至极小的各种现象,这才是其最大优点。

这是因为,一方面,随机抽样的实地调查的最大缺点恰恰是很容易筛选掉这样的小概率情况;另一方面对于任何一种小概率情况来说,最重要的并不是它有多少、占百分之多少,而首先是它究竟有没有、存在不存在。

例如在笔者所进行的网站调查中,有些应答者一生中的性伴侣人数达到了4位数。反之,有些年轻夫妻虽然没有任何相关的障碍,却可以在上一年中连一次性生活都没有。因此网站调查实施者应该这样来发布自己的调查结果:尽管发生概率很小而且出乎大众的意料,但是这样的人确实存在于我们的社会之中。

这样的表述是一种定性的认知,不但应该舍弃任何寻求绝对数与百分比的意图,而且应该在表述中刻意把具体的数目字模糊化。

这种定性认知其实非常重要。它可以打破社会中广泛存在的各式各样的刻板印象,促进公众首先在思维方式上实现多元化,从而发挥社会调查的积极社会作用。

说到底,即使是随机抽样的定量统计数字与相关分析的结果,最后其实也只有被当作定性认知来使用,人类才能够思考。㈣因此在这一点上,网站调查恰恰可以以其对于小概率现象的强大的发现能力,在定性认知上开辟捷径。

第三个发展方向是把网站调查彻底转变为定性调查的工具。

定性调查追求的并不是测量社会现象,而是发现与理解人的行为及其结果,因此不寻求代表性,而是追求资料的深度。尤其是定性调查不但不排斥而且非常欢迎调查对象的各种主动呈现。这不仅恰恰符合网站调查的性质,而且其所有优点更有用武之地。研究者完全可以运用各种文化感召与技术手段,把网站设置为某一主题的磁铁,去吸纳那些日渐增多而且送货上门的“网上自白”。

尤其是,在实地的定性调查中,合适的调查对象常常是可遇而不可求;而网站调查的招募性质及其相对更容易做到的大应招量,却恰恰可以在更大的程度上解决这一难题。

参考文献:

[1]方国斌、陈年红,基于网络技术的抽样调查设计与实施研究,统计与决策[J],2009,(1):4—7

[2]方国斌、陈年红,网络抽样调查组织形式及其优缺点,统计与决策,2008,(24):31—32

责任编辑木宸

猜你喜欢
科学性
医学论文科学性的标准
医学论文科学性的标准
增强整体性系统性科学性 全面提高应急管理水平
从共识性真理看民法教义学的科学性——兼评我国《民法典》的科学性结构
医学论文科学性的标准
医学论文科学性的标准
论《中华通韵》15韵部的科学性
说话写句要注意科学性
青少年运动训练的科学性
加强行政执法的科学性——以《道路交通安全法》第101条解释为例