效度研究领域中的争议

2014-02-04 20:07赵琪凤

中国考试 2014年6期

赵琪凤

效度研究领域中的争议

赵琪凤

在教育和心理测量界，效度被认为是最为核心的概念。作为效度问题的根本，构想效度研究仍然是心理测量界的一大难题，仍然存在诸多争议和挑战。本文在一系列前期研究和分析的基础上，从构想效度的概念本质、构想效度的研究视角、构想效度的研究方法三大方面探讨了效度研究领域中存在的争议。我们认为，迄今为止构想效度研究在本质定位、探究视角和方法论方面仍然争议不断，需要理顺和统一，并接受和借鉴物理学等成熟学科的一些研究思路和方法，这才是实现科学研究构想效度的重要途径。

构想效度；构想；心理物理学；因果分析

时至今日，效度研究已经经历了近1个世纪的历程，并取得了较为丰硕的研究成果，虽然具体的心理测验极大地满足了社会应用及政治决策的需要，但是作为效度问题的根本，构想效度研究仍然是心理测量界的一大难题，仍然存在诸多争议和挑战。其中，我们认为主要的争议体现在关于“构想效度究竟是指什么有效”的争议，“对心理构想的解释采用物理学视角还是社会学视角”之间的争议，以及在方法论上“确定因果效应还是构建相关网络”之间的争议三大方面。

1 构想效度究竟是指什么有效？

在教育和心理测量界，效度被认为是最为核心的概念。虽然在1921年效度概念正式提出时，研究者就声称“效度是指测验在多大程度上测到了它想要测的东西”，但是经过多年的效度研究历程，我们可以看到这个概念并不足以清楚、准确地表达效度的本质含义，至少我们看到不同的学者根据自己的理解和知识背景，以及所处的社会环境等因素，对效度（尤其是构想效度）存在不同的理解；正是因为没有对构想效度要测什么形成一致的认识，一些学者会对不同的构想效度定义均表认同；有时会在不同的构想效度定义之间反复、摇摆。因此，“构想效度究竟是指什么有效”成了一个争议颇多的问题，在确定构想效度是指什么东西有效方面，已经存在各种不同的说法和见解，混淆了构想效度的研究基础和思路。

根据常晓宇（2001）、张凯（2004）等人之前对构想效度概念混乱状况所做的总结和阐述，我们认为目前心理测量界对构想效度定义的研究大致呈现以下五种状态。

1.1 从字面入手理解关键词的含义——把“构想”（construct）理解为“结构”（structure）

构想效度的英文表述是“construct validity”，国内的学者将这个关键词翻译成中文，就会出现一些不同的译法和理解。例如凌文辁、滨治世（1988：16）把构想效度翻译成“构造概念效度”，王重鸣（1990：142）把构想效度翻译成“构思效度”，刘润清（1991：18）则翻译为“编制效度”，徐枞巍（1992：344）把构想效度理解为“构念效度”或“构造效度”等。不仅是国内的学者，国外的一些研究者也持有同样的观点，如Allison（1999）认为“[Construct（构想或结构）是]我们想要教或想要测的东西的表征，如‘听力理解’及其组成成分”。可见，很多人把构想效度这个概念译成“结构效度”。张凯（2004）总结认为：“根据这个译法，有人认为结构（构想）效度是指所测能力的构成（如智力的各个因素）和测验结构（structure）之间的一致性程度或对应程度”（2004：8）。

1.2 将构想效度等同于内容效度

部分学者认为，构想效度与内容效度类似，如果测验没有什么实在的内容可以依据(谈不上内容效度)的话，总得找点东西来代替内容效度，这东西就是构想效度。

还有的学者把内容效度与构想效度混为一谈，认为内容效度的考察大纲是理论结构的一个样本，内容效度可以转化为构想效度，内容效度与构想效度很难截然分开，属于一个整体。

其实，在建立构想效度的方法中，先考察测验的内容效度的方法也是其中一种，“因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释”(戴海琦、张锋、陈雪枫，1999)，但这种方法当且仅当“测验对所测内容或行为范围的定义或解释类似于理论构想的解释”时才成立，考察内容效度的方法多数情况下并不适用，况且内容效度本身就难以测定（常晓宇，2001）。

1.3 彻底否定构想效度

在构想效度提出50多年后，出现少量学者对构想效度持彻底否定的态度。如Borsboom等人对Cronbach和Meehl（1955）的认识是：

构想效度的观点从产生就注定了死亡。Cronbach和Meehl（1955）提出的构想效度从来没有过任何研究实例。相应地，在当今的效度理论中也没有定律网络的轨迹（Borsboom et al.，2009）

在这种完全否定的态度下，Borsboom等人更加坚定了对构想效度批判，同时从效度命名的角度试图取消“构想效度”这一术语：

我们认为构想效度理论中使用的“构想”一词，在两个方面是不一致的，也就是说，这个词同时指向了理论术语（如，一个标记）和指派术语的证明（如，一个研究者使用一种测量工具发现了这一现象）。这种双重意义制造了大量的误解和混乱……。因此，我们建议将‘构想’一词去掉，……。我们认为效度的概念，正如通常所理解的那样，在理论上和实践上都优于构想效度概念。最后，我们提出的主张是构想效度一直使得研究者躲在迷雾之后，免于思考和解决心理测量的真正问题。（Borsboom et al.，2009）

Borsboom等人在上述观点中，认为构想效度中的“构想”一词，不仅没有任何实际意义，反而制造了混乱和误解，他们更加赞成使用“效度”替代构想效度的核心地位，也就是说之前对构想效度的多方论述和证明，都是无益于效度检验的，可见，Borsboom等人（2009）彻底否定了构想效度的地位和作用。

1.4 片面的理解

除了上述对构想效度概念产生的不同理解和解释外，提到一个测验具有构想效度时，究竟是什么东西有效？测量界有三种不同的解释：构想有效、测验有效、测验的分数或分数解释有效。

1.4.1 构想有效

测量界里，这种看法由来已久。早在提出构想效度之时，Cronbach和Meehl就已经不是把效度问题理解为测验是否测到了某个特质这样单纯的事实性问题，而是当作由测验分数所作出的推论是否与包含各种理论与观察术语的规则网络（nomological）相一致的问题（1955）（陈宏，2012：2）。

Henning（1987：98）认为“建立构想效度的目的是证明被测量的潜在的理论构想本身是有效的”。

国内的桂诗春、宁春岩（1997：293）以及陈俊良（1991：103）的说法与之类似。

《教育与心理测量标准》（AERA，1999：5）声称，“测验就是对构想的测量工具”，“所有测验分数”都应“看作某种构想的测度”（AERA，1999：174）。有了《标准》的支持，效度指构想有效这一解释很快成为测量界居统治地位的主流意识（陈宏，2012：2）。

1.4.2 测验有效

还有学者认为构想效度是测验（测量）的有效性，如Kelly早在1927年就提出，测验如果测到了它声称要测的东西就是有效的（1927：14）。Anastasi对效度定义的阐述几十年基本未变，她在效度问题上的看法长期以来为人们广泛引用并产生了深远影响，Anastasi（1982：144；1997：126）认为“测验的构想效度就是测验在多大程度上测出了理论构想或理论特质。”这种观点实质上强调的是测验或测量的工具属性。

国内学者戴忠恒（1987：233）、凌文辁、滨治世（1988：17）、王重鸣（1990：142）Fraenkel&Wallen（1993：548）、Brown（1996：239）、Kline（1998：37）、刘永芳、房慧聪（2001：188）对构想效度的界定，也都认同测验有效的理解（张凯，2004）。

1.4.3 测验的分数或分数解释有效

在构想效度的表述对象问题上，目前占据主导思想的解释是，效度是分数解释或根据分数所作推断的有效性。Messick（1989：13）说，“效度不是测验……的特性，而是测验分数的意义的特性”。Fraenkel&Wallen（1993：193）说，“需要证明有效的，不是工具本身，而是工具在特定的应用中产生的推论”。Cronbach（1989：151）自己后来也说，构想效度“证明的是特定的分数解释”。持这种观点的还有Ebel&Frisbie（1991：108），Bachman（1990：290），Bachman&Palmer（1996：21），Chapelle（1998：50）等。

1999年APA《标准》的修订版基本接受了Messick对效度的定义，承认效度检验过程所“评估的是根据人们提出的应用需求对测验分数所作的解释，而非测验本身。”同时承认“人们提出的测验应用需要对测验分数作出解释，效度指的是证据和理论对这种分数解释的支持程度”（AERA，1999：9）。此后，“这种效度观念在测量界便逐渐形成思维定式，而且表述更简单、明确、直截了当”（陈宏，2012：4）。

1.5 含混不清、前后矛盾的表述

正是由于心理测量学界对构想效度表述对象的不确定和不统一的现状，导致争议不仅表现为研究者们对这个问题有不同的理解，而且还表现为，“研究者个人有时会同时认可两种表述对象；有时会在不同的表述对象间反复、摇摆；而且有些学者在效度表述对象问题上的不一致甚至在同一部著作中也会出现”（陈宏，2012：4）。这种对构想效度含混不清的表述，很容易给读者造成误解和歧义。

Alderson，Clapham和Wall（1995）说：

每个理论都包含若干构想，并力图定义构想之间的关系。……为了测出一个测验的构想效度，编测验的人必须使测验和潜在的理论挂上钩，然后将测验结果和那个理论进行比较。（1995：286-287）

这好像是说构想有效，但他们接着又说：“构想效度就是评价一个测验对那些构想的测量程度如何。”这又似乎是说测验有效了。杰克逊（1996：91）、Sax（1997：313）以及Loewenthal（2001：17）等人对构想效度的表述也同样存在各种混乱，对构想效度的界定通常指代不明（张凯，2004）。

Henning虽然在陈述效度定义时说过：“效度一般指某个特定测验或其任何组成部分作为对它声称要测量的那个东西的测度的恰当性”(1987：89)，似乎认为效度是测量的属性，然而其后在同一部著作中定义构想效度时，Henning却明确指出，测验“声称要测量”的，就是“潜在的理论构想”，而“建立构想效度的目的，就是证明被测量的潜在的理论构想本身有效”（Henning，1987：89），可见当时在Henning意识中，效度实质就是构想效度。

Borsboom等荷兰学者也是很明显的例子。一方面，他们承认效度是测验本身的属性，明确肯定Kelly（1927）提出的效度定义是正确的。另一方面，Borsboom等人（2004）在阐述其效度主张的文献中，却明确表示：

仅凭心理测量技术和心理测量模型解决不了效度问题。正相反，这个问题必须由实体理论来处理。测验效度是个心理学无法外包给方法论去解决的问题。（Borsboom et.al.,2004)

显然，这里“有效”所表述的已非测验本身的属性，而是测验构想或有关构想的理论了（陈宏，2012：6）。这些令人费解的表述，是由于研究者自身对构想效度理解的模糊和不确定所造成的。

由上述多种多样的构想效度概念，我们可以明确，“构想效度究竟是指什么有效”这个问题存在多样的回答和复杂的论争，是一个值得研究的课题。

2 心理构想解释采用物理学视角还是社会学视角

早在19世纪中期，心理物理学的出现，引发了一场关于人类心理构想解释采用物理学视角还是采用社会学视角的争论。

心理物理学（psychophysics）研究，像这个词本身所表明的那样，研究的是精神（心理）世界和物质（物理）世界的关系。这一研究包括提起重物、视觉明度、视觉距离和触觉距离的实验（舒尔兹，2005：66）。从名称上看，心理物理学一方面要以心理学为基础，另一方面还要能为心理学提供数学基础。心理物理学要从物理学研究中得到启发和方法论，从生理学和解剖学中得到更多的神经系统方面的东西。可见，心理物理学的解释视角主张从客观存在的生理机制上寻求依据，并结合物理学的数字化表达方式，力图使心理学成为物理学那样的精密科学。而心理学的传统做法是将这两种视角相结合，一些心理学家认为有关自然本性视角和后天因素视角的争论根本就不存在，因为人类行为是由外部环境和遗传物质共同作用的结果，把两者分开是不明智的。

然而，“在测量界乃至一般测验用户那里，主张效度的实在性似乎注定是要坐冷板凳的”（陈宏，2012：7），显然，在关于人类行为解释的生物学和社会学（自然本性和后天因素）视角之间的这场争论中，社会学解释视角占据了上风，这一视角对心理测验的思考和分析与测验所处的社会环境相联系，从道德和实际应用等方面研究人类行为，至今仍是心理测量和构想效度研究的主流观点。

我们认为，主张从生物学视角解释行为，其根本还是心理特质的实在性问题。我们知道，在经验世界里，无论通过感官还是借助各种测量工具，心理特质都是无法直接观察的，一切关于特质的构想和理论都只是假设：假设被试行为的原因可以用某种特质的作用来解释，这些特质影响了被试行为，被试行为的差异体现了特质的差异。

可不幸的是，探究心理特质实在性这一点，偏偏正是现代教育和心理测量界长期以来一个最大的难题。将特质的实在性看作效度的核心，就是要求测验构想确有某种外在的实体与之明确对应。

其实早在19世纪中期，费希纳就尝试从生物学视角解释人类行为。著名的费希纳律将感觉这种不可直接观察的属性定为构想，然后找到了一种可观察的属性——刺激量作为直接测量对象，经过反复试验，在刺激量和感觉量之间找到了一条（用数学表达的）定律，即S=KlogR，根据上述证明理论的要求，这时感觉量作为构想得到了证明。这一定律的出现表明，对心理构想实在性的探究和科学测量虽然难度很大，但也并非毫无希望。可以说，费希纳开拓了心理测量科学方法的先例和思路，这一方向是值得继续深入挖掘和继承的。这正是心理测量需要继续努力的方向。而回避和忽略这一研究思路，转而从社会学视角解释行为，则趋于主观判断和人为因素的掺杂，研究难度骤然降低，而且可满足实际需求和社会需要，但是“这样一个完全靠假设构建起来的效验推论链条是十分脆弱的，因为假设终究需要证实：测验所测特质不仅存在于构想，而且有其实体”（陈宏，2012）。

总之，通过对行为解释的生物学视角和社会学视角之间的论争，我们发现这两大研究视角在长期的争论中，已经形成了两种主要变量，即与本能相关联的生理机能因素，和与环境经验相关联的因素。但是这两种截然不同的观点是无法互相融合的，在尚无定论的情况下只能各自为政。

3 确定因果效应还是构建相关网络

测验效度实质上就看测验是否能够通过分数变异真实反映特质作用于被试行为的效应。如果效度检验结果显示，分数变异是因特质变异而起，这就意味着，当前观察到的被试行为之变异正是测验打算测量的那种特质变异的效应，就测量这一特定的特质而言，测验就是有效的。正是由于作用于测验分数的一系列心理生理因素始终是个谜团，对二者之间因果关系的探究也举步维艰，甚至备遭冷落。

实际上，因果关联研究是非常必要的。但是因果分析为何未见其效呢？对于这个疑问，陈宏（2012）作出了相应的解释和回答：

因果关联研究在方法论方面有一些优势，却在效度概念发展的大半个世纪里一直处于测量专家们的视野之外，最关键的原因，恐怕就在于这种简单的从因果效应发生过程求证的效度检验思路需要直接的观察手段，而现代教育心理测量包括语言测验恰恰缺少这样的条件。令人鼓舞的是，近年来，随着时间的推移和科技进步，我们似乎已经可以依稀看到因果关联性的定性研究在测量领域尤其是效度研究中得以应用的希望曙光。（陈宏，2012：18）

可见，陈宏（2012）将因果关联研究法的使用局限，归结为心理测量缺少直接的观察手段，是有一定道理的。毕竟想要得到因果关系，需要找到确切的关联，而直接的观察手段则是最理想的证明因果关系的途径。但是，直接的观察手段的实现，需要根据所测特质的具体情况而定，并非所有的特质都能够实现直接的观察。

与因果关系的艰难探究不同的是，相关关联的研究则由来已久，且占据主导地位，大受社会学解释视角的青睐。早在20世纪50年代以前效度概念发展的初期，人们曾普遍相信有效即相关。例如Guilford曾夸张地认为“从某种非常一般的意义上说，测验对任何与其相关的事物都是有效的”（Guilford，1946）。以至于之后的大多数研究者都认同相关分析为效度研究的主要方法。

Borsboom等人为了说明相关性分析对于理论解释存在的缺陷，他们从以下几个方面对以相关为基础的效度检验研究做出了概括：

第一，世界上各种事物之间完全无关的情况实际上非常少见，特别是在社会科学领域中，一切事物都趋于彼此相关（Meehl,1978）。

第二，用相关来表示效度，就会使人误以为相关系数越高，效度就越高……然而，这种逻辑往往还会导致进一步极端的推论，即两个变量完全相关，便意味着完全有效，甚至使人误以为有确切关联的特质就是一回事，这可是极大的谬误。

第三，因为相关关系本身就是一个总体依赖的统计量，所以任何以相关为基础建立起来的效度检验观点都必然导致效度在不同总体之间是可变的推论。然而，效度只应取决于特质变异，与相关关系和总体变化并没有必然联系。（陈宏，2012：16-17）

需要说明的是，虽然相关分析的缺陷已经被很多心理学家所发现和批判，效标关联效度检验由于依赖于相关分析的研究方法，存在循环论证问题而遭到研究者的抨击。但是，心理学界面临着社会对心理测量（包括语言测验）的迫切需求，需要回答有关测验的效度和效度检验方面的问题，而在心理测量尚未成熟的情况下，相关分析这一检验方法及时地为心理测量学家解围，成为目前效度检验的重要方法，这也可以说是心理测量不得不面对和承认的一个客观事实和无奈。由此可见，因果关系的实现应该居于研究的首位，因果关系中包含相关关系，两种分析不可分割，但也应有主有次。

总之，在效度研究中建立因果关联探究，还是继续奉行相关分析的研究方法，这一争论正在进行，且随着心理测量学家对心理特质和构想效度思考的深入，这个议题日益凸显出来，并在近些年来的效度探讨中成为关注的核心问题之一。争论双方各执一词，有待深入分析和探究。

[1]Alderson,J.C.,Clapham,C.,Wall,D.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press.1995.

[2]Allison,D.Language Testing and Evaluation:An Introductory Course[M].Singapore:Singapore University Press.1999.

[3]American Psychological Association.Standards for educational and psychological tests and manuals[M].Washington,DC:American Psychological Association.1999.

[4]Anastasi,A.Psychological Testing（5th ed.）[M].New York:Macmillan Publishing Co.,Inc.1982.

[5]Anastasi,A.,Urbina.S.Psychological Testing.(7th ed.)[M].New Jersey:Prentice-Hall,Inc.1997.

[6]Bachman，L.F.Fundamental Consideration in Language Testing[M].New York:Oxford University Press.1990.

[7]Bachman,L.F.,Palmer,A.S.Language Testing in Practice[M].New York:Oxford University Press.1996.

[8]Borsboom,D.,Mellenbergh,G.J.Why psychometrics is not pathological:A comment on Michell[J].Theory&Psychology.2004（14）：105-120.

[9]Borsboom,D.,Ange’Iique O.J.Cramer;RogierA.Kievit,Annemarie Zand Scholten,Sanja Franic.The End of Construct Validity.The concept of validity:revisions,new directions,and applications[M].edited by Robert W.Lissitz.Information Age Publishing Inc.2009：135-172.

[10]Chapelle,C.A.Construct definition and validity in SLA research.L.F.Bachman and A.D.Cohn(eds.).Interfaces Between Second Language Acquisition and Language Testing Research[M].Cambridge:Cambridge University Press.1998.

[11]Cronbach,L.J.Five perspectives on validation argument.In H.Wainer&H.Braun(Eds),Test validity[M].Hillsdale,NJ:Lawrence Erlbaum.1988：3-17.

[12]Cronbach,L.J.,Meehl.P.E.Construct validity in psychological tests[M].Psychological Bulletin.1955：52,281-302.

[13]Ebel,R.L.,Frisbie,D.A.Essentials of Educational Measurement[M].New Jersey:Prentice-Hall.1991.

[14]Fraenkel J.R.,Wallen,N.E.How to Design and Evaluate Research in Education(2nd ed.)[M].McGraw-Hill,Inc.1993.

[15]Guilford,J.P.New standards for test evaluation[J].Educational and Psycbological Measurement.1946（6）：427-439.

[16]Henning,G.A Guide to Language Testing:Development,Evaluation,Research[M].New York:Newbury House Publisher.1987.

[17]Kelley,T.L.Interpretation of educational measurement[M].Yonkers-on-Hudson,NY:World Book Co.1927.

[18]Meehl,P.E.Theoretical risks and tabularasterisks:Sir Karl,Sir Ronald,and the sIowprogress of soft psychology[J].Journal of Consulting and Clinical Psycbology.1978（46）：806-834.

[19]Messick,S.Meaning and Values in Test Validation:The Science and Ethics of Assessment[M].Educational Researcher.1989（18）：2,5-11.

[20]常晓宇.效度理论的变迁[D].北京语言大学硕士毕业论文，2001.

[21]陈宏.效度的基本概念[J].语言测试的跨学科探索：北京语言大学汉语水平考试中心2011年科研报告会论文集.北京：华语教学出版社，2012.

[22]戴海琦，张锋，陈雪枫.心理与教育测量[M].广州：暨南大学出版社，1999.

[23]杜·舒尔兹，等，著.叶浩生，译.现代心理学史（第八版）[M].凤凰出版传媒集团，江苏教育出版社，2005.

[24]桂诗春，宁春岩.语言学方法论[M].北京：外语教学与研究出版社，1997.

[25]凌文辁，滨治世.心理测验法[M].北京：科学出版社，1988.

[26]刘润清.语言测试和它的方法[M].北京：外语教学与研究出版社，1991.

[27]徐枞巍，许建钺，等，译.效度.引自：Huesn,T.,Postlethwaite,T.N.简明国际教育百科全书·教育测量与评价[M].北京：教育科学出版社，1992.

[28]张凯.测量是理论的组成部分—再谈构想效度[J].云南师范大学学报（对外汉语教学与研究版），2004（5）：7-14.

（责任编辑周黎明）

The Dispute in the Field of Validity Research

ZHAO Qifeng

Validity is of the most important concepts in Educational and Psychological Measurement academia.After 60 years,Construct Validity is still an unsettled problem.Based on the previous studies,We discussed three aspects of validity of the present controversy in the field,including the nature of the concept of construct validity,construct validity research perspective and the research methods.We think that by far the construct validity of position in nature,exploring perspectives and methodological aspects are still controversial.This situation need to be rationalized and unified.Researchers need to accept and learn from some of the established disciplines such as physics research ideas and methods.This is an important way to the realization of scientific research for Construct validity.

Construct Validity；Construct；Psychophysics；Causal Analysis

G405

1005-8427(2014)06-0011-7

本文系北京语言大学校级科研项目资助（中央高校基本科研业务专项资金）（项目编号为13YBB22）。

赵琪凤，女，北京语言大学语言科学学院汉语水平考试中心博士，副研究员（北京 100083）