论教育评价的效度及其构建

2014-04-15 09:03黄小平胡中锋

高教探索 2014年2期

黄小平+胡中锋

收稿日期：2013-11-12

作者简介：黄小平，华南师范大学公共管理学院博士研究生，助理研究员；胡中锋，华南师范大学公共管理学院教授，博士生导师，副院长。（广州/510009）

*本文系2012年广东省软科学研究重点项目“广东省科技创新型人才素质结构与评价标准研究”（项目编号2012B070300050）资助成果。摘要：教育评价效度的主要问题是将教育测量的效度概念框架系统照搬至教育评价的效度概念系统，适合于教育评价理论与实践需要的效度概念系统尚未真正建立。本文依据教育评价自身的内在属性特征建构了8个教育评价的效度概念：目的效度、建构效度、内容效度、交叉效度、主体效度、过程效度、功能效度、结果效度，并对其依据及其内涵进行了阐述。

关键词：教育评价；效度；构建一、问题的提出

教育评价是根据一定的教育价值或教育目标，运用可行的科学手段，通过系统地搜集信息、分析解释，对教育现象进行价值判断，从而为不断优化教育和教育决策提供依据的过程。[1]在教育评价实践中，一般要考察教育评价的结果多大程度上实现了既定的教育价值或目标；在具体评价时要考察教育评价指标反映教育目的的实现程度；在搜集各类教育评价信息时，特别是在运用评价工具和评价方法时要考察其能在多大程度上有效实现了对教育对象的测评；在实施某一评价活动时，如何控制影响评价结果有效性的各种误差变量，进而保证评价的内在效度；做教育决策时多大程度上可以将教育评价的结果推广至更大的被评价对象的情境、范围和领域，从而保证教育评价的外在效度等等诸如此类问题。从根本上说，一切教育评价活动的实现程度都必须通过教育评价的效度（validity）来进行评估和检验，并以此来判断教育价值或教育目标的实现程度。

二、教育评价效度的问题概述

（一）将教育测量的效度概念系统照搬至教育评价的效度概念系统

教育测量是对教育中的各种客体在某个或者多个属性上的特征的描述。其独特性在于测量是一种量化的描述，即运用数字系统对教育对象的属性的量加以刻画。在教育测量学的概念系统中，效度（validity）的经典定义是“指人们测量到了所想测量的东西的程度”[2]。因此，研究者在考察教育客体的效度类型时通常非常强调四种效度：结构效度（construct validity）、内部效度（internal validity）、统计结论效度（statistical conclusion validity）、外部效度（external validity）。概括而言，结构效度表示的是实际测量到的结构与预设的理论或构念（construct）相吻合的程度；内部效度表示的是变量与变量之间的确定性关系的程度；统计结论效度意指结论能够被解释并反映事物属性的程度；外部效度意指测量的结果能够被推广到其他情境的程度。

而教育评价是在某种标准（目标）之下对教育对象的价值或者特征的评判。价值在教育评价中不仅可以成为评价的对象，如考察某个教育对象的价值，还可以成为教育评价的标准，如评价标准的选择和确定。因此，从这一点而言，教育评价在评价中具有一定的主观性，是主观估计与客观测量的统一，而且教育评价活动往往比教育测量活动要复杂得多，从教育评价构成的系统要素而言，一项评价活动包括了价值目标和标准、组织机构和人员、评价方法与技术、评价对象与评价人员的心理调控等。从教育评价的客体（教育对象）以及关注的评价内容要素而言，教育评价远比教育测量关注的内容维度、评价方法、判断依据、价值判断等方面要丰富和复杂得多。因此，在考察教育评价的效度评价时我们不能忽略了教育评价与教育测量两者的联系，但同时更应当看到两者之间的区别，在实际应用时不能将教育测量中的效度概念移用至教育评价的效度概念体系当中。另一方面，应根据教育评价的研究对象及自身属性特征来确立其内涵及其概念，并建立教育评价特有的效度概念体系。

（二）适合于教育评价理论与实践需要的效度概念系统尚未真正建立

建立教育评价的效度概念系统是教育评价理论和实践发展的需要。在国内，少有研究者对教育评价的效度理论进行专门系统性的研究，较有代表性的研究有顾志跃[3]，他从提高教育评价质量的角度出发，详细考察并分析了影响中小学教育评价质量的三个效度因素：外在效度，表现为评价结果与目的分离；内在效度，主要表现是信息与事实的之间存在偏差；结构效度，主要表现为指标体系与评价对象的非同构现象。这些效度概念仍然是建立在教育测量学的概念体系范畴之内，并未对教育评价的效度概念和体系做出更大程度上的拓展和建构。某种程度上而言，对教育评价的效度概念关注的甚少影响制约着我国教育评价理论朝着纵深方向发展。

而国外尤其是美国的研究者对效度理论的研究非常丰富，在教育测量与评价领域内，现代意义上的效度理论已经完全不同于传统的效度理论，如：（1）现代效度理论被定义为不是测量工具本身的属性，而是对测验分数进行解释和使用的支持程度。（2）Messick[4]（1989）在对教育考试的效度研究中提出了“效度整体观”（the unified conception of validity）的概念，并为效度验证（validation，简称效验，以下同）提出了具体的指导。（3）效验被认为是一个评价的过程。效验需要使用定量和定性的方法搜集足够多的证据来支持基于测试分数做出的推断。（4）传统效度理论中信度与效度的概念不同。在现代效度理论中，信度作为效度的证据来源也是效度的一个不可或缺的重要组成部分。在现代效度理论下，效验要求对测验从编制到解释、再到使用后果的整个程序进行拷问，因为“每个环节都是效度证据的重要来源”[5]。教育评价是否真实有效，需要“搜集证据”来验证是否达到了既定的教育目的或目标。因此，从教育评价理论发展的实际需要和国外现代效度理论发展的实际来看，需要根据教育评价本身的特点和属性来构建其概念系统。

·教育管理· 论教育评价的效度及其构建三、教育评价效度概念的建构

由于教育评价所涉多个价值标准，因此较难依据一种价值标准来判断教育评价的效果，应从多个维度对教育评价的效度进行拓展并构建。

本文以构成教育评价系统的要素作为逻辑基点，分别考察评价过程中的目标、体系、内容、标准、方法、功能、主体、过程、结果等要素特征的有效性来论述建构教育评价的效度概念体系。

（一）目标效度，即某种教育评价目标以及教育理念的实现程度

目标效度即教育评价达到了某个既定的教育目标或价值的程度，这是教育评价最根本的价值体现，因为效度本身就是以“目的或目标”的实现程度来进行考察的。因此，目标效度是以针对“教育目标、教育目的”的实现为判断依据的。如果某项教育评价结果在实践中有证据表明达到既定的目标，实现并完成了最初所设定的教育目标价值，那么即认为评价项目具有一定的目标效度。从根本上说，目标效度所要考察的是教育评价的总目标以及总目标下的各个评价维度的子目标的实现程度，反映了教育评价的根本目的和价值要求。

（二）建构效度，即评价体系的目标和教育对象之间的一致性程度

Messick[6]认为现代效度理论中最核心的效度是建构效度，并不存在几种不同的效度，如内容、实证、结构、概括化、外部和结果。我们认为将所有的效度类型都归结为一个建构效度显然太过于笼统，不利于对各种使用目的不同的效度做出区分，也不太符合教育评价的实际情况。因此，在教育评价领域中，建构效度不同于教育测量学的建构效度的含义，它通常是以设定的某个评价体系和编制的评价量表（测验工具）来表征和反映被评价对象。比如抽象的概念如创造力、智能；评价对象所在的水平状态如教育质量水平以及所包含的各要素的实现程度。建构效度所关注的是评价体系中的各个行为指标、要素特征、评价维度是否真实反映了评价的客体对象，最终要表达的是教育评价体系中的目标和教育对象之间的一致性程度。

因此，建构效度不仅是要关注理论或构念系统（有时可能并不需要某个构念系统，如依据一项结果是否达到教育政策的要求来给予评价），更要关注评价体系是否真实反映了评价客体的心理状态、行为取向、能力水平各方面的变化。同时一个具有良好建构效度的教育评价工具还可以准确地将一组被试和另一组被试区分开来。比如，一个评价工具要检测学生面向社会收集信息的能力，在检验这一评价结果时，如果所设计的评价项目能够将收集信息能力强与能力弱的学生分别开来，那么这个评价工具就有了建构效度。反之，如果评价的体系、维度不能反映学生在收集信息方面真实存在的能力差别，这个评价工具就没有建构效度。

（三）内容效度，即教育评价需要考察的内容或行为样本的适当程度

教育评价在实际操作时，需要对教育评价的总目标进行分解，总目标又具体分解为具体的教育子目标，而子目标又规定了哪些内容需要被考察以及相应的权重大小如何。因此，内容效度是对于要考察的内容或者行为样本的适当程度。在实际的评价过程中，内容效度是通过对评价目标以及具体的可操作的内容维度目标来进行检验的：一是反映总目标的维度内容的充分代表性，即维度目标是否被覆盖了所要考察的全域范围中的总目标要求；二是要评价的项目应是已界定好内容范围的代表性样本；三是要对每个项目所要评价的具体行为（如知识与技能）与上一级评价目标应保持一致，同时各子目标要相互独立，不能重叠，要力图反映总目标的要求。考察内容效度可采用复本法、再测法或者经验判断法。

（四）交叉效度，即各种教育评价方法相互检验和验证的一致性程度

实际评价中，多元性评价标准给评价带来了一定的困难。有时候，评价者在操作层面上将不同的标准加以融合是出于某一实用的动机，但往往忽略了“程序或技术的方法”与“逻辑证明的方法”之间的区别，对自己使用的方法背后的方法论缺乏自觉和反省。[7]结果，专家群体则很难对他们的研究进行质量评价。由于标准不同，这时在评估教育评价的效度时需要充分考查各种评价方法和标准的交叉效度。三角互证法可以用来检验不同的证据来源或不同的资料收集方法，其目的是为了在不同的标准之间进行相互证实。因此，可将此方法用作评估检验交叉效度的一种方法。

在教育评价中一般有两种基本评价方法：量的评价方法（亦称量化评价方法）和质的评价方法（亦称质性评价方法）。由于这两种方法采用不同的研究范式，因此，在研究方法、路径和步骤等方面具有很大的差异，评价效度的类型也有本质差异。如表1所示归纳了两种不同研究范式下的代表性方法以及据此建立的评价效度类型。

有必要指出的是，当两种方法整合在一起使用，这时如何考察评价方法的效度？其总的原则是在讨论量的评价结果时，则应考虑按数学概率的规则。将研究的结果推广到从中抽样的总体当中的适当性。在讨论质的评价结果时，则要根据质的研究目的、研究方法和策略以及研究步骤采用不同的效度评价标准及效度类型。如表1所示。无论是量的评价方法还是质的评价方法都需要从多方面寻找“效标证据”，同时考虑效度的测量指标的易获取性和可能性等因素。

（五）评价主体效度，即各种评价主体对评价客体评价结果的正确性和公平性

现代教育评价实践中，往往存在多个评价主体和多个利益相关者。因此，不同评价主体的评价目的不同，评价观念、评价标准、评价方法、评价工具的使用都可能带来很大的差异甚至相反，从而使评价失去效度。从本质上说，评价效度是针对于目的而言，不同评价主体由于评价目的、价值观、立场、标准不同，其评价效度可解释的范围、目的、价值性以及评价本身的意义都会不一样。因此，我们在对某项教育活动进行评价时，保证评价主体的一致性对于保证同一目的效度的评价就很重要。当然，即使是同一评价主体，其主体成员之间也存在着个体间的差异，在对某项教育目标评价时也可能因为个体之间对评价标准把握的不一致性从而带来评价者信度较低的可能，进而影响到评价的整体效度。

因此，在教育评价活动结束后，要考察教育评价的主体效度，对于评价主体效度要一分为二的来看待。

一方面，当存在多个评价主体时，此时就存在着多个评价主体效度，不同主体的评价效度之间还可以作为相互补充，便于教育决策者可以在多个效度之间合理筛选和评价，也便于集思广益，从而有利于教育决策者获得更多的教育评价信息，广开言路。

另一方面，由于存在多个评价主体，这会给效度评价带来一定的困难，使教育评价结果及解释存在着较大模糊性和不确定性，因而带来不同教育评价结果。尤其涉及到评价利益关系时，更会影响到教育评价活动的公平和公正，进而影响评价结果的有效性。因此，在重视评价主体效度的多元性对教育评价结果的促进作用的同时，还要根据教育评价使用的目的来对教育评价主体效度进行区分、比较和鉴别，选择评价结果效度较高的评价主体。

（六）过程效度，即教育评价收集各种评价信息和资料过程的有效性

教育评价的过程是由评价者组织实施，综合运用多种评价方法和工具，收集评价数据和信息的过程。评价活动的过程还是一个不断累积式、动态化评价的过程。因此，评价过程的效度关注的焦点是被评价者的“动态发展过程”，更加注重的是被评价者在既定评价目标下成长发生的经历，以及在整个教育活动中的历史和现实的绩效总和。如利用档案袋评价方法收集学生的优秀作品进行的表现性评价，再如对学校的发展性评价采用的增值性评价方法等。另一方面，教育评价的过程是整个教育评价活动开展的重要的评价步骤和实施依据，评价过程中的任何一个环节和关键评价要素，如对评价指标把握的宽严、对同一指标评价时产生的误差等都可能会影响到整体评价效度。又如在收集资料时，是采用问卷调查还是结构访谈的方法？是采用量的分析方法还是质的研究方法？一旦使用了不同的方法，那么评价的策略和重点就不相同。因此，在评价过程中需要综合运用多项效度指标。

过程效度如何考察需要综合来看。当收集被评价者的评价信息时，更多的则要关注资料的内部效度。当构建指标时，要充分考虑指标的科学性、完备性、独立性的同时还要考虑指标的区分效度以及各测量指标是否反映了总体目标程度的内容效度。要考察现有测量工具的预测效果时，则要考察某个工具的即时效度。当使用测评工具如某个心理量表时，则要关注测评工具的构念（construct）效度。当要对学生进行学业能力水平的形成性评价时，则要用到认知诊断评价工具，还要更多关注模型与方法的统计结果效度。因此，对于评价过程的效度评价而言，则是在各种综合效度都比较高的情况下作出的整体综合性的效度评价，有必要对评价过程当中使用到的方法、工具进行再评价，再检验（亦称为元评价），以确保评价的过程效度。

（七）功能效度，即实现教育评价目标既有功能的程度

教育评价具有选拔、鉴别、遴选、判断优劣、排序等功能，因此我们要考察教育评价的功能效度。功能效度是指实现了教育评价的既有功能的程度，体现的是教育评价的效用性（utility）。功能效度评价的内容具体主要表现为要体现教育评价增量性的指标，且要体现可行性、容易理解也便于操作。因此，功能效度关注的焦点是与教育评价功能直接相关的“结果性指标”效度。比如高考的评价功能是选拔，那么功能效度则具体表现为高考的入取率、重点大学入取率等功能性的可考察指标，这些指标可以作为效度评价的最重要依据。事实上，教育评价的功能效度直接体现了教育评价目标的实现。持有何种教育目的实际上决定了评价者使用何种评价功能，也因此决定了评价的功能效度。

（八）结果效度，即教育评价结果的实现程度

功能效度和目的效度以及最终表现的结果效度都是一脉相承的，即评价结果在多大程度上实现了预期评价目的、评价目标，体现出评价者使用意图以及教育目标价值，同时也能更好反映被评价者的评价需求，并能在实践中取得成效。因此，概括起来，结果效度可以从以下四个方面进行考察。

第一，结果效度要反映评价者使用评价的目的，即满足目的的需要。

第二，评价信息的反馈要反映被评价者的各种需求，特别是教育评价的结果要让被评价者得到认同，这样才能达到教育评价的最初设想和目的，也才能更好的发挥教育评价的督导作用。

第三，评价的结果要能在实践中得到验证和应用，并最终取得一定的教育成效，即效用（utility）。

第四，教育评价结果可推广到的目标团体和范围。

因此，结果效度的内容包括：满足评价目的，得到被评价者的认同需求，有教育成效，可推广性。

综上所述，教育评价的效度概念的内涵是非常丰富的。因此，构建效度评价的指标应当是多维的、多视角来综合考量的。与教育测量的效度概念相比，教育评价的效度概念被赋予的内涵远比测量的效度要深刻丰富得多。通过以上分析论述，教育评价的效度可概括为以下八个基本方面：（1）目标效度——某种教育评价目标以及教育理念的实现程度。（2）建构效度——评价体系的目标和教育对象之间的一致性程度。（3）内容效度——教育评价需要考察的内容或行为样本的适当程度。（4）交叉效度——教育评价方法、标准相互检验和验证的一致性程度。（5）评价主体效度——各种评价主体对评价客体评价结果的正确性和公平性。（6）过程效度——教育评价收集各种评价信息和资料的过程的有效性。（7）功能效度——实现了教育评价目标既有功能的程度。（8）结果效度——具体表现为教育评价最终的价值实现程度和满足主客体的价值实现程度，具体评价的维度又可分解为目的效度、需求效度、成效效度以及外在效度。

四、结语

以上仅从教育评价本身的属性特点建构了教育评价的效度概念，并试图拓展和构建了教育评价效度的内容及其评价的方法。实际上，由于教育评价活动本身的丰富性、复杂性和多元性，决定了教育评价效度的评价方法也存在着多元化，正如巴顿在《效用为本的评价》中所提到的那样，“要确保评价具有效用、可行性、理性和准确性，就必须具有情境的敏感性、方法的灵活性，评价者角色的多元化、良好的政治修养和创新”[9]。为此，我们还要在实践中不断寻找出具有可实际操作性和可考量性的效标评价依据。