自学考试的效度及其证据来源探析

2014-02-04 20:07韦小满王桥影

中国考试 2014年6期

田霖韦小满王桥影

自学考试的效度及其证据来源探析

田霖韦小满王桥影

效度是衡量考试科学性的重要指标，反映考试在多大程度上实现了测量目的；效度验证也成为测验开发的重要环节，用以支持分数解释及测验使用。本文简要介绍了效度概念的内涵及效度验证的发展历程，并尝试将效度整体观引入自学考试领域，对自学考试的效度验证及其证据来源进行初步探索。本文提出，自学考试应从命题管理的各个环节系统地收集证据进行效度验证，效度证据的来源包括测验内容、反应过程、测验内部结构、测验评分、跟外部变量的关系、测验后果等多个方面。

自学考试；效度；效度验证；效度证据

传统意义上的效度是指一个测验对其所欲测量的属性确能测到的程度[1]，《教育与心理测验标准》（1999年）提出，“效度是指证据和理论对测验分数的特定解释的支持程度”[2]。随着效度理论的发展，效度概念内涵从“相关即有效”到“多种类型的效度”，最终发展为“一元多维的整体效度概念”[3]，效度验证的方法也从传统的某种效度类型的检验，发展成为全面的、综合的检验，包含对整个测验过程及测验结果的分析和解释。由于效度反映了测验功能的有效性，因此效度验证成为测验开发的重要环节。自学考试作为国家大规模教育考试，效度是衡量其考试科学性的重要指标，现代效度理论的发展为自学考试的效度研究提供了新的思路，在自学考试领域具有广阔的应用前景。

1 效度理论的发展概述

效度概念的发展大致经历三个阶段。第一阶段为“单一效度观”时期（20世纪50年代之前），其认为“相关即有效”，此时效度用“测验的成绩与采用其他客观方法进行度量所得结果之间的相关”表示。第二阶段为“分类效度观”时期（20世纪50年代至70年代），其将效度划分为内容效度、结构效度和效标关联效度[3]，内容效度是指测验内容对所要测量范围的代表性程度；结构效度是指测验对于人的假设属性或理论概念测量到的程度[1]；效标关联效度是指某测验结果与另一后来获得的测验结果之间的相关（预测效度）或大约同时获得的测验结果之间的相关（同时效度）[3]。有研究者认为，将效度划分为多种类型的传统做法得到的效度是支离破碎的、不完整的，而且这种做法缺乏对测验成绩的价值内涵和社会后果的考虑[4]。第三阶段为“效度整体观”时期（20世纪70年代至今），其认为效度就是“关于经验证据和理论依据对基于测验分数或其他测量模式的推论与活动的合适性与恰当性的支持程度的一种综合评估判断”[5]，此时效度已经成为一个统合各方面效度证据的综合性概念，其包括内容、实证、结构、概括化、外部和后果六个层面，这六个层面相互关联，可以作为教育与心理测验的一般效度标准[4]。效度整体观涵盖了测验编制、实施、评分、分数解释、推广以及社会影响等各环节，是一个不断评价、质疑、检查、解释和推论的动态过程[6]。

传统的效度验证主要关注试题、测验结构和分数，研究者针对不同的效度类型提出了不同的效度验证方法：①内容效度，这是教育考试领域较为关注的效度内容，主要是通过专家的逻辑判断进行验证；②结构效度，这是心理测验领域关注的效度内容，一般通过因素分析、结构方程模型、多元回归分析等方法进行验证，最终使得实证数据能够最大限度地拟合理论模型[1]；③效标关联效度，主要通过计算本次测验结果与其他测验结果（效标分数）之间的相关系数来进行验证，而效标分数的获得则是效标关联效度验证的难点。有研究者认为，传统效度理论将效度划分为不同类型的做法是不合理的[4]，导致其效度验证过程也是片面的、孤立的。效度整体观认为，效度作为一个完整的概念，它的验证过程应该是全面的、综合的，不仅对测验结果进行分析和解释，还应对测验过程进行分析和解释；不仅对此时的测验结果进行分析和解释，还涉及对分数使用后果和价值的解释[6]。效度验证可依据Messick提出的效度六个层面进行：①内容层面，主要涉及测验的范围与测验试题样本的代表性；②实证层面，指测验应确保其所引发的心理加工过程有代表性，能够提供实验证据证明被试在任务完成过程中确实运用了设想的心理加工过程；③结构层面，要求测验的评分模式与待测构念的内在结构相一致，应最大限度地反映行为表现背后所隐含的结构关系；④概括化层面，指测验分数意义对总体、环境和其他测验题目的推广程度，即分数的使用范围和界限；⑤外部层面，指测验成绩与其他测验结果之间的关系在多大程度上反映了待测构念的理论预期；⑥后果层面，指评价分数解释和使用所带来的实际和潜在后果的证据和理论说明[4]。

效度整体观的效度概念比传统效度概念更为丰富，但其效度验证仍存在诸多问题需要解决，如证据收集的复杂性、证据的使用标准及其解释、效验过程的可操作化、证据资料的量化处理等；传统效度虽然受到效度整体观的批判，但其效度验证方面已形成了成熟的检验思路和数据统计方法，在一定时期内，传统的效度验证方法中仍具有可借鉴性，效度整体观应批判性继承其合理成分，提高效度验证过程的可操作性。

2 自学考试的效度内涵及效度验证

自学考试是个人自学、社会助学和国家考试相结合的高等教育形式，是高等教育体系的重要组成部分。自学考试的考核标准与普通高等学校（含高职院校）相同层次、相同专业、相同课程的要求基本一致[7]，通过自学考试相关专业课程的考生可获得国家认可的学历。这就要求自学考试标准化试卷能够有效测查相关课程的教学目标，确保通过自学考试的考生真正具备相关的专业能力。因此，效度验证是关系自学考试教育质量的重要问题。

教育考试领域的效度反映的是某课程的标准化试卷是否测量到该课程的考核目标及其在多大程度上测量到了这种考核目标。对于自学考试而言，考试效度是指试卷在多大程度上测量到了自考生的相关的专业知识或能力水平，其内涵包括：试题考查内容能够有效代表课程知识结构体系；试卷能够测量考试大纲所规定的教学目标，并考查其在多大程度上测量到了这种教学目标；作为标准参照测验，自学考试是否能够有效地鉴别出达标考生，即考试对及格考生与不及格考生进行了有效区分。自学考试的效度越高，越能说明考试管理机构“基于考试分数结果对考生作出判断决策观点是有效的[8]。”

效度整体观认为效度验证包含两个步骤：首先提出效验观点，即试图对测试分数做哪些解释和使用，然后收集有关证据支持所提议的解释与使用[9]。自学考试应借鉴效度整体观的效度验证思想，结合其考试目的及标准参照测验的属性，从测验的开发与实施，到测验的评分，再到分数解释与使用等各个环节收集证据，使用多方面的证据验证其考试效度。对某个自考课程进行考试效度验证的一般过程包括：①明确该课程的考试目的。某专业课程考试是为了判断考生的专业知识或技能，其考核目标应严格依据专业结构设置、课程特点、考试大纲与教材的相关要求。②基于考试目的提出效验观点。该课程的考试分数能够代表考生相应的专业知识或技能水平，可以有效鉴别出不同水平的考生，尤其对自学考试合格标准附近的考生能够进行最大限度地区分。③围绕效验观点收集多层面的效度证据。效度是以证据为基础的，效度验证的过程就是根据效验观点积累和收集各种证据的过程，证据收集是效度验证的主要工作，如何根据自学考试的特点确定效度证据来源，是决定效度验证是否科学的关键。

3 自学考试的效度证据来源

效度验证是指研究者多方收集资料和证据来检验测验效度的过程[10]。《教育与心理测验标准》（1999年）中提到，效度证据的来源包括但并不限于：基于测验内容的证据、基于反应过程的证据、基于内部结构的证据、基于跟外部变量关系的证据，基于测验后果的证据[2]。Weir提出的社会认知效验框架对上述效度证据来源进行了补充和发展，将评分层面的证据纳入到效度证据体系中[11]。因此，自学考试的效度验证可参考上述效度证据来源框架，从试题开发到分数使用各个环节系统地收集证据。

3.1 基于测验内容的证据

测验内容方面的证据，要求就测验内容领域的代表性与测验分数解释的适当性之间做出逻辑和经验的分析[12]。效度内容方面的证据是考试结果解释和使用的基础，如果考试在内容方面不能提供足够的证据，其他方面的证据已毫无用处[13]。但目前，教育考试领域还没有成熟的统计模型直接用于评估内容取样的恰当程度，通常由多位学科专家根据测量目标和测量内容范围的界定，用逻辑分析的方法对考试内容取样代表性进行评定，学科专家在评定过程中要严格参照自学考试的考核标准。

自学考试基于内容方面的效度证据包括：全部试题的测试内容涉及了教材的哪些内容领域及其所占的比重；试卷的内容结构是否符合命题蓝图（双向细目表、考试大纲等）的要求，试卷的内容结构主要包括试卷试题考查内容的章节分布情况、重点章节试题所占的分值比例、试卷的难度分布情况、考核不同认知目标试题的分值比例等。考试管理机构可依据不同的测验内容的证据层面制定评定量表，邀请学科专家依据评定量表进行逐项判断，最终基于判断结果给出试卷内容代表性的整体评定结果，并计算多位专家判断结果的相关，作为评定结果可靠性的佐证。

3.2 基于反应过程的证据

教育考试本质上是从认知心理学的角度来看待考试结果反映考生心理结构的程度，即从考生作答问题的认知加工过程的角度来考查考试结果解释和分数使用的有效性[13]。获取考生反应过程信息的方法包括：问卷法、访谈法、作答过程分析法、计算机模拟法、出声思维法等。问卷法、访谈法需要依据考生的主观自陈信息进行证据收集，容易受主观因素的影响；计算机模拟法、出声思维法的使用容易受到考试环境的限制；实践中常常通过命题教师及学科专家对考生作答过程进行逻辑分析，获取反应过程的信息，作答过程分析法可操作化程度高，但指标的量化过程较为复杂，容易受到评价者的主观因素影响。

自学考试的试卷包含不同的题型，可采取不同的认知分析策略。对于客观题，可对试题内容、选项设置等进行认知分析，获取考生反应过程的证据信息；对于主观题（证明题、应用题、论述题、材料分析题、实验设计题等），可对试题考核内容、背景材料、设问方式、考生试卷作答记录进行认知分析，获取考生反应过程的证据信息。通过认知分析的方法获取考生反应过程方面的证据，对评价者的要求较高，其需要熟悉考试目标、命题理论与技术、认知心理学等相关知识，并具备一定的命题经验。通过对试卷进行逐题分析并作出评定，最后综合每道试题的评定结果完成对全卷的评定[10]。

3.3 基于内部结构的证据

测验内部结构的分析能反映测验项目或成分间的关系与作为分数解释基础结构间的一致性程度[14]，心理测验研究领域对于测验内部结构关注较多。通常测验内部结构的建立需要经过如下步骤：①对所要测量特质根据某理论提出（心理）结构假设；②根据假设编写测验；③寻求测验分数与其他测量结果的相关；④根据测验结果验证结构假设是否成立；⑤测验修订。在教育考试中，专业课程试卷的考核目标通常涵盖这门课程涉及的全部知识体系，难以建立结构清晰的心理特质结构。

自学考试命题管理规范要求命题教师首先根据教材和考试大纲制定双向细目表，试卷结构安排与试题编写应严格依据双向细目表的相关规定。对于某些容易划分学科能力结构的课程（如某些计算机类及外语类课程），可以尝试结合考试大纲与双向细目表，界定该课程所考查的心理模型，提出结构假设。考试后收集考生实测数据，通过因素分析、多维尺度分析、结构方程模型等方法对结构假设进行验证，获取内部结构方面的证据。

3.4 基于测验评分的证据

效度整体观认为，信度不再仅仅是衡量测验稳定性的指标，而是被纳入到效度体系中作为一项证据。评分方面的效度证据反映的是教育评价者能够在多大程度上相信考试的分数，主要涉及评分者信度和内部一致性信度。自学考试可利用阅卷管理系统提供的考生作答数据，从测验评分的角度收集评分者信度及内部一致性信度的证据，为效度验证提供支持。

评分者信度主要用于主观题评分，是指多位评分者对同一组考生作答反应评分的一致性程度。主观题评分受评分者主观因素的影响较大，不同的评分者对相同的试题答案可能给出不同的分数，此时评分者的评分差异已成为考试误差的来源之一。对于多位评分者进行评分时，分连续性计分和等级计分两种情况进行评分者信度的估计：①当多位评分者采用连续性计分法对一组考生的试卷进行评定时，采用Cronbach-α系数；②当多位评分者采用等级计分法对一组考生的试卷进行评定时，采用Kandall和谐系数（多列等级相关）[1]。

内部一致性信度是指试卷内部（试题之间）的一致性程度，通常可用分半信度或同质性信度表示：①分半信度，将每个考生的试卷按试题分成两部分（两个复本），然后用每个考生在两个副本上的得分求出整个试卷的信度。分半信度的估计可采用Spearman-Brown公式矫正法、Rulon公式估计法、Flanagan公式估计法等；②同质性信度，是指试卷内各个试题间的一致性程度，即所有试题都测量同一种心理特质，各是体检具有较高的相关性。对同质性信度进行估计时，0-1计分的测验可采用K-R20、K-R21公式等；非0-1计分的测验可采用Cronbachα系数[1]。

3.5 基于跟外部变量关系的证据

测验的外部变量可能包括测验期望去预测的某些标准的测量、其他假设测量相同结构的测验，以及测量相关的或不同的结构的测验结果。基于跟外部变量关系的证据收集方法包括：求同与求异的方法（如多重特质多重方法矩阵设计）、测验—效标关系（包括预测性效标与同时性效标）、效度的概化（效度在新测验情境中的推广—交叉效度验证）[14]。外部变量的确定与选择，是收集测验分数与外部变量关系的证据时需要解决的首要问题。

在自学考试的效度验证中，测验—效标关系方面的证据收集相对其他方法而言更具可操作性。效标就是确能显示或反映所欲测量的属性的变量，是考查测验效度的一个参照标准。通常用公认的比较客观的一次同类标准考试成绩来表示，可以是目前已经存在的效标分数，也可是未来将要获得的效标分数[1]。对于某专业课程考试而言，可将普通高校同学历层次、同专业、同课程的考试分数作为效标分数[10]，或尝试将同专业中相近课程的考试分数作为效标分数，计算本次考试分数与效标分数的相关系数，相关程度越高则表明证据的效力越强。然而如何寻找更为科学、有效的效标分数，仍是使用测验—效标关系证据的难点与关键。

3.6 基于测验后果的证据

测验后果指试卷的实测数据结果、分数的解释和使用及其所带来社会后果等，用于评价分数解释和使用结果[3]。测验后果的证据可以从考试的区分效度、反拨作用、对社会的影响等方面进行收集[11]。对于自学考试而言，目前国内某些地区的自学考试已经具备成熟的网上阅卷技术，成绩管理数据库中能够存储考生每个试题的作答信息，为试卷分析提供丰富的数据。自学考试作为标准参照测验，其要求试题在及格线（60分）附近具有最大区分功能，能够有效鉴别达标考生与未达标考生，因此可以借鉴“率差”作为评价指标[15]，即考查试题的局部区分功能，检验试题是否在及格线附近（如45～60分与60～75分分数段）对考生进行了有效区分。另外，还可分析造成考生分数差异的原因是否真正与测量目的有关（考生评价结果的不同是否是由于测量目标所要求的特质水平差异所造成）、合格考生是否在实践中表现出应有的能力水平等。

效度整体观认为，效度证据的收集是一个独立于测验编制与使用的调查研究过程，贯穿于整个测验的各个环节。基于效度证据作出自学考试的效度验证结论时，应注意效度是一个相对概念，是一个“程度问题”[6]，效度验证结论是效度的“高”或“低”，而并非“有效度”或“无效度”。另外，理想的效度证据应能充分支持效度观点，但如果收集的证据不能有效地支持效验观点，则需要基于效度证据对试题进行调整，直到所有效验观点得到支持或者最终放弃难以论证的效验观点。

4 小结

随着效度理论的发展，自学考试的效度概念有了新的内涵并形成了基于多层面证据的效验方法。效度不再是测量工具本身的属性，而是收集的证据对测验分数的解释、推论和决策的支持程度。效度整体观为自学考试的效度验证提供了一个理论框架，依据自学考试的目的及考试管理各环节的分析，采用多侧面的效度证据进行效度验证是可行的。对效度概念与效验方法的再认识，有助于考试管理机构从一个更为宽阔、全面的角度去认识自学考试的效力和实质，明确自学考试能够测量的以及不能测量的方面，不断改进自学考试的命题管理程序，更好地指导自学考试的试题编制和分数的使用。

效度证据涉及整个考试过程的各个环节，考试管理机构应重视效度研究对于自学考试科学性的重要意义，并积极将效度理论用于指导命题管理实践。结合自学考试的自身属性，研究者可从试题编写、试题审核校对、试卷评分、分数解释和使用等环节收集不同侧面的效度证据，以充分表明自学考试分数解释和使用的恰当性。效度验证是一个动态过程，不存在永远具备高效度的考试[6]，即使证据表明某次课程考试的效度较高，但随着自学考试的发展，效度研究仍要持续进行。当前自学考试的效度研究正处于探索阶段，仍存在诸多问题有待解决，如具体课程考试效度证据框架的设定、效度证据标准的确定、证据收集方法的可操作化、证据资料的量化处理等问题，需要未来研究者的深入探讨。

[1]王孝玲.教育测量[M].上海:华东师范大学出版社,2005:23-85.

[2]American Educational Research Association,American Psychological Association&National Council on Measurement in Education.Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association,1999：1-174.

[3]孙晓敏，张厚粲.效度概念演进及其新发展[J].心理科学，2004,27(1):234-235.

[4]Messick S.Validity of psychological assessment[J].Psychologist,1995(9):941-945.

[5]Messick S.Validity.In R.Linn(Ed.).Educational measurement(3rd ed.)[C].New York:Macmillan,1989：13-103.

[6]关丹丹，车宏生.现代效度理论与效验方法述评[J].心理科学，2010,33(3):654-656.

[7]余仁胜.自学考试命题中及格线的校准方法[J].中国考试（研究版），2005(6):37-39.

[8]Kane M.T.Concerns in validity theory[J].Journal of Educational Measurement,2001,38(4):319-342.

[9]Bachman L.F.Statistical Analysis for Language Assessment[M].Cambridge:Cambridge University Press,2004：258.

[10]卢正勇.高等教育自学考试的课程考试效度研究[J].教育与考试，2007(1):17-20.

[11]Weir C.J.Language Testing and Validation[M].Palgrave:Macmillan.2005：43-215.

[12]康春花，曾平飞，田伟.贯穿测验过程的公平分析思路[J].教育测量与评价（理论版），2010(7):4-7.

[13]雷新勇.大规模教育考试:命题与评价[M].上海:华东师范大学出版社，2006：281-303.

[14]漆书青.现代测量理论在考试中的应用[M].武汉:华中师范大学出版社，2003：405-442.

[15]赵海燕，臧铁军.率差标准的确定和难度常模的建立——对2004～2009年高考北京卷的实证研究[J].中国考试，2010(3):3-15.

（责任编辑周黎明）

Validity and Its Evidence in Self-taught Examination

TIAN Lin,WEI Xiaoman and WANG Qiaoying

Validity,as a key indicator of test’s scientific nature,reflects the effectiveness of test function and validation has become a significant step of test construction,which in turn supports score explanation and test appliance.This article has briefly introduced development of validity concept and validation approach,tried to bring unified conception of validity into self-taught examination and preliminarily discussed its validation approach and sources of validity evidence.The author proposes that self-taught examination should collect validity evidences systematically,which includes test content,students’cognitive process,test internal construct,test scoring,correlation with external variables as well as test consequence.

Self-taught Examination；Validity；Validation；Validity Evidence

G405

1005-8427(2014)06-0018-6

田霖，男，北京教育考试院，助理研究员，博士（北京 100083）

韦小满，女，北京师范大学教育学部，教授（北京 100875）

王桥影，男，北京教育考试院，副研究员（北京 100083）