教师如何践行考试公平性?
——来自问卷调查的反馈

2013-09-27 00:29
当代外语研究 2013年8期
关键词:公平性效度考试

邹 申

(上海外国语大学,上海,200083)

1.引言

当前,“公平”已成为人们评价教育的重要标杆。比如,义务教育阶段适龄学童能否都享受到优质教育资源;同等能力的高考考生在录取时能否不受地域影响。换言之,社会给予每个人的机遇(求学、求职等)是否均等。在这个大背景下,考试作为选拔人才和检查(教与学)质量的一种手段,也应该接受“公平”考量,来检验其是否具备公平性。然而,一个考试是否公平,除了外部因素,在一定程度上与相关人员对考试公平性的认识和实践有关。也就是说,考试公平性有其外部和内部因素组成。本文将通过问卷方式,调查英语教师对考试公平性的认识和做法,并在此基础上提出相关建议。

2.文献综述

2.1 考试公平性定义

Xi(2010:149-53)指出学界对考试公平性有三种解释维度:公平性是一独立于效度之外的测试特质;公平性是一种涵盖并超越效度的测试特质;公平性与效度直接关联。

美国教育研究学会等机构编制的《教育与心理测量标准》(以下简称“标准”)(1999)从第三个维度阐述和规范测试中的公平性。该“标准”共分三个部分,其中一个部分涉及考试公平性。公平性在教育和心理测量中举足轻重的地位由此可见一斑。

“标准”对公平性作了如下诠释。第一,公平性即为无偏颇(lack of bias)。偏颇可产生于考试本身的缺陷,或者由于考试的使用导致不同考生群体的考试结果具有不同意义。比如,考试内容包括测试技能或能力范畴和测试材料的体裁或题材。如果所选择的内容样本缺乏代表性或覆盖面,其结果就可能会影响部分考生的成绩。鉴于此,考试有可能产生偏颇。另外,考试偏颇也有可能来自考试的答题形式。比如,考试采用某种答题形式,但该形式对部分学生来说是陌生的。那么,选用该形式会影响这部分考生的成绩。因此,偏颇会使考试成绩出现偏差,无法真实反映所测试的技能或能力(即测试构念)。也就是说,偏颇属于与测试构念无关的因素,它的存在会降低考试构念效度。因此,要提升考试公平性,我们就需要关注并尽可能地消除影响考试构念效度的偏颇。

第二,公平性体现在考试过程的公平上。具体而言,就是在施考过程给予所有考生公正待遇。比如,考生都应该获得均等机会,来展示考试所要测试的技能或能力。又如,要给考生提供恰当的考试条件,以便他们发挥理想。另外,在考前准备上,考生都应有机会接触考试复习材料。与第一点相比,第二点所关注的是考试外部因素(考试条件和考前准备)。但是,它们对保证考试公平性有着同等重要作用。

第三,公平性也体现在基于考试结果的决策之上。一个具有公平性的考试(标准参照)应该保证不同考生群体之间的通过率具有可比性。如果是选拔性考试(常模参照),那么同类表现的考生应该享有均等的选拔机遇。由此可见,公平性不仅体现在考试本身质量上,也应体现在基于考试分数的决策上。

第四,公平性指均等的学习机会。这条标准主要针对标准参照性考试如学业考试。在多数情况下,学业考试旨在检查考生经过学习后知识或能力掌握程度。如果有些学生未有机会学习相关内容,但考试又包括了这些内容,那么学生很有可能得低分。特别是当考试成绩要用来决定升留级或是否颁发证书之时,学习机会均等就显得尤为重要。

另外,Spaan(2001:35)认为公平性的提升具有社会性,即需要考试有关人员参与,比如考试开发人员、教师、考试使用人员、考生等。只有当他们之间形成一种合作型良性循环和互动,考试公平性才能得以提升。Bachman(2001:40)曾在一篇文章中呼吁:对语言测试工作者而言,考试公平性不仅需要体现在语言测试的设计和实施之中,而且(或许更为重要的)需要培养和培训未来的语言测试工作者。

由以上论述我们可以看出,考试公平性涉及诸多方面:考试效度、考试实施过程、考前准备、考试结果使用及考试内容的学习机会。这里既有考试本身质量,也有考试外部条件;既有考试用途,也有考试成绩;既涉及考前、也涉及过程和考后阶段。由此可见,考试公平性与效度密切相关,且贯穿整个考试过程,是任何类别考试赖以存在或使用的基础。

2.2 考试公平性与考试开发

公正性牵涉考试的方方面面。那么,在考试设计和开发过程中我们如何来提高和保证考试公正性呢?Kunnan(2001:1-10)在总结Code of Fair Testinh Practices in Education(Joint Committee on Testing Practices 1988)的基础上,提出考试公平性包括三个维度:validity(效度)、access(可行性)和justice(公正)。效度关注对不同考生群体分数解释的公平性。可行性侧重考试是否能从以下方面有利于考生:考试费用、考点设置、所考内容的学习以及对考试形式和设备的熟悉程度等。公正指社会公平(societal equity)。这个维度已超越考试本身,它关注考试结果的使用能否维护社会公正。根据Kunnan的观点,这三个维度贯穿考试开发的各个阶段,即规划阶段(thinking)、命题阶段(writing)、预测阶段(piloting)、分析阶段(analyzing)和持续研究阶段(maintenance and research)。

在Kunnan的论述中,每个阶段有其侧重点,但公平性的三个维度贯穿始终。以效度为例。效度作为考试公平性的重要指标,在不同阶段显现不同涵义。在规划阶段,效度主要关注测试构念和范畴的科学界定以及测试形式的确立。与此同时,该阶段的效度还包括对评分和报分的考虑。在命题阶段,效度则侧重测试任务设计、话题选择等。预测阶段的效度则体现在标准和建模样本的确定上。在分析阶段,人们通过多层面的数据统计分析来建立效度。持续研究阶段的效度则涵盖上述阶段的所有内容。另外值得一提的是,公正作为公平性的指标是评判每个阶段工作的最终标准。也就是说,我们在考试开发过程中的所作所为都应该有助于社会公平。

总而言之,考试公平性是检验考试的重要标准。语言测试工作者和语言教师在实际操作过程中要把促进考试公平性放在首位,并落实到考试的每个步骤或阶段。

2.3 考试公平性相关研究

“标准”和之后出现的考试公平性理论框架(Kunnan 2001,2005)积极地推动了对考试公平性的研究。迄今为止,相关研究大致聚焦以下几个方面:(1)检验不同类别考试的效度,以验证考试在测试构念、测试内容等方面的公平性(Lowenberg 2001;Douglas&Myers 2001;Elder 2001;Stansfieldet al.2001);(2)口语测试中考官行为、考生(考官)性别、评分之间的相互作用或对考生表现的影响(Meiron&Schick 2001;O'Loughlin 2002;Brown 2003);(3)写作评分法研究(Sakyi 2001);(4)题目偏颇性研究(Lee 2001;Eerne&Rupp 2007);(5)选择题特质研究(Brown 1999;Khodadady&Herriman 2001);(6)公平性检验框架(Xi 2010)。

从上述简述中我们可以看出,研究内容涉及考试的多个层面,且研究对象多为考试过程中的参与者(考官、考生)。也就是说,公平性研究基本集中在分析阶段和持续研究阶段(即考后阶段),而针对规划、命题等考前阶段的公平性研究则较少。然而,根据Kunnan(2001)的观点,规划、命题阶段也是考试开发的必要环节,对于实现和保证公平性具有同等重要的意义。同时,在这个过程中有一个群体不容忽视,值得我们去研究:那就是一线教师。因为,除了少数大规模标准化考试外,现实中的大部分考试都是由教师参与设计、命题和实施。他们对公平性的理解对于促进考试公平性具有举足轻重的作用。因此,本研究拟通过问卷调查形式,了解英语教师对考试公平性的看法以及在教学实践中的具体做法。

3.研究设计

3.1 研究问题

如前所述,考试公平性已成为语言测试研究领域的一个重要课题,众多研究已从多种角度探讨考试如何体现其公平性。本研究拟从另一个角度(即教师角度)调查和分析语言测试相关人员对公平性的认识以及对语言测试实践的影响。在此基础上,本文将提出如何提升和保障考试公平性的建议。鉴于此,本文主要研究以下两个问题:

(1)英语教师如何理解公平性?

(2)英语教师如何在实际过程中体现公平性?

3.2 研究工具

本研究采用问卷为研究工具①。问卷由笔者本人设计,设计理论基础为“标准”以及Kunnan(2001)对公平性的阐述和论述。问卷共有35题:第1~4题为个人信息题,包括性别、学历、职称和教龄;第5~35题为正式调查题。该部分调查两大主题:教师对公平性的认识和理解(第5~18题)和教师在实际操作过程中的做法(第19~35题)。为了能最大限度获取信息量,问卷回答均采用五级量表形式。问卷在正式使用前曾在小范围内征求相关专家意见并作修改。

3.3 研究对象

问卷调查于2013年5月中旬进行,调查对象为当时参加高等学校英语专业4级考试阅卷的英语教师。调查开始之前笔者通过阅卷组长和阅卷网络中心,告知各位教师本项调查的目的及意义。今年共有213名教师参加阅卷,他们来自全国约160所院校。

3.4 数据收集

共有210名教师在网上回答问卷题目,最后回收有效问卷为197份,有效率为93.8%。随后数据输入SPSS 17.0(SPSS Inc.2008)进行处理。表1为第1~4题信息汇总:

表1 教师信息汇总

笔者对其余的31题进行信度检验,Cronbach's Alpha系数为.934,数据较为理想,可以作进一步分析。笔者随后计算了每道题的平均值、中位数和标准差,并运用非参数独立样本方法检验不同教龄组之间是否存在差异。此外,KMO检验表明变量间的偏相关非常理想,已达到.90,Bartlett球形检验结果也显示变量间的相关显著(p<.01),说明数据适合作因子分析(表2)。

表2 KMO&Bartlett球形检验

本文采用主成分提取法,共提取了6个特征值大于1的因子,可解释方差总量的63.86%。然而,碎石图显示比较明显的因子只有两个(图1)。

图1 碎石图

鉴于此,本文采用Alpha因子提取法和斜交旋转以了解这两个因子的相关情况。由此产生的因子结构矩阵较为清晰地显示了变量(31道题目)和因子的关系(表3)。第5~18题属于第二因子,而第19~35题(除第16题外)属于第一因子。对照问卷题目内容后,笔者发现第一因子与语言测试实践的公平性有关,第二因子与对语言测试公平性的认识相关。本文第4部分便按此分类进行分析和讨论。

表3 因子结构矩阵

4.分析与讨论

4.1 教师对考试公平性的认识

表4显示有关公平性观念题目的平均值、标准差以及选第4、5选项(基本同意或完全同意)的百分比。教师按照教龄分成四组后用Kruskal Wallis检验,未发现组间差异在任何题目上达到显著性水平(p<.05)。

表4 5-18题平均值、标准差和赞同度百分比

本部分有6道题目的标准差小于1,这从一定程度上表明教师回答时的观点相对集中。对于第5题(考试应该做到对每个考生都公平),教师不仅观点较为集中,而且赞同度达到92.4%。这说明教师在考试应不应该公平这点上看法一致且持肯定态度。相比之下,第6题的赞同率略低,因为相当一部分教师(约20%)持不确定态度。这表明在一定程度上部分教师对考试能不能做到对每个考生都公平心存疑虑。第12题调查教师对答题要求的公平性看法,大部分教师持肯定态度,但还是有约12%的教师不确定,其余持否定态度。然而,至少数据表明,在答题要求上还是能够做到公平性。第15题调查把保证考试公平性作为教师职责的认同程度。我们可以看到,教师的认同程度非常高,达到89.9%。这说明大部分教师自觉地把保证公平性作为己任。第17、18题涉及公平性在检验教学质量和考试效度中的重要性。从数据中我们可以看出,教师的看法集中且具有较高的认可程度。这也从一个角度表明,教师在公平性的重要作用上有一定共识。

本部分其余8道题目的标准差均大于1,故也集中一起分析。其中有3道题(8、9、16)的标准差均在1.2左右,且赞同度未超过51%。第8和第9题均涉及及格线设定与考试公平性的问题。数据显示,教师在这两道题上的意见分散,且持不确定的比例较高,特别是第9题达到24.9%,为本部分14题中的最高比例。这似乎表明,教师对该问题的认识尚未明确。第16题的赞同率最低,可能是导致其不属于第二因子的原因。但是它从另外一个角度佐证了教师对第15题的反馈:教师已意识到保证考试公平性是自己的职责。第7题调查公平性与分数用途关系。数据显示,教师的看法比较分散,赞同比例仅为62.5%,17.3%的教师持不确定态度,说明部分教师不清楚公平性与分数用途之间的关系。第10、11、13、14题的标准差非常接近,但第10、11题和13、14题的平均值与赞同率不尽相同。第10、11题调查施考程序和考试内容的公平性,平均值不到4,教师赞同率也未达到70%,且两题的不确定比例分别为19.3%和22.8%。这说明部分教师对施考程序和考试内容能否做到公平持怀疑或否定态度。相比之下,教师对第13、14题的肯定程度要高得多,平均值和赞同率均反映这个事实,说明教师认为公平性涵盖考前均等学习机会和对考试熟悉程度。

综上所述,参与问卷调查的大部分教师显示较强的公平意识,视保证公平性为己任,并且能意识到公平性对保障教学质量和考试效度的重要意义。下面笔者参照“标准”,对数据作进一步讨论。“标准”认为,公平性指考试内容、答题形式/要求等无偏颇,即避兔考生因上述原因而影响其成绩。在答题要求上教师的认识与“标准”比较一致,而在考试内容无偏颇上教师的认可度与“标准”要求有一定距离。这也从某种程度上反映两个问题:(1)教师或许缺乏这方面的培训,在教学实践过程不知从何入手;(2)在考试内容上做到无偏颇只是相对而言,所谓的无偏颇要根据具体考试目的和考生特征等因素来确定。“标准”又指出公平性即为过程公平,包括施考程序和对考试的熟悉程度等。教师对施考过程公平性的认识与“标准”有差距,而对后者的看法与“标准”较为一致。这说明施考程序的公平性在实际过程中可能会受到一些阻碍,但程序公平是考试公平性的一个重要基础,不可忽略或轻视。“标准”中对公平性的第三个定义涉及基于分数的决策公平性(即分数用途)。在这点上仅三分之二的教师(第7题)与“标准”持相同观点。如果把对及格线的界定也作为一种决策的话(第8、9题),那么与“标准”相近观点的比例刚达到50%。也就是说,在决策中如何体现公平性,教师的认识还有待于进一步提高。教师的认识模糊性可能与缺乏专业培训有关,这足以证明培训的重要性。正如Bachman之前(2001:40)所说,公平性的一个重要体现就是培养和培训相关人员。“标准”的第四条定义提及均等的学习机会。在这点上大部分教师的认识程度与“标准”相吻合(第13题),表明这已成为一线教师的共识。

4.2 教师采取的考试公平性保障措施

表5显示有关公平性措施题目的平均值、标准差以及选第4、5选项(基本同意或完全同意)的百分比。教师按照教龄分成四组后用Kruskal Wallis检验,未发现组间差异在任何题目上达到显著性水平(p<.05)。

表5 19-35题平均值、标准差和符合度百分比

本部分17题中标准差小于1的共13题,这反映在多数题目上教师的做法较为一致。第19-24题调查教师在规划阶段考虑的因素(考试目的、分数用途、测试技能、考试效度、分数报道以及预期效应)。除第20题外,题目的平均值均高于4,标准差低于.90,符合程度达到80%以上。这表明大多数教师会在此阶段兼顾上述因素。第20题数据显示,只有略高于三分之一的教师表示会在规划阶段考虑分数用途,而且选择不确定的比例为13.2%,为该类6题中最高。这显示部分教师在该阶段未把考试分数用途作为规划要素。第25~28题调查命题阶段的考虑因素:话题、难度、材料及考生特征。纵观数据,符合程度均达到85%以上,第26题甚至高达95%。这说明上述四个因素均在大多数教师考虑范围之内,其中语言难度最为关注。相比之下,避兔使用带有歧视性内容材料的教师比例略低,另外一些教师表示未能做到避兔该类内容,故标准差大于1。第29~30题调查翻译/写作评分标准和评分方式。大多数教师表示会制定翻译/写作评分标准;但评阅时采用双评模式的比例只有64.5%,另有19.3%的教师选择不确定。同时,第30题也是本部分标准差值最大的题目,说明双评并不是一个普遍采用的评阅模式。第31~33题有关考试结果分析和反馈。数据显示,大多数教师会作简单分析,然而作进一步的分析(比如信度)或向学生反馈分析的比例略低。第32、33题的不确定比例分别为20.8%和12.2%。这意味着教师在深度分析和分析反馈方面还需要改进。第34-35题涉及考试对教学的影响和促进。数据明确显示,绝大部分教师会关注考试效应并根据考试结果调整教学,这也与教师在规划阶段关注点相吻合。

考试的各个阶段是保障公平性的重要环节,只有当我们关注每个具体环节并确保其效度,才有可能真正实现公平性(Kunnan 2001)。以下部分从规划、命题和分析阶段分析教师行为。在规划阶段教师的表现总体较为理想:他们能够考虑考试预期目的和效应、采用的分数报道形式以及测试技能的界定。这些效度因素都是建立考试公平性的基本条件。然而,对于另一个基本条件(分数用途),部分教师显然未作考虑。这对分数解释或在此基础上的决策可能会带来问题,或影响考试的公平性。教师在命题阶段能够考虑到相关因素,且关注面较广。其中最关注的是语言难度,但他们对材料选择的关注度略低。这意味着关注程度不太均衡,或许部分教师未意识到材料选择对实现考试公平性的重要作用。在本阶段教师对主观题(翻译/写作)效度给予足够重视,大部分教师提到命题时制定评分标准。这也是提高公平性的一个先决条件。但是,实际评分过程中采用双评模式的教师并非占绝大多数,这显然会影响信度,乃至效度及公平性。在分析阶段大部分教师表示会分析题目/试卷,但分析缺乏一定深度,且一部分教师未向学生反馈分析结果。尽管如此,教师很重视考试对教学的影响,并能适时作教学调整。由此可见,分析阶段的教师行为具有双重性:一方面有利于效度和公平性的提升,另一方面可能对效度和公平性产生负面影响。

5.结语

公平性是考试的重要特征,实现和维护公平性需要相关人员的共同努力。其中,教师是一个关键群体,这是本文选择教师作为研究对象的目的所在。研究结果显示,教师对公平性的认识与“标准”既有相近之处也有偏离之点;在操作层面上也存在非均衡性:他们能考虑一些与公平性关联的环节,但同时又忽略其他同等重要的环节。这从一个方面表明培训的重要性。正如Spaan(2001:35)和Bachman(2001:40)所指出的,公平性的提升需要有关人员的参与,需要加强对他们(包括教师)的培养和培训。为此,笔者最后建议:重视考试公平性就要重视对教师的培训。只有当教师对公平性有了更全面的认识,才可能在实践中采取更有效措施实现公平性。

附注

①如需查询问卷,请与作者联系。

猜你喜欢
公平性效度考试
高管薪酬外部公平性、机构投资者与并购溢价
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
Japanese Artificial Intelligence Robotto Take Entrance Examinations
被看重感指数在中国大学生中的构念效度
关于公平性的思考
你考试焦虑吗?
外语形成性评估的效度验证框架
准备考试
基于普查数据的我国18个少数民族受教育程度及公平性统计分析
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度