用效度和信度控制试题质量

2022-06-16 03:43刘永俊

名师在线 2022年16期

文/刘永俊

引言

英语测试对英语教学有很大影响，它对教学的反拨作用非常明显。设计良好的测试会带来正反拨作用，对促进学生英语语言能力的提高起到很大作用，对教师的教学方向产生积极的指导作用。相反，试题命制如果出现问题，则会给教师的教学和学生的学习带来负面冲击。因此，作为试题命制者，我们需要探讨如何才能设计出一份高质量的英语试题。

效度和信度是语言测试学专家一致认为的非常重要的评价指标。所以，本文从效度和信度这两方面谈谈如何控制试题命制的质量。

一、效度

语言测试的效度是指一个测试是否考了它要考的方方面面的内容。效度一般分为六个方面：构念效度、内容效度、共时效度、预测效度、后效效度和表面效度。

（一）构念效度

从广义上讲，构念效度中的构念是指整个考试以之为基础的理论结构。不同的考试有不同的构念，即不同的考试有不同的理论依据。构念不同，试卷所呈现出来的考查形式和考查内容就会不同。构念效度是语言测试的主要效度，是其他几个方面效度的基础，构念效度决定整个考试的性质。

就高考而言，测试依据考试说明编写，考试说明又是基于考试大纲设计出来的，而考试大纲编写依据的是《普通高中英语课程标准（2017年版2020年修订）》（以下简称《课程标准》）。因此，《课程标准》就是我国高考的理论基础。

对于中学英语测试而言，越能体现《课程标准》要求的测试，构念效度越好。目前，《课程标准》的修订方向是从综合语言运用能力转向英语学科核心素养。这就说明，高中英语测试的构念发生了变化。教育部组织研究、提出各学段学生发展核心素养体系，明确学生应具备的适应终身发展和社会发展需要的品格和关键能力，突出强调个人修养、社会关爱、家国情怀，更加注重自主发展、合作参与和创新实践。因此，为了保证测试的构念效度，在《课程标准》实施后，试题必须依据《课程标准》的要求进行命制。

《课程标准》指出，英语学科核心素养主要包括语言能力、文化意识、思维品质和学习能力，各要素的发展以三个水平划分。我们以“文化意识”为例进行说明。《课程标准》提到，文化意识的培育有助于学生增强国家认同和家国情怀，坚定文化自信，树立人类命运共同体意识，学会做人做事，成为有文明素养和社会责任感的人。对“文化意识”这一素养的三级描述为：一级，通过中外文化对比，加深对中国文化的理解，坚定文化自信；二级，尊重和理解文化的多样性，具有国际视野，进一步坚定文化自信；三级，分析、鉴别文化现象所反映的价值取向，自觉坚定文化自信。不难看出，“坚定文化自信”是个高频短语。分析近几年的高考题能够发现，高考题中有关中国元素和中国文化的内容较以前有明显增加，以2021 新高考I 卷语法填空为例。

Going to Mount Huangshan reminds me of the popular Beatles' song“The Long and Winding Road”.56is so breathtaking about the experience is the out-ofthis-world scenes.The rolling sea of clouds you see once you are at the top will remind you how tiny we57(human)are.

The hot spring at the foot of the mountain is something you must try after the climb.It will58(undoubted) help you get refreshed! The amazing thing about the spring is that the colder the temperature gets,the59(hot) the spring! Strange,isn't it? But that's how nature is — always leaving us60(astonish).

What comes next is the endless series of steps.You can't help wondering how hard it61(be) for the people then to put all those rocks into place.Though it is the only unnatural thing on your way up the mountain,still it highlights the whole adventure62offers a place where you can sit down to rest your63(ache) legs.

As the song goes,this long and winding road“will never disappear”,and it will always stick in the visitor's memory.It sure does in64(I).While you're in China,Mount Huangshan is65must to visit!

这篇材料介绍了作者游览黄山的所见所闻，展示了祖国的大好河山。

从微观角度看，测试是否具有构念效度体现在听说读写每一种测试是否考查了所要考查的能力。如下面一道口语测试题：

Can you tell me the name of the animal in the picture?

该口语测试的构念效度比较低，因为它考查的不只是口语能力。如果学生口语能力达到了，但不认识图1 中的动物，那么试题就无法考查学生真实的口语能力。也就是说，这道题目并没有考到它所要考的内容。

图1

（二）内容效度

李筱菊认为，内容效度是指测试是否考了考试大纲规定要考的[1]。Hughes 认为，如果一个测试的内容包含了具有代表性的语言技能、结构等，那它就被认为是有效的。

（1）What is tested should be related to the predetermined test domain,e.g.a listening test should include the measurement of skills relevant to the test domain.

（2）What is tested should be representative of the predetermined set of skills or abilities,i.e.a test should cover a greater variety of skills or language elements relevant to the test domain.

我们可以看出，内容效度关注的是考试是否和所要考查项目的能力相关，考查点是否体现代表性的语言技能和结构。我们来看下面的例子。

下列技能是否都和阅读相关呢？

（1）能读懂语言简单、不同类型的材料，如简短故事、书信等，提取细节信息，概括主旨要义。

（2）能有条理地讲述简短故事或个人经历。

（3）能通过分析句子和篇章结构读懂语言较复杂的材料，理解意义之间的关系。

很明显，第二条是关于表达性技能的，那么在考查阅读能力的考试中就不合适，与考查能力不相关。

再来看一个例子。某篇阅读理解题的考查点见表1。

表1

从表1 可以看出，所有的设题都是具体细节题，那么这些题目的代表性是不够合理的，所以这篇阅读理解题目的内容效度相对较低。

（三）共时效度

共时效度是指一个测试所检测的内容和一个目前已经存在的测试标准之间的关系。这里所提到的目前已经存在的测试标准包括两个方面：一个高质量的标准化测试；一系列评价标准。因此，我们需要借助另一个高质量的测试或评价作为验证标准，来判断新的测试是否具有共时效度[2]。

首先，我们可以借助另一个高质量的测试来检验测试的共时效度：把一份试卷和一份水平相当的高质量的试卷让学生一起做，如果分数相当，则共时效度高。

以 FCE（First Certificate in English，剑桥英语五级证书考试的第三级）为例，通过FCE 考试，相当于雅思考试成绩达到5～6.5 分，即FCE（pass）= IELTS（5～6.5）。如果应试者参加完FCE 并通过考试，而且参加雅思考试成绩达到了5～6.5 分，则说明 FCE 考试的共时效度比较高。

（四）预测效度

预测效度是指测试是否起到了有效的预测作用，或者在多大程度上预测了学生在未来学习中的学习成就。以高考为例，从总体上说，考试成绩较好的高中毕业生到大学仍然成绩较好，成绩比较低的学生则很难有很大的超越。因此，高考试卷具有比较好的预测效度。

共时效度和预测效度有一个共同点，即它们都是利用测试之外的标准而得以证实的效度。因此，共时效度和预测效度也被称为外在效度（external validity）。

共时效度和预测效度的不同之处在于：（1）前者是共时，后者是历时。共时效度是指通过对两次时间相近的评价结果进行比较，得出一致性程度的结论。预测效度要对两次时间相隔较远的评价结果进行比较，说明测试是否能预测受试者目标能力将来的发展。（2）考试目的不同。共时效度说明测试是否能判断受试者目标能力的现状；预测效度说明测试是否能预测受试者目标能力将来的发展。

测试学家们普遍认为外在标准是最客观的标准，依据外在标准的验证方法是最科学的方法，因此，共时效度和预测效度也是被最多人承认的效度[3]。

（五）后效效度

后效效度是指测试结果是否造成了一定的社会后果。

以英国医生资格考试为例，该考试测试的是在英国当医生需具备的英语能力。如果该考试的难度过高，会出现医生具备和病人交流所需的英语语言能力，但是没有通过考试的情况，其后果是该医生无法在英国从医，而英国很可能因此错失一位好医生。如果该考试难度较低，很多医生虽然还不具备和病人交流所需的英语语言能力，但是通过了考试，获得了在英国的从医资格，这样造成的社会后果可能会很严重，如给病人医错病、开错药。

需要注意的是，如果一个测试的预测效度不佳，则其后效效度通常也会存在问题。以高考为例，如果一个学生的高考成绩很好，但大一成绩很差，说明高考预测效度不高，同时说明高考的难度可能过低，该学生很可能英语能力还不足够上大学，但是却被录取了，这会对社会发展、学生就业等造成不良影响，这种情况也意味着该测试的后效效度不高。

（六）表面效度

表面效度是指试卷看上去是否能够测量所要测量的东西，考试表面的形式和内容是否让受试者觉得有效、获得认同。

如果一项针对幼儿的英语测试没有使用丰富的图画，而是使用了大量的词汇，那么该测试的表面效度就不高，是不会被认同的。如果做题说明中有生词，受试者难以理解做题要求，则受试者会觉得不客观公正，不会认同，即表明该测试的表面效度不高。

另外，做题要求不明确或者出题不严密也都可能导致表面效度低。例如，一次测试中有这样一道题目：How powerful is the earthquake? 正确答案是 7.9 magnitude(s)。但由于出题不严谨，有的学生回答Very powerful。学生的作答不能算错，但是与测试者期望的答案完全不同，这样的测试表面效度就很低。

效度的六个方面（构念效度、内容效度、共时效度、预测效度、后效效度及表面效度）是一个整体，而不是效度的六个种类。在实践活动中，不能将它们割裂开，而是要作为一个整体去考虑。

（七）如何保证效度

效度是评价测试最重要的一个指标，作为命题者，保证测试的效度是一项非常重要的工作。我们应该如何保证测试的效度呢？

首先，在命题前，我们应该有一份清晰而详细的细目表，即考试说明。根据 levels of assessment design理论，考试说明是依照考试大纲制定的，而考试大纲又是以《课程标准》为参考的。因此，我们的测试能够以考试说明为基础进行命制，那么该测试的效度，尤其是内容效度，就能得到保证。

其次，尽可能使用直接测试的方法。即听力考试通过听的方式，口语考试通过说的方式，而不是通过选择题考查语音知识，这样才可以保证测试的构念效度，否则，考查的能力就不全面。这也是高考题增加听力测试后语音知识题被取消的原因。

另外，应该让学生熟悉试卷结构和试题形式。每年中高考考试大纲的说明都给出样题，这是为了保证测试的表面效度。因此，我们命制的试题要跟样题保持一致，让学生熟悉测试形式，使试卷看上去公正。

最后，在命题完成之后，命题者需要对试题进行检查、改进、试测和调整，最后定稿。这样做的目的是从整体上把握测试的效度。

二、信度

信度是测试结果的可信、可靠程度，或者说是一个测试的结果和它自身或其他测试结果之间一致性的实际水平。信度高的测试有很好的一致性和稳定性。测试信度的关键是客观和公平，而要达到客观、公平，我们需要考虑以下四种信度：考生信度、测试实施信度、测试内容信度和评分信度。下面，我们将分析这四个方面的信度，并探讨如何提高信度。

（一）考生信度

考生信度是指考生参加测试时的身心状态和水平发挥的程度。保证考生信度涉及很多方面，如要确保考生的身体健康、动机正确、情绪稳定、记忆力正常、注意力集中、细心认真、按时或提前完成测试、没有作弊现象等。试想，如果有考生在考试当天咳嗽或者发烧，势必会影响考生水平的正常发挥，考试结果也不能真实地反映考生的水平，那么这个测试的信度就不是很高。有些测试可能会含有需要考生辨别颜色的题目，这样的题目对患有色盲的考生来说是不公平的，这同样会影响考试的信度。有的考生在平时的学习过程中练习的题量较大，教师传授的解题思路较多，对生活的体验较多，对某些领域的知识较熟悉，这部分考生能够更容易理解做题说明，更快找到解题思路，掌握较多的猜题技巧，更容易理解涉及某些领域知识的题目，并且能够较快地完成测试；而做题量较少、生活体验较少、对某些领域的知识较生疏的学生就会处于劣势，这会导致测试结果有失公平，不利于保证测试的信度。

（二）测试实施信度

测试实施信度包括测试环境的信度和测试实施方式的信度。测试环境的信度涉及考场的地理位置、考场空间大小、考场的空气流通、考场内外的噪声、考场的光线及考场的温度等各方面情况。例如，考场的噪声与考生的注意力密切相关。如果考场内外有噪声且噪声很大，那么考生的注意力会受到严重干扰，尤其是当考生在做听力测试的过程中，噪声会严重影响考生的正常发挥，直接影响考生的考试成绩，进而影响考试的信度。考场空间大小也与考试的信度有关。如果考场空间大，考生与考生的前后左右间隔距离加大，这样会降低考生作弊的几率，有利于保证考试的信度。反之，则有可能降低考试的信度[4]。

另外，考场的空气流通程度、光线及温度与考生的状态紧密关联。如果这三个条件达到最佳，则有助于将考生身体及大脑调整至最佳状态，保证考生在考场上的正常发挥，也有利于保证考试的信度。

测试实施方式的信度涉及测试所用设备的质量、测试时间的长度、监考员的指令、同一测试用于不同时间、不同的测试对象及监考员对考生的态度等各方面的情况。例如，测试同一听力试题时，A 考场的考生所听的内容出自一台小录音机，而B 考场的考生所听的内容出自一位教师的当场朗读，并且速度很慢，那么考试分数的信度必然会降低。如果监考员对如何填写答卷等的指令说明不够清楚，给考生造成理解的障碍，也会影响考生的分数，从而影响考试的信度。

（三）测试内容信度

测试内容信度涉及题量、题型的种类、试题难易度、试题区分度和试题的偏颇性等方面。一般来说，一套信度较高的试题含有足够多的题目和多种题型。题目越多，题型越多样，越能检测出考生对不同知识点和解题技巧的掌握程度，以及考生对不同题型的解答能力，考试结果更能客观地反映出考生的水平。反之，如果一套试题只有四五个简答题，或十几个选择题，单凭回答几个问题或做十几个选择题就对考生的综合语言运用能力做出评价，显然是不公平的，是缺乏信度的。

试题的难易度和区分度也是衡量试题信度的两个重要方面。如果一套试题中有几道题目的难度超出考生的认知水平，那么这几道题就是没有意义的，因为它们无法检测考生的真实水平。因此，保证试题的难度适中是保证试题信度的关键。难度适中也是保证区分度的一个重要途径。题目太难或太简单，都会导致多数考生答错或者答对，这样的结果表明区分度很低。区分度是为了把不同水平的考生区分开，这有利于教师更好地了解每一位学生的水平，了解学生对知识点的掌握程度，也有利于各机构通过一些重要考试公平地选拔人才。试题的区分度高，信度就高。试题的偏颇性也会影响试题的信度。试题的偏颇性即试题有利于一部分考生，而不利于另一部分考生。例如，如果试题中有的题目考查有关足球或篮球方面的内容，那么男孩就较容易理解或解答该题目，而女孩就处于劣势，这样的题目就有偏颇性。另外，还需要考虑的几点是试题的内容是否适合考生的心智；整套试题是否考查同一范畴、同一领域的内容；试题是否有较大范围的测试对象，即测试对象是否在不同水平。

（四）评分信度

评分信度包括评分标准的信度、评分员之间一致性的信度和评分员个体一致性的信度。对于一套试卷中的主观题尤其像写作类的题型，评分标准合理与否与试题的信度密切相关。例如，如果一套试题写作部分的评分标准比较笼统，不够详尽，评分员评分时就有可能考虑不周，评分概念模糊，造成评分结果差异很大，进而导致评分不够客观、公正。

评分员之间一致性的信度是指不同评分员给同样的被评对象评定成绩时的一致性程度的量度。如果评分员给出的分数差异很大，就说明评分员之间一致性的信度较低，这对考生来说是不公平的。以高考书面表达为例，每份试卷随机由两位评分员评分，如果超过4 分的差值，则由第三位评分员评分，如果第三位评分员与其他两位评分员的差值仍超过4 分，则需要由仲裁组最后仲裁。

评分员个体一致性的信度是指同一位评分员在不同的时间对同样的项目评分一致性程度的量度。例如，A评分员在给某班40 个考生的作文评分两周以后再次评分，两次评分的结果没有太大的差异，则说明该评分员的个体一致性的信度较高。反之，如果评分结果差异很大，则说明该评分员的个体一致性的信度较低。

（五）提高试题信度的方法

增加一定量的客观题。客观题能使评分员做到评分一致，能够保证测试有很高的评分信度。因此，如果一套试题中客观题的数量多一些，主观题的数量少一些，即使主观题的评分结果有一些差异，总分的差异也不会太大。但是，这并不意味着客观题越多越好，因为客观题也有其局限性。因此，酌情适量增加客观题是最明智的做法。

适当增加题目的数量和题型。适当增加一些题目的数量和不同的题型，即使有的题结果差异大一些，但对整套试题的测量误差的影响不会太大，还能够更有效地检测考生的实际水平。

确保试题的难易度和区分度符合标准。要做到试题的难易度适中和区分度高，最好的办法是根据题目分析后得出的难易度数据和区分度数据，来判定这两类数据是否达标。发现不达标的题目，就应立即修改，直至符合要求，这样才能为试题的信度提供有力的支撑。

确保试题没有偏颇性。要确保试题没有偏颇性，需要从多方面考虑，如考生的年龄、性别、所处区域等。也就是说，考试内容不偏向任一性别的考生、不偏向任一区域的考生，做到客观、公平。

制定详尽、可操作性强的评分标准。如果试卷中有主观题，尤其是写作类的题型，那么就需要制定一个客观、详尽、合理、操作性强的评分标准，使评分员能够很好地把握评分标准，从而客观、公正地评分。

培训评分员。在评分标准合格的情况下，对评分员的培训也很重要，也是提高测试信度的一个方法。评分标准拟好并不意味着万事大吉，评分员对评分标准的理解和把握程度，以及评分员对阅卷工作的责任心和使命感也是不可忽视的。因此，在评分工作开始前，对评分员的培训必不可少。

三、效度和信度的矛盾和平衡

语言测试的效度和信度是英语测试中非常重要的两个评价指标，它们各有侧重又相辅相成，联系密切。效度强调测试达到预期测试目的，信度强调测试和考分一致，一份设计良好的试题要求二者兼顾。然而，效度和信度之间又存在对立关系。效度高则意味着主观题的题目比例会较大，这样势必会削弱试题的信度，然而信度高的试题不一定效度就高。例如，英语测试中的选择题是保证高信度的一种题型，但如果选择题过多，效度则无法保证，因为很多有关学生语言运用、语言交际、语用能力等的内容是无法通过选择题来考查的。

效度和信度的对立统一使命题者命制一份效度和信度都相当高的试题变得非常难，所有的命题者都需要在二者之间寻求平衡。效度和信度应该优先考虑哪一个是很多语言测试专家一直在研究的问题。

结语

很多专家认为，就我国英语教学现状和学生学习现状而言，应优先考虑效度，然后在此基础上尽量增加试卷的信度。这样做会给目前的中学英语教学带来积极的影响，能更加有效地促进英语教学改革，使学生应用语言的能力得到提高。将效度放在首位，尽量增加信度，将成为现代语言测试的发展趋势和改革方向。