网上评卷的实践与思考：香港公开考试视角

2013-09-27 00:29龚大胃麦陈淑贤

当代外语研究 2013年8期

龚大胃麦陈淑贤金檀刘力

（香港教育学院，香港，999077；香港中文大学，香港，999077；树童国际语言教育研究院，广州，511400；香港中文大学，香港，999077）

香港考试及评核局（Hong Kong Examinations and Assessment Authority，简称为HKEAA）于2012年在香港公开考试中开始大规模实施网上评卷（Onscreen Marking，简称为OSM），以此取代传统的纸质评卷方式（Paper-based Marking，简称为PBM）。网上评卷是指运用计算机网络技术和电子扫描技术将纸质答卷扫描生成图像，客观题由计算机对考生填涂的信息点比对标准答案自动给分，主观题通过网络随机分派给各终端的评卷教师进行评阅（赵建宁、厉浩2012）。

本文系统综述香港考试及评核局针对网上阅卷实施情况所开展的一系列验证性研究，主要分为以下三个部分：首先，简要回顾网上评卷在国际上的实施背景及其研究现状；其次，基于国际背景，从香港视角纵览网上评卷的实施过程，并系统梳理针对香港中学会考（Hong Kong Certificate of Education Examination，简称为HKCEE）英文科目网上评卷所开展的实证研究。最后，总结香港网上评卷的实践经验，并展望日后网上评卷的研究方向。

1.网上评卷实践：国际视角

1.1 研究背景

虽然研究者和测试开发者对网上评卷的实施所持意见仍褒贬不一，但大规模公开考试中使用网上评卷的优点已显而易见。因此，国际范围内诸多研究者都致力于考查网上评卷的实施情况。

英国剑桥大学考试委员会（Cambridge Assessment）投资数百万英镑同英国RM 国际教育公司签订合同开发网上评卷系统。在2011至2014年期间，RM公司将向剑桥考试委员会旗下的三个公开考试部门提供网上评卷服务：牛津、剑桥和英国皇家艺术学会考试局（Oxford Cambridge and RSA Examinations，简称为OCR）、剑桥大学国际考试部（University of Cambridge International Examinations）以及剑桥大学英语考试部（Cambridge ESOL）。与此同时，北爱尔兰教学大纲、考试与评估委员会（The Council for Curriculum，Examination and Assessment）也表达了在其公开考试中大规模实施网上评卷的意向。

2009年，澳大利亚新南威尔士州政府教育委员会（The Government Board of Studies，NSW Australia）在当地约百分之十的公开考试中引入网上评卷系统。2010年，新南威尔士州近五分之一的公开考试已实施了网上评卷。

我国考生数目众多，需要大量评分员来完成试卷的评阅工作，因而网上评卷在各类重要考试中得以广泛使用（马世晔2004；罗友花、刘铁明2009）。自2005年起，我国大陆高等教育入学考试（简称为“高考”）的所有试题形式（客观题和主观题）均采用网上评卷技术。其中，广西省于1999年率先对高考英语科目实施网上评卷。自此，网上评卷在中国大陆以前所未有的规模展开，多数省份（自治区、直辖市）陆续开始使用网上评卷对高考不同部分试题进行评分。截至目前，全国已有29个省份（自治区、直辖市）采用网上评卷，除少数小语种科目外，网上评卷已基本实现全科目覆盖（参见http：∥news.xinhuanet.com/society/2011-06/16/c_121546140.htm）。

由于其庞大的考生数目，中国大陆经网上阅卷评阅的试卷具体数目难以估算。网上评卷工作通常在多个阅卷中心进行，各个省份（自治区、直辖市）自行负责考生试卷的评阅工作，例如，上海市的阅卷中心仅负责本地考生的高考评卷工作。据估计，2008年约有3000名评卷员参与江苏省高考阅卷工作，2010年约有2580名评卷员参与浙江省高考阅卷工作（参见http：∥www.pxdgc.com/new1353.html）。

1.2 国际研究进展

网上评卷的应用虽具有一定的实践基础，但许多研究者仍对其实施持有不同的看法和建议。Adam（2005）回顾了英国最大考试机构—英国资格评估与认证联合会（The Assessment and Qualifications Alliance，简称为AQA）使用网上评卷的经验，并表达了对网上评卷的信度和效度的担忧。他呼吁进行更多的效度研究和有用性研究，采用“谨慎的方法”确保重要相关人员，尤其是政策制定部门和教师，能够接受网上评卷所带来的相应变化。

在亚洲，香港研究者也针对这些研究热点开展了一系列实证研究，主要关注纸质评卷和网上评卷评分信度的比较（Coniam 2009ab，2010abc；Eowles 2008；Johnsonet al.2010）。Zhang等人（2003）的研究结果表明，使用上述两种评分模式所得的考生平均分呈现显著性差异，并且分数差异基本一致。进一步研究得出这两种评分模式下的评分员一致性无显著差异。因此，研究者认为网上评卷同纸质评卷的评分结果是具有可比性的。

其他国家和地区也针对评卷模式进行了不同规模的评分研究，香港则是首个在其全部公开考试系统实施网上评卷的地区。自2012年，香港所有科目均实施网上评卷。正是由于评分模式的巨大转变，香港研究者开展了一系列效度研究，这对其他国家和地区开展网上评卷起到一定的借鉴和启示作用。

1.3 网上评卷的利弊

香港网上评卷的实施主要分为以下两个步骤：（1）评卷前：考生完成考试后，所有试卷将集中送至评卷中心进行扫描并存储为图像，然后通过系统分发给评分员。（2）评卷中：评卷中心为评卷员提供专用工作站，以确保评分员使用具有安全保障的局域网开展评卷工作。在进行网上阅卷时，评分员可以对单个试题评分，也可以对试卷进行批注，以确保二次评分时评分员不会受到第一位评分员的影响，而这种情况在纸质评卷时却无法避兔。

与传统纸质评卷的方式相比，基于计算机技术的网上评卷的优点主要有以下五个方面：第一、安全性。采用网上评卷，评分员无需自己收集试卷，这也避兔了考卷丢失情况。第二、质量监控。网上评卷系统实时监控评分员的评卷质量，并对评分员不可靠的评分行为做出预警和实时补救措施。第三、数据性。网上评卷系统会生成和提取考题层面的统计数据，以用于研究和分析。因此，教育部门可以获得关于学生表现的数据回馈。第四、目标性。由于网上评卷能够实现单个试题层面的评分，因此题目分配具有一定灵活性。不同的试题可以根据需要分配给特定的评分员评阅，这也增加了评分的准确性和效度。第五、准确性和有效性。网上评卷系统会自动检查评分准确性，评分员不用自己计算分数，这也消除了人工算分可能产生的误差。

当然，网上评卷也存有潜在的弊端。首先，评分员需要到特定的评卷中心进行阅卷，并根据评卷中心的固定开放时间调整评卷时间。其次，由于评卷工作都在计算机上完成，评分员需要长时间面对计算机工作。另外，评分员需要使用评分系统录入数据，并使用评卷系统中固定建立的批注符号（包括对号、半对号等），潦草的批注是无法录入系统的。

2.网上评卷实践：香港视角

基于以上的研究和实践背景，本文将回顾一系列香港研究者针对英文科目网上评卷的效度验证研究，研究方法既包含量化分析也有质化探讨，主要围绕以下四个研究假设：

（1）采用纸质评卷和网上评卷的所得分数具有可比性；

（2）采用网上评卷不会影响考生分数，即：网上评卷和纸质评卷获得的考生分数应具有可比性；

（3）评分员掌握了足够的计算机技术，能够有效使用网上评卷系统；

（4）评分员对于使用网上评卷还是纸质评卷模式没有偏倚。

考生分数在统计意义上的可比性一直是考察评分模式效度及测试公平性的核心议题，因此下文将分别针对以上提及的四个研究假设进行讨论，主要关注前两个研究假设。

2.1 研究背景

本研究主要数据源于2007年香港中学会考英文科目写作分卷，当年共有99，771名考生参加考试。写作分卷测试要求考生完成两个写作任务：任务一要求考生根据给定材料写一篇约150字的描述性文章；任务二是开放性试题，要求考生论述聪明和美貌的重要性或阐释喜欢在时尚界工作的理由。考生可在两个话题中任选其一撰写一篇250字的论述文（HKEAA 2007：18）。写作测试采用分析性评分量表，涵盖四个子维度和相应的等级描述语（HKEAA 2007：104）。每个维度分为六个等级，分别对应1-6分（6分为最高分），总分为24分。所有的写作试卷均采用双评形式，若两个评分员所评定分数的差异大于等于5分，则由第三名评分员进行评分。

研究者主要通过以下三种方式来确保写作试卷的评分效度：（1）评分员一致性；（2）写作分卷同其他分卷分数的一致性；（3）写作分卷同整个英文测试分数的一致性（King 1994：6）。2006年香港中学会考采用传统纸质评卷方式，其评分员一致性为0.79（共188名评分员，每人约评阅800份试卷），写作分卷得分同整个英文测试分数的一致性为0.89。2007年采用网上评卷方式后，试卷随机分发给评分员进行评阅，如果两个评分员出现评分差异，系统会自动将试卷分发给第三个评分员进行评分，因此网上评卷系统不能够直接对评分员一致性进行计算。表1呈现了2007年香港中学会考英文写作分卷同其他分卷的分数一致性。

表1 2007年中学会考英文科目写作分卷同其他分卷成绩之间的相关系数

一般认为相关系数大于等于0.80时，两变量之间呈高度相关（Hatch&Lazaraton 1991：441）。如表1所示，总体来说，写作分卷和其他分卷的分数之间具有较高相关关系。其中，写作分卷和口语分卷之间的相关系数相对较低（r=0.72），但和校本评核的分数相关系数较高（r=0.83）。并且写作分卷的分数同2007年整个英文科目测试分数相关系数高达0.90，同2006年的数据（r=0.89）具有可比性。显而易见，采用网上评卷模式对整体测试信度并未产生影响。

2.2 研究设计和资料分析

2007年共有196名评分员参加香港中学会考英文科目写作分卷的阅卷工作，其中117名评分员（占评分员总数59.7%）具有丰富评卷经验（简称为“老手评分员”），79名评分员（占评分员总数40.3%）是首次参与评卷工作（简称为“新手评分员”）。研究者从196名评分员中选择46名作为研究对象，主要基于两方面标准：第一、所选评分员在2007年香港中学会考写作试卷的评分工作中具有较好评分表现，即：评分员一致性系数较高、写作试卷分数和客观评定的阅读试卷分数之间的一致性较高等。第二、所选评分员在性别、资历、教学和评分经历方面具有一定代表性。可以看到，本研究的研究对象既包括老手评分员也有新手评分员，目的是为了比较两类评分员的评分表现：老手评分员具有丰富的纸质评卷经验，却没有网上评卷经验；而网上评卷则是新手评分员唯一的评阅经验。最终，有30名评分员参与本研究，包括25名老手评分员（83.3%）和5名新手评分员（16.7%），有关评分员的具体背景，可参见Coniam（2009a）的研究。研究者要求每个评分员评定2007年香港中学会考的100份试卷①，并告知他们可能会遇到先前评阅过的试卷，但并未告诉这些评分员他们将再次评阅先前已评阅过的100份答卷。类似数据收集方法的可行性已在先前的实证研究中得到验证：两次评卷时间相隔九个月，当评分员再次看到答卷时，会当作从未评阅过这些答卷（Coniam 1991）。

研究中使用的试卷共3000份，其中2145份是不同考生的答卷。研究者也采取了一定措施确保所选答卷的分数能够代表各个不同等级的考生表现（1至6级）。本研究的数据分析方法采用经典测量统计，主要分析评分员一致性、不同试卷间分数的一致性等（King 1994：6）。此外，研究者还使用T检验来比较新手、老手评分员的评卷表现。数据分析主要分为以下两个步骤：第一，分析评分员一致性以及英文科目不同分卷分数之间的一致性；第二，分析两种评分模式下分数具有统计性差异的试卷。

2.3 结果及讨论

2.3.1 评分一致性

如上文所提及，考生可在所给的两个写作题目内任选其一。先前研究结果显示，选择题目二的考生整体英语能力较高（Coniam 2009a）。T检验的结果表明，两种评分模式下两个题目所得分数之间没有显著性差异，因此可以推断出，写作题目并不是导致评分误差的因素。然而，选择两个题目的考生的平均分呈现显著性差异，这可能是由考生语言能力的差异所致。在本研究中，评分员信度是按照整个英文测试信度来计算的，并且控制了写作任务因素。如表2所示，2007年评分员一致性系数为0.88，远高于2006年的评分员一致性系数（r=0.79）。

香港考试与评核局使用客观评定的阅读试卷分数作为评分信度标准（King 1994：6），因此，本研究也分析了写作分卷分数同阅读分卷分数之间的一致性系数，以及与英文科目其他分卷分数（除写作试卷）的一致性系数。结果表明，采用两种评分模式所得分数之间的相关系数均大于0.80，这说明评分员使用两种评分模式的评分表现都十分可靠和稳定。

表2 相关分析结果

2.3.2 评分员评阅经历

本研究采用T检验来比较不同评阅经历评分员的评分表现。如表3所示，新手评分员和老手评分员评定的分数之间没有呈现显著性差异。

表3 评分员评阅经历描述性统计

2.3.3 评分模式差异分析

通常情况下，评分员使用六分制评分标准进行评分，若两人所评分数差异大于等于一分，将会进行二次评分（例如，使用第三个评分员）（Attali&Burstein 2005：13）。2007年香港中学会考英文科目写作分卷所设定的二次评分基准是：两个评分员的评分差异大于等于5分（总分为24分）。根据该基准，同年写作试卷的分数差异率约为10%（香港考试局，网上评卷资料个人交流，2007年7月）。表4呈现了本研究使用两种评分模式所得分数的差异率，其中正数表示纸质评卷的分数高于网上评卷分数，负数表示纸质评卷分数低于网上评卷分数。

表4 网上评卷和纸质评卷的分数差异

同2007年写作分卷的分数差异率比，本研究使用两种评卷方式所得的整体分数差异率略低（8.1%）。网上评卷的分数差异率（4.6%）略高于使用纸质评卷的分数差异率（3.5%），这也验证了T 检验的结果，即：两个写作题目的试卷分数之间出现正负5分差异的概率也相类似。虽然采用两种评卷模式的评分员表现并没有呈现有统计意义的差异，但以上的数据表明评分员在网上评卷时可能更为宽松。

2.3.4 分数差异试卷分析

本研究也分析了网上评卷出现分数差异的试卷，其研究假设为：出现差异的写作试卷具有明显的特征，这些特征能够区别相同分数等级的其他试卷，并且评分员也能够发现这些特征，即：具有分数差异的写作试卷有更大的非拟合值（数据分析使用多层面Rasch模型，简称为MERA②）。

数据收集：本研究的测试工具包括两组写作试卷，每组各30份。第一组为分数差异大于等于5的试卷，第二组为评分员评定分数完全相同的试卷。两组试卷的分数等级范围从2级（5-8分）到5级（17-20分）（见表5）。

表5 两组试卷的分数差异

共12名评分员参与该项子研究，评分员在培训后分为两组：第一组（评分员1-6）和第二组（评分员7-12）。本研究采用交叉评分设计，即：第一组评分员在网上评阅编号为1的试卷集（101-115号），第二组评分员采用纸质评卷方式来评阅编号为2的试卷集（201-215号）。随后，两组评分员互换试卷进行评阅。在评分员进行阅卷时，研究者会询问他们是否留意到哪些试卷比较容易评阅或是不容易评阅，并让他们在这些试卷上进行简要批注。评卷结束后，研究者结合评分员所做的批注，就其评分过程以及评阅过程中遇到的问题进行半结构式访谈。

数据分析和结果：本研究使用基于多层面Rasch模型开发的统计工具EACETs（Linacre 2004）分析评卷过程中不同因素的拟合统计量（fit statistics），结果表明模型拟合度较高。研究者预测第一组考生试卷（101-115）中会有较多不符合模型假设的情况。然而，实际分析结果并非如此：在三个非拟合模型假设的考生中，最不符合模型假设的试卷出现在第二组试卷中。研究者进一步分析EACETs的“非预期反应”也未能预测该结果。此外，评卷模式和写作题目因素分析后的输出数据呈现出相似的数据分布，符合预期的分析结果，即：“非预期反应”的评分员的非拟合统计量（infit statistics）最差。综上所述，评分模式和写作题目因素对评卷结果没有产生影响。

2.3.5 容易评分和不易评分试卷

基于访谈和评分员批注，研究者分析了评分员认为容易或不易评分的试卷，并总结出四类试卷类型来阐释造成网上评卷差异的因素，即：“与构念无关的变量”（construct irrelevant variance）。表6通过节选部分评分员访谈和批注，对这四类试卷进行解读。

表6 四类影响评阅的因素

2.3.6 评分员的计算机能力和对网上评卷所持态度

在评分结束后，研究者对评分员进行问卷调查，主要关注评分员对于网上评卷和纸质评卷所持的态度。问卷主要分为三部分：第一部分是评分员个人信息和背景；第二部分有关评分员的计算机使用能力，例如，使用鼠标、放大/缩小屏幕图像、调整桌面高度和屏幕分辨率等。第三部分主要关注评分过程，例如，两种评分模式的准确性、视力疲劳程度以及短暂休息的频率等。该部分问卷还询问了评分员对于使用评分模式的和选择评分地点的倾向（在家或评卷中心）。

问卷采用李克特量表，6分表示“非常同意”，1分表示“非常不同意”。评分员也可以写下有关网上评卷过程的任何评论。问卷中第二部分共13个问题，信度为0.85。分析结果表明，评分员认为自己具有较强的计算机操作能力。其中，26名评分员（共30名，占86.7%）认为自己整体计算机能力较好，26名评分员（86.7%）认为自己使用鼠标进行翻页能力较强，27名评分员（90.0%）认为自己进行放大/缩小屏幕图像能力较强。分别有29名评分员（96.7%）以及25名评分员（83.3%）认为自身使用鼠标或键盘键入符号能力较强。

由于网上评卷要求评分员面对屏幕工作较长时间，问卷也调查了评分员对于人体工学因素（例如：屏幕高度和分辨率等）的态度。有25名评分员（83.3%）认为屏幕高度适中，27名评分员（90.0%）认为屏幕分辨率较好。仍有21名评分员（70.0%）觉得对着屏幕阅读不太舒适。

针对评卷地点的分析得出，新手评分员（M=3.00）认为专门去评卷中心阅卷并不是问题，而老手评分员对此并不持特别乐观的态度（M=2.46）。该结论呼应了评分员对于评卷地点倾向的分析结果：比起老手评分员（M=2.28，p＜.05），新手评分员更倾向在评卷中心进行阅卷（M=4.40）。相比纸质评卷，新手评分员对于网上评卷持有积极态度（M=3.80），而老手评分员却并不那么认同（M=2.26）。

在使用计算机方面，新手评分员比老手评分员态度更加积极，他们认为网上评卷不会造成太严重的视疲劳（M=3.40），而老手评分员却觉得眼睛十分疲劳（M=3.96）。在问及是否纸质评卷会带来视疲劳时，新手（M=4.00）和老手评分员（M=3.96）都认为网上评卷比纸质评卷对视力的要求更高。此外，老手评分员认为网上评卷更需要间歇休息时间（M=3.60）而新手评分员并没有如此强烈的认同（M=2.92）。有关是否纸质评卷也需要间隔休息，所有评分员的回馈同网上评卷的分析结果类似（M=4.00）。表7归纳了评分员的总体评价。

表7 评分员对网上评卷所持态度

如表7所示，新手评分员均积极评价评卷中心的环境，他们认为“控制”试卷有助于对评分进行标准化。然而，老手评分员普遍对于网上评卷过程持有负面评价（16个负面评价，4个中肯评价），主要包括四个方面：不习惯往返评卷中心，更习惯在家阅卷（13人）；降低评卷的灵活性（5人）；纸质评卷更容易（3人）；评卷系统限制了评分员在试卷上批注（2人）。另一方面，在评卷时评分员并没有被要求必须对试卷进行批注，然而，他们却清晰地表明想要进行批注，主要基于以下两点：第一、外审专家检查评分时可作为参考；第二、可以标注需要同外审专家进行讨论的问题。

仅有3名老手评分员对网上评卷给予了正面评价。与此同时，我们也应该注意到，老手评分员也意识到了网上评卷的益处，而不是仅仅认为新的评卷系统只能带来一系列的问题和缺点（Ealvey&Coniam 2010）：

（1）“网上评卷有很多优点，例如，评分员不用一直等到具体数据出来就可以直接开始评阅第二批试卷。”（评分员76）

（2）“我认为网上评卷是很好的，因为评分员在某种控制之下，如果他们不认真阅卷，他们将会继续接受培训。我认识这对于考生来说是十分公平的方式。”（评分员110）

（3）“我十分喜欢网上评卷，因为系统会定期对试卷进行监控以检查你的评分是否是连续的。这点在纸质评卷是不能实现的。”（评分员140）

3.结语

本文回顾和梳理了针对香港中学会考英文科目网上评卷实施情况的实证研究，主要关注两方面：（1）网上评卷和纸质评卷的量化比较；（2）评分员对两种评卷模式所持态度的质化分析。前者主要考查评卷模式是否会影响考生分数，以及两种评卷模式的评分员一致性是否具有可比性。研究结果表明，无论采取何种评卷模式，考生所得分数都是可靠的。后者主要关注评分员是否具有一定计算机能力来运用新的评卷模式进行阅卷，以及评分员对网上评卷的态度，以验证评分员对评卷模式没有偏倚。

量化分析结果表明：（1）同一个评分员使用两种评卷模式所得试卷的分数与不同评分员评阅相同试卷所得分数具有可比性；（2）评分员一致性系数表明，两个评分员使用两种评分模式阅卷的分数也具有可比性；（3）同纸质评卷相比，网上评卷的写作成绩同阅读成绩以及同整个英语科目的分数之间的一致性系数也具可比性。因此可以得出，两种评卷模式的评卷环境相似，使用任何一种评分模式对考生分数不会产生影响。差异分数的分析结果也验证了该结论。

在计算机能力方面，评分员普遍认为自己具有较好的计算机能力。无论从技术还是从效率方面看，所有评分员都认为使用计算机评卷不存在任何困难。因此可以认为，在技术操作层面，网上评卷方式对评分员不具有影响。

从对网上评卷的态度来看，评分员总体持积极态度，新手评分员比老手评分员的评价更为积极；有部分评分员认为应当在特定阶段对网上评卷系统重新进行评估。目前，网上评卷系统的开发更多的是从技术人员而不是从评分员的角度出发的。因此，网上评卷系统的有用性以及用户友善性有待日后进一步考察。

本文没有涉及其他学科的网上评卷实施情况，但另有一系列的研究主要针对香港通识教育学科的网上评卷实施情况（Coniam&Yeung 2010；Coniam 2010b）。其量化分析结果与本研究类似。由此可以看到，同纸质评卷相比，网上评卷在信度和测试公平性方面更胜一筹。在通识教育学科的评卷研究中，评分员对于网上评卷的态度比英文学科更为积极，说明评分员对网上评卷系统具有更高的接受度。

2012年香港公开考试的所有学科都已大规模采用网上评卷，因此，确保评卷信度具有重要的实践意义。本文所回顾的一系列实证研究也恰好验证了网上评卷的信度。在国际范围内，网上评卷系统还处于初期实施阶段，并未完全成为公开考试的评分规范，亟待日后研究进一步考查。香港首次中学文凭考试（Hong Kong Diploma of Secondary Education，简称为HKDSE）于2012年举行，所有18个科目均采用网上评卷。研究者将在评分前后阶段对所有参与阅卷的教师评分员（N=4，000）进行问卷调查，所使用的问卷也根据科目和题型等进行了相应改编。该项研究对于网上评卷的评估涵盖了所有可能的测试题型，综合考查了评分员对网上评卷的态度。

附注

①本研究的理想样本是：新手、老手评分员的分布能够同香港中学会考的评分员分布相似。但是这一点未能在研究中得以实现，主要有两方面原因：第一、老手评分员有相对较好的评分数据表现，因此更“有资格”参加本研究；第二、相比老手评分员，新手评分员的参与积极性稍低。

②近十年来，多面Rasch分析作为主要统计分析方法之一，在表现型语言评估中得以广泛使用。该方法能够对情境因素进行建模，包括评分员严厉度，任务难度等（Bond&Eox 2007；Weir 2005）。