英语写作评分量表研究

2022-11-19 15:11房雅琨

现代英语 2022年2期

房雅琨

(西安外国语大学英文学院，陕西西安 710100)

一、引言

评分是语言测试中的重要一环，而评分量表是评分过程的核心。写作评分量表，有时也被称为写作评分标准，它体现了写作测试的构念，其设计对分数的普遍性、对考生能力预测的精确性、对分数的信度有着直接的影响。评分量表可用于基于形成性评估方法的教学(Panadero＆Jonsson，2013)，在写作过程中使用评分量表有助于学习者提升写作质量(Greenberg，2015)。鉴于评分量表在写作评估中的重要地位，文章对英语写作评分量表的几个关键问题进行了梳理和讨论，分析了评分量表的功能，评分量表的四个类别及各自的特点，量表设计的方法和典型案例，以期为我国英语写作测试评分量表的研究及实践提供参考。

二、评分量表的目的和功能

明确量表的功能十分重要，根据量表的目的和功能，Alderson(1991)将评分量表划分为三类，对于不同的类别，描述语会用不同的方式来表达。

(1)面向建构者的量表，其功能是指导测试开发人员在学生适当的水平下设计测试任务和教学大纲，并提供一套测试规范，说明在特定的水平下应该衡量哪些语言技能，描述语通常表述为学习者可能遇到的交际写作任务。

(2)面向评分者的量表，具有指导评分过程的功能，评分者需要将写作文本与量表描述语进行比较。描述语通常表述为预期的某一水平的学生写作质量的各侧面，并被作为不同评分者的共同标准，从而提高测试的信度和效度。

(3)面向使用者的量表，具有报告功能，用于报告考生在任何给定级别下的典型的或可能做出的行为信息，使测试使用者能够解读测试结果。

这三类适用于不同利益相关群体的量表提供不同的信息，使用不同的措辞。例如，用于开发测试任务的面向建构者的量表可能包括一些技术语言和专门词汇，这些对于测试使用者(包括学生和教师)来说可能是难以解释的(Montee＆Malone，2013)。Alderson认为，用来评定第二语言行为表现的量表应该是面向评分者的，也就是说，他们应该把重点放在考生表现中体现的语言能力的各个侧面。但同一个评分量表可以融合不同的功能，例如著名的 FSI scale，the ILR scale，the ASLPR scale，the ACTFL scale。Pollitt＆ Murray(1996)对Alderson的上述分类进行了扩展，增加了一个以诊断为导向的量表分类，其功能是向教师和学生传递诊断信息。

三、评分量表的四种类型

在确定了量表的功能之后，量表设计者需要决定使用哪种形式的评分方法。从形式来看，评分量表可以分为四类:整体式评分量表，分析式评分量表，关键属性评分量表，多属性评分量表(Hyland，2003)。不同类型评分量表的区分主要依据两个特征:①该评分量表是针对某个特定的写作任务与语境的，还是适用于不同的写作任务与语境；②每个写作文本最终得到了一个整体分数，还是多个分数。

整体式评分量表要求评分员形成对写作表现的总体印象，并将其与量表上最合适的等级相匹配，给写作文本打一个综合分数。每个等级都从词汇范围、语法准确性、流利性等几个维度来描述学习者的写作表现。国外的 TOEFL考试，国内的CET-4、CET-6考试，研究生英语入学考试的作文评阅，都采用了此类量表。整体式评分标准背后基于的原理是，写作是一个单一的实体，这最好通过整合写作内在品质的单一分数来捕捉(Hyland，2003，p.227；Knoch，2009)。它们大多采用正向的描述语，强调写作者的优势(Cohen，1994；White，1984)。该评分方法与真实的阅读过程相似(White，1984)，可以最大限度地减少评分员必须做出的决定，从而节省评分时间。

在分析式评分量表中，量表设计者确定几个突出的写作特征作为评分维度，例如词汇、内容、语法和组织，并根据写作质量对每个维度进行评分，最终计算总分。典型的量表有Jacobs等人开发的“以英语为第二语言的作文评分标准”(the ESL Composition Profile，Jacobs，Zinkgraf，Wormuth，Hartfiel＆Hughey，1981)，雅思考试写作评分量表，以及国内的TEM-8写作评分量表。分项式评分量表能够针对学生写作的强项和弱项进行反馈，并且详细记录了学习者获得某个分数的原因。相比于整体式量表，分析式量表信度更高(Knoch，2009；李航，2015；孙海洋，韩宝成，2013；席仲恩，汪顺玉，2010)。

Llyod-Jones和Carl Klaus于1977年为National Assessment of Educational Progress(NEAP)开发了关键属性评分量表(Lloyd-Jones，1977)，此类评分量表为某个特定的写作任务设计，评分的依据是写作者成功完成该写作任务的程度。量表设计者识别出完成给定任务或提示所需要的主要语言功能或修辞特征，评分决策则基于该特征的完成程度(Davis，2018)，例如“说服读者”“任务完成度”，围绕这一特征确定量表每一级的描述语。由于此类量表是为每一项任务专门设计、依赖于语境的，评分结果不能推广到其他写作任务，因此被认为是费时费力的 (Shaw ＆ Weir，2007，p.149；Knoch，2009)。

Hamp-Lyons(1991)设计了多属性评分量表。它基于主要特征评分的概念，用于向学习者或教师、家长等利益相关者提供关于成绩的诊断性反馈，该量表同样适用于特定的语境和任务，不能在其他任务中重复使用。多特征评分量表与分析式评分量表相似，因为它也有多个评分的维度。它们的不同之处在于，分析式评分量表包含的更多的是传统的和通用的维度，而多特征评分量表则侧重于完成给定任务所需的具体特征，维度的制定是为了与写作提示保持一致。

量表类型的选择将取决于测试目的，测试结果将如何使用，以及当地的实际条件。考虑到关键属性评分量表和多属性评分量表的局限性，整体式和分析式量表的应用更加广泛。

四、设计评分量表的方法

评分量表的设计是一个迭代的过程。Fulcher，Davidson和Kemp(2011)将评分量表的设计方法分为测量驱动法(the measurement-driven approach)和考生表现数据驱动法(the performance data-based approach)。前者强调描述语在量表上的等级顺序。考生的写作表现不作为量表设计的来源，而是在事后作为量表各个等级的参照样本。最为典型的是“直觉法”(a priori method)，该方法依赖专家的知识和经验设计评分量表。现在较为流行的还有“标准分级描述语”方法(Scaling descriptors，North＆Schneider，1998)，收集其他现有量表中的描述语，教师利用这些描述语对学习者的能力进行感知，通过Rasch模型对描述语难度进行分析。测量驱动法指导下设计的量表，常被批评为缺乏语言使用和二语习得的理论基础，还存在描述语较为抽象、不够丰富的问题(Fulcher et al.，2011；North ＆ Schneider，1998，pp.242-243)。

考生表现数据驱动法在量表设计过程中重视对写作表现的观察，并对其进行详细描述，将其作为建立量表各等级之间差异的参考。具有代表性的是Fulcher(1996)的研究，量表设计者收集考生样本并对其进行打分，通过话语分析识别出关键特征，通过判别式分析得出每个特征的等级数量。该研究针对口语任务设计，但同样也适用于写作量表的编制。另一个代表是“经验导出的、二元选择的、边界定义的量表”(the empirically derived，binarychoice，boundary definition scales，EBBs)，评分过程由一系列二元决策问题驱动(Upshur＆Turner，1995)。Fulcher等(2011)将以上两种方法结合，设计了“考生表现决策树”(performance decision trees，PDTs)。考生表现数据驱动法指导下设计出的量表包含了对特定领域和体裁下写作表现的描述，因此仅仅适用于创建该量表的语境。

五、结语

评分量表的目的是指导评分过程，帮助评分者做出可靠的判断。文章回顾了英语写作评分量表的一些关键问题。评分量表主要面向测试建构者、评分者、使用者三类群体，用来评定第二语言行为表现的量表应该是面向评分者的。评分量表可以分为整体式评分量表、分析式评分量表、关键属性评分量表、多属性评分量表四种类型。量表设计的主流方法可以分为测量驱动法和考生表现数据驱动法。未来研究应该进一步探讨如何整合不同类型的评分量表，评分量表设计和效度验证方法的优化或新方法的选择。