口语测试量表设计方法的审视与思考

2014-04-17 07:49文宇

佳木斯职业学院学报 2014年6期

关键词：口语量表考试

文宇

（湛江师范学院广东湛江 524048）

口语测试量表设计方法的审视与思考

文宇

（湛江师范学院广东湛江 524048）

从介绍的角度审视现成口语测试量表设计的主要种类和特点；对比量表设计的优劣；探讨合适的设计方法和可行性。

口语测试；口语测试；量表；设计方法

一、前言

编写口语测试量表并不容易，这主要是因为对口语学习过程缺乏确切的描述，而且把这些相关的特征言简意赅的表述清楚以便测试时使用也并非易事。所以，口语测试时，英语教师常常选择现成的量表对学生的口语水平进行考核(Luoma，2004)。这些量表通常都是受到主要的标准化考试体系(如IELTS、CET 等)青睐，从而更容易得到使用者们的信任。笔者通过审视一些现成的量表设计方法，探讨和思考这些方法对本土英语口语教学测试的启示。

二、现成的量表设计方法：优势与局限

自从 Clark and Clifford (1988) 提出 ILR 量表(Interagency Language Roundtable)以来，常见的口语测试量表有：芬兰的National Certificate 量表, ACTFL量表，Test of Spoken English (TSE)量表,欧洲通用体系(CEF)口语量表, 墨尔本医科学生诊断性口语量表(Melbourne medical students’diagnostic speaking scale) (分别参照ACTFL, 2012; ETS, 2001:29; Council of Europe, 2001; Grove and Brown,2001)。

近年，在我国高校英语口语教学研究领域对教学法的探讨较多，对大规模考试用量表的讨论也为数不少，但是对大学英语课口语测试评价系统的研究较少。这些围绕大学英语考试(CET)的研究基本上都倾向于参考国外现成的评价量表，比如借鉴美国外语教育学会(ACTFL)语言能力量表(ACTFL,2012)，按量表要求设定口语测试形式，让测试等级参照值更加具体化和标准化(王莺莺，2008)。对于我国大学生口语测试，有学者并不赞同照搬现成的量表，认为有必要在对在校大学生口语学习现状进行大规模的研究的基础上进行综合分析，提出了分析性口语评估体系(刘芹，2010)。

的确，在特定的教学背景下，现成量表未必是有效、合适而且是设计完美的(Luoma,2004)。例如，ACTFL (2012)的设计者把口语表现分为5大等(distinguished, superior, advanced, intermediate, novice),每一等分3个级别(high, mid, low)，每个等级的描述平均字数大概300字之多，但自从1986年该量表发布以来，其效度是否来自其测试任务的顺序抑或来自对被测语言表现的测试一直未有共识(Kramsch, 1986; Bachman, 1990)。笔者认为，在我国EAL/EFL的教学背景下，权衡各种量表设计的优劣以及研究设计方法，有利于我国高校口语课堂建立合适和方便使用的测试工具。

1.直觉法。设计口语测验或考试的时候，教师们最常使用的也许是直觉设计法(intuitive method)。教师通过参考自己的教学经验，从过往的测试活动中可归纳出一些参考值，以此来设计口语量表。虽然许多现成的量表的设计遵循的是直觉设计法，但缺乏必要的定量和定性分析，很难满足实际测试的需要(Luoma, 2004)。但是这种方式的方便性是不言而喻的，但是面对数十人甚至上百人的一次考试，未受经测试培训的教师依靠教学或测试“经验”对学生进行评估时，往往会受到“印象”影响，测量结果可能有偏差。面对这种问题，可以考虑和其他设计实现交叉设计，优势互补。以下介绍两种可以交叉使用的方法。

2.定性法。对比之下，定性设计法 (Qualitative method)的采用，也许能解决缺乏“权威标准”的难题。设计者通过让语言教育专家参与描述、标准范例(sample)甚至每个等级的常见词组的采样收集工作 (Brown et al,2001)。被测者的表现可以被分为不同等级，此时，专家意见的统一显得尤其重要。笔者认为，大学口语测试可以参考雅思(IELTS)口语考试的评分标准的定性设计(Alderson, 1991)。在英语课堂测试或考试时使用定性法，可以让专家或资深的教学团队组成设计小组，按照从大到小的顺序，逐个级别划分评分等级。次等级的多少将取决于设计者能否找到区分每个等级的语言表现。在讨论语言表现的时候，最好笔录重点和要点，这些讨论对于最后设定等级描述的部分将提供参考 (Pollitt and Murray, 1996)。

3.定量法。如果评估者具备良好的统计学基础，定量设计法(Quantitative method)可能是不错的选择。Fulcher(1996)曾为测量口语流利性而设计的量表，就是在大量话语分析(discourse analysis)基础上，捕获大量话语流利性(fluency)的表现特征，再用多元回归分析(multiple regression analysis)归纳出与流利性相关的显著的特征。这些特征便可以用来分级描述说话者的流利性。更深入和细化的测试分析来源于项目反应(IRT)理论，该理论包括了一系列心理统计学模型(参阅Rasch, 1980)。该IRT理论已被应用于包括CEF等口语量表(Council of Europe, 2001)中特征描述(descriptor)的编写。不过，由于这种方式较费时，在当前高校英语教学测验和考试的量表设计中很少见。

最近，也有学者建议在语料库分析(corpus analysis)的基础上测试口语(Barker, 2013)。笔者认为，在直觉法分析的基础上进行专家组讨论，让设计小组成员从语料库中选范例，进行定性设计；如果成员缺乏经验，和可以请具备统计学基础的人员参与，在话语分析基础上选择定量设计。

三、结语

一旦口语测试的量表制成，在口语课堂内往往被长期使用，这主要是出于设计时间和人力成本的考虑。因此，笔者认为，虽然口语教学人员未必能在短时间内编写合适的量表，但可以在上述方法中寻找折中的方法，在参考现成量表时有所取舍。

由于篇幅所限，本文尚未涉及量表设计各方法中的细节，仅仅尝试做了几种原则和思路的浅析，而由此制成的各种量表的效度与信度，以及设计过程中可能遇到的实际问题还有待进一步的研究。

[1] ACTFL. The ACTFL Proficiency Guidelines: Speaking [S]. Yonkers, NY:ACTFL. 2012.

[2] Alderson, J.C. Bands and scores [C]. In J. C. Alderson and B. North (eds), Language Testing in the 1990s, London: Macmillan, 1991.

[3] Bachman, L. F. Fundamental Considerations in Language Testing[M]. Oxford: OUP, 1990.

[4] Barker, F. Using Corpora to Design Assessment[J/ OL]. The Companion to Language Assessment[DB], 2013. DOI: 10.1002/9781118411360.wbcla102

[5] Brown,A.,McNamara,T.,Iwashita,N.,and O’Hagan, S. Investigating raters’ orientations in specific-purpose task-based oral assessment[R]. TOEFL 2000 Research and Development Project Report, Submitted June 2001.

[6] Clark, J.L.D. and Clifford, R.T. The FSI/ILR/ACTFL proficiency scales and testing techniques: development, current status and needed research[J]. Studies in Second Language Acquisition,1988.

[7] ETS. TSE and SPEAK score user guide. 2001-2002

[8] Kramsch, C. From language proficiency to interaction competence[J]. The Modern Language Journal,1986.

[9] Luoma, S. Assessing Speaking[M]. Cambridge: Cambridge University Press. 2004

[10] Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests[M]. Chicago: University of Chicago Press.1980.

[11] Pollitt, A. and Murray, N. What raters really pay attention to[C]. In M. Milanovic and N. Saville (eds), Performance Testing, Congnition and Assessment. Selected papers from the 15th Language Testing Research Colloqium, Cambridge and Arnhem. Cambridge: CUP,1996.

[12]刘芹.中国大学生英语口语分析性评估体系的构建与效验[M].上海:复旦大学出版社,2010.

[13]王莺莺.ACTFL语言能力量表对构建CET口语测试评估新体系的启示[J].长沙大学学报,2008(6).

Speculations and Thoughts on Methods of Designing Scales for Oral Tests

Wen Yu

(Zhanjiang Normal University, Zhanjiang Guangdong,524048, China)

This paper speculates on the kinds of current scales used for assessing speaking in terms of their particular features; Comparison between their advantages and disadvantages is made; Discussions also include methods of designing scales and their feasibility.

assessing speaking; oral test; scales; methods of designing scales

G442

1000-9795（2014）06-0388-01

［责任编辑：刘丽杰］

2014-03-08

文宇（1979-），讲师，从事英语教学方向的研究。