关于我国英语能力等级量表描述语库建设的若干问题

2015-07-05 12:11朱正才

中国考试 2015年4期

朱正才

我国英语能力等级量表的研制是“国家外语能力测评体系建设”的一项基础性工程。[1]这项工程大致可以分为5个阶段：（1）构念阶段：界定量表所适合的我国英语学习者群体及英语能力模型，还有一些与量表的制定工作密切相关的其他认知、心理和社会语言学假设；（2）量表架构的设计阶段：确定量表的横向“英语能力目标分类”和纵向“等级”，确定量表的心理测量结构模型等；（3）描述语库的建设阶段：收集、整理、修改、撰写和审定足够多的描述语，对我国英语学习者的英语能力进行全面而细致的分级描述；（4）描述语的量表化阶段：通过大样本的调查数据评估描述语的难度和品质，保留最有典型意义和最有代表性的描述语，并按其难度值排列在一个统一的英语能力等级量表上；（5）量表的效度验证阶段：通过广泛的调查和验证，评估英语能力等级量表的有效性和量表对教学、考试的影响，对量表进行修订。在这5个阶段中，描述语库的建设是一个中心环节，它上承量表构念，下启量表验证，工程量浩大，几乎没有回头路可走。因此，本文着重谈与描述语库建设有关的几个重要问题，以期对后续研究有所启发和借鉴。

1 我国英语能力等级量表的语言能力模型

有关量表的全部工作起始于我国英语学习者英语能力构念，构念的核心是关于中国人英语能力的社会心理语言学模型。本量表总的英语交际能力模型主要参照韩宝成教授提出的“英语语言运用模型”（见图1）[2]。刘建达教授明确提出：听、说、读、写、译、语法、语用7个项目组的英语能力细化模型可以据此进行扩展，但最好不要违反此总模型。

笔者认为，理解此总模型的要点有5个：

第一，“语言能力”主要包括听、说、读、写、译这5个基本的“语言技能”（体现在相应的“语言活动”当中）；同时，语言能力又离不开“语言知识”和“策略”的运用；因此，语言知识、语言活动和策略就成为描述量表目标语言能力的3条最基本路径。

图1 韩宝成提出的英语语言运用模型

第二，语言理解（听力和阅读）就是对输入文本（关键是文本的意义信息）的认知处理。

第三，语言输出（口头和书面表达）就是对输出文本（关键也是文本的意义信息）的认知处理。

第四，翻译包含了语言输入和输出的双向认知处理。

第五，文本的难度主要由文本话题和体裁等变量决定。

这个总“英语交际能力模型”是关于语言运用能力的一个简略框架，模型用认知科学的信息处理观解释了语言运用的过程，认为认知处理的对象就是文本。因此，可以说这个模型既基于“语言运用”，也基于“认知”和“文本”。

2 我国英语学习者英语能力的描述参数

我国英语学习者英语能力的描述参数系统是我国英语学习者英语能力构念的具体体现。

首先，要确定的是全部量表“目标语言能力”的名称和定义，以构成相对完整的目标英语能力指标体系——即一个全面而细致的“描述参数体系”。

其次，是要确定哪些目标语言能力进入量表。显然，这只能是对上述完整理论指标体系的一个“抽样”。

确定量表全部“目标语言能力”的名称和定义，可以说是第一个需要全力以赴进行攻关的地方。美国的ACTFL（American Council for the Teaching of Foreign Languages）和 SFLL（Standards for Foreign Language Learning：Preparing for the 21st Century）、加拿大的CLB（Canadian Language Benchmarks）、欧盟的CEFR（Common European Framework of Reference for Languages：Learning，Teaching，Assessment）等量表[3]的研制经验虽然可以为我们提供很好的借鉴，但我们毕竟还是要结合中国国情，构建自己的英语能力测评体系（包括描述语库的参数指标）。表1是一个经过初步讨论完成的我国英语学习者英语能力描述参数体系范例（仅列出语用能力和说的能力部分，接下来还需要进一步完善），其中斜体字表示语言行为的概括性特征，加黑的字体表示典型语言活动，加下画线表示的是语言策略。从表1可以看出：

表1 我国英语学习者英语能力描述参数体系（部分）

（1）对于语用能力，三级参数把它分解为话语能力、功能能力和社会语言能力。在四级参数里，话语能力进一步被分解为灵活性、话轮掌控、主题陈述、连贯性和一致性；功能能力则被分解为自如度和精确度，显然这不是在对语言功能进行分类，而是在对语言功能发挥的良好程度（即典型的概括性特征）进行评测；社会语言能力只使用了一个细分量表，就是交际得体性。加上总体语用能力，这一部分共8个细分量表，全部是语言特征量表，没有语言活动和语言策略量表。

（2）对于说的能力，这个方案综合使用了3类描述，既有典型特征描述（广度等4个量表），也有丰富的典型语言活动描述（聊天等7个量表），同时对口头表达还增加了语言策略的描述（表1中只划分出了口头表达的4个阶段，未明确各阶段具体的策略名称）。纵览世界各国主要英语能力等级量表，都对口语能力进行了最为详尽的描述，显然，这是口语对于语言交际的重要性所决定的。笔者非常赞同我国英语等级量表也对口语能力进行全面细致的描述，以凸显对口语能力的高度重视。

3 描述语库的心理测量结构模型和规模

我国英语能力等级量表的描述语库有两个维度，一个是横向的语言能力目标分类，一个是纵向的能力等级。描述语库的心理测量结构模型主要包括有行为锚定等级量表（Behaviorally Anchored Rating Scale，BARS）模型、累进量表模型和Rasch多面分析模型。限于篇幅，本文不对这些模型做详细介绍，只讨论与项目研究密切相关的3个重要问题。

3.1 为什么不能把交际情景、话题和文本等语言活动变量设计为量表的维度

由于横向参数中的“语言活动”已经包含了交际任务、情境（含角色）、话题和文本等重要变量，因此不能再把这些变量设计为量表的横向细分维度，否则，就会形成交叉重复的局面，量表将不堪其繁。与此同时，交际任务、情境（含角色）、话题和文本等变量的变化已经体现在各等级描述语的限制成分当中，因此也就当然地不能再出现在量表的目标语言能力分类当中。

3.2 何谓行为锚定等级量表和累进量表

行为锚定等级量表认为：人的英语能力等级可以用若干“典型语言行为表现”来锚定它，即，不同等级的人拥有的“用语言能做之事”是不一样的（通过教师和专家投票可以具体确定这些事），这直接导致了“能做”描述系统的产生，可以说是基于语言运用一类量表主要的心理测量学结构模型。BARS对于我国英语能力等级量表可谓关系重大，因为它可以解决各等级的描述语彼此之间是什么关系，一个等级内部的多条描述语彼此之间是什么关系、应该如何选择、如何排列等诸如此类的问题。

我国英语能力等级量表是一个累进量表，意思是上一个等级的人肯定具备或者超过下一等级所描述的语言行为表现或语言能力，而且等级之间不会重复描述相同的语言行为。

3.3 如何估算描述语库的规模

举个例子来说明：比如口语（其他类推），假设最后有15个分量表，与初步确定的9个等级交叉得到135个交叉网格（Grids），假设平均每个网格最后要有2条描述语（来自CEFR的经验）[4]，平均共需要270条描述语；由于数据验证过程要淘汰掉大约一半（也是来自CEFR的经验）[5]，因此，口语描述语库最终应该收录至少540条描述语，假如再考虑到描述语入库有高达70%的淘汰率，则要预先准备多至1 800条描述语。根据项目总体设计规划，量表的每个网格最后要保留1～5条描述语，再考虑到数据验证的50%淘汰率，因此，描述语库的每个网格就要收录2～20条描述语（具体数目要根据这个网格的重要性来确定）。显然，这是一项非常艰巨的任务。如果想减少在描述语上的工作量，就必须在描述语质量上下功夫，要尽可能减少描述语“入库”和“数据验证”这两步的淘汰率。

4 描述语的“Can-Do模式”及语言规范

4.1 描述参数分类

我国英语能力等级量表的细分目标语言能力，也叫描述参数，主要包括3个类别：

（1）典型语言特征：对语言行为或语言运用特征的一种概括性描述，主要适合于语法和语用（即语言知识运用概括性特征），同时也适合于听、说、读、写、译。例如，在口语、写作中，就会对语言输出的流利性、词汇丰富性、得体性等语言行为特征进行概括性的描述。而听和读则是要描述所能处理的输入文本的特征，例如文本的词汇、句法等语言难度特征，或话题、知识领域、文体类别等语言知识以外的其他认知思维难度特征等。翻译更复杂，不但有语言输入，还有语言输出，同时还牵涉到两种语言的译入与译出。因此，要遴选出有限的几个最具典型意义又最重要的特征描述参数，绝非易事。

（2）典型语言活动：主要适合于听、说、读、写、译。英语交际的语言活动是不可穷尽的，典型活动就是那些我们认为最重要的、最有实用价值（从交际功能看）的语言运用，最好是还具有较好“可外推性”，即，学会了这个活动类型，就能举一反三，触类旁通。例如，写作中的写信（含E-mail）、写学术论文，听力中的听广播、听报告、听英语对话等，都是非常重要的语言活动。如何才能筛选出最典型的语言活动呢？一靠经验判断，二靠理论分析，三靠社会调查。

（3）典型语言策略：主要适合于听、说、读、写、译。一般认为，语言策略运用主要包含在语言活动中，它可以合理调配认知资源，以最完美、最经济、最有效地完成交际任务。语法、语用知识的运用当然也会有策略，但一个策略是否重要到可以进入量表，需再三斟酌。

4.2 描述语的语义结构

全部描述语的“语义结构”都要参照“Can-Do模式”，所谓Can-Do模式，可以分这样几层来理解：

（1）Can是指一种完全的掌握或者熟练状态，没有程度的问题，否则就要降一个等级去描述。因此，我们说Can-Do模式不是靠程度副词来区分等级，而是靠“用语言能做不同的事情”来区分等级（再次强调等级之间并不描述相同的语言行为）。不过，也不要死板地认为，描述语在任何句法位置上都不允许出现程度副词，只是不靠它来区分等级而已。另外，要尽量回避使用那些意义模糊的程度副词。

（2）Do是一个认知动词，不同的认知动词显示一个人语言能力等级的高低，或者说这个人能用语言完成交际任务的难度，因此使用不同的认知动词就已经体现了等级差异。这里可以运用布鲁姆教育目标认知分类理论[6]，把语言的学习和掌握大致可以划分为3个基本的认知层次：识别/提取、概括/分析和批判/评价，每个认知层次都有对应的认知动词。所以，听、说、读、写、译等不同语言能力在不同等级上所使用的认知动词会有很大的不同，而且这些认知动词还必须通俗易懂，彼此之间差别明显（对语义差别不大的认知动词最好只选用其中最好懂的那一个）。韩宝成教授多次提出“CEFR没有明确定义Do的内涵”，现在，我们提出这么理解Can-Do描述，主要就来自他和王淑花的思想[7]。

（3）Do后面是一个要处理的“文本（Text）”，不同的文本描述也显示了这个要处理的“交际任务”的难度，它和认知动词相互配合，体现量表纵向上的等级差异。笔者认为，不要把“文本”的变化设计到量表的横向目标语言能力分类中去，一个变量不可能既在横向又在纵向同时都作为变量，厘清这一点非常重要，否则量表会杂乱无章，不堪其繁。影响文本难度的变量有文本的“话题，语速语调（语音文本），体裁，学科领域”等。因此，从语义结构上看，描述语的这个文本说明语段里可以包含有很多限定成分，可以限制话题，限制题材，限制知识领域，限制语速等，有时还可以对全句有条件限制——主要是限制语境。

（4）在典型语言行为特征描述和典型语言活动与策略描述中，Can-Do描述的表达方式可能会稍有不同，前者可以对语言行为特征进行直接的描述，并不一定要出现“能做”这样的字眼（有时给人感觉是在描述“做的怎么样？”）；后者则是一个标准的能做描述语语义结构。

（5）描述语的句法形式可以非常灵活，而且尽可能口语化。笔者不主张设定一个统一的“句法格式”来规范全部描述语，那样会让描述语失去多半的生气和活力。

为了更好地理解Can-Do描述语的语义结构特征，笔者随机抽取CEFR的几个交叉网格内全部描述语[8]，做如下说明：

例1.CEFR“语法能力（grammatical competence）”量表，参数类型是“语法知识”，B1级，共用了3条描述语，如下：

①在熟悉的语境下能比较正确地表达。

②虽然明显受母语的影响，但总体看，语法掌握尚好。

③语法有错，但基本意思清楚。

这3条描述语描述的是B1级的人在全部语言行为中对语法知识运用的典型特征（概括性描述）。句①是个简单句，对语境进行了限制。句②、句③没有出现“能做”字样，都采用了复句结构，以便于补充说明（含有部分否定语义）。

例2.CEFR话语能力量表：“话轮掌控（turntaking）”，参数类型是“语用知识”，B2级，共用了4条描述语，如下：

①能在讨论中用适当的方法和适当的语言介入。

②能有效遵守“话轮”顺序，知道如何得体地开始讲话、展开话题和结束发言。

③知道选择适当时刻开始讲话或者插话，并能在需要时结束发言，尽管有时显得不自然。

④知道使用固定表达法，如“这不是一个简单问题”，以赢得思考时间，把持话语权。

这4条描述语描述的是B2级的人在全部语言行为中语用知识运用的典型特征（概括性描述）。出现了“能做”字样：“能介入”，“能遵守”，“知道”等。

例3.CEFR听力量表：“听广播和录音（listening to audio and recordings）”，参数类型是“语言活动”，C1级，只用了1条描述语，如下：

①能听懂绝大多数录音盒电台播音材料，即使语言不标准也无妨，能捕捉到一些微妙的细节，如对话人的言外之意和对话人之间的关系等。

使用了“能听懂”字样，紧接在后面的是要处理的文本描述：“绝大多数录音盒、电台播音材料，即使语言不标准也无妨”，再后面的两个句子是对前面的“能听懂”的补充说明，并且使用了举例法（部分肯定），目的是让描述语的语义更加清晰。

例4.CEFR理解策略量表：“发现线索并推理（identifying cues and inferring（spoken&written））”，参数类型是“语言策略”，B1级，用了2条描述语，如下：

①对自己专业和兴趣内的主题，能根据上下文猜认生词。

②对自己熟悉的主题，能根据上下文立即猜词悟义。

出现了“能做”字样：“能猜认”等；并有一定的条件限制：“根据上下文”；对要处理的文本主题也进行了限制：“对自己专业和兴趣内的主题”和“对自己熟悉的主题”。

4.3 如何编辑、修改和撰写描述语

首先，全部描述语都要有一个共同的“语义结构”，即Can-Do语义结构，而描述语的“句法结构”则可以非常自由（单句、并列句、条件复合句等复句类型均可）。一般来说，通过社会调查得到的来自一线教师和用户所使用的描述语，句型会非常丰富。再次强调一下，笔者认为并不需要专家再来强行改写为某种统一的句法结构，那样反而有损其通俗性和生命力，专家要审核和修订的是其语义结构是否符合Can-Do描述语范式和一些其他语言规范。

描述语除了要符合Can-Do语义结构外，还需要遵守一些语言规范。对于描述语的语言规范，North的博士论文[9]和杨惠中教授的国家社科基金项目成果专著[10]中都对此进行了很好的归纳和论述，主要包括：

①使用肯定描述：描述语要使用肯定句，但是可以包含部分否定，也可以列举——即部分肯定（参见例2的③、④，例3的①）。

②满足单维性假设：一句描述语只描述一种目标语言能力。单维性这个概念本来主要是一个心理测量学上的概念，它对于随后的Rasch模型数据分析非常重要。我们务必要区分开“心理统计学上的单维性”与“心理语言学上的单维性”之间的差异，有时，统计上满足单维假设，语义上却可能是一个“复合型的语言技能”，比如“听写能力”就可以包含听力理解、概括能力和语言表达能力等多种心理成分，描述语也因此会很长，在这种情况下，我们不能认为描述语不符合单维性的要求。

③满足独立性假设：指描述语彼此之间既不相互依赖也不相互矛盾，一条描述语就可以独立作为教学目标，不一定非要参照其他指标。独立性和单维性是相辅相成的，一般来说，满足了独立性，自然就满足了单维性。

④语义清晰、通俗易懂：这个要求很容易理解，就是描述语要让广大的教师、学生、教育机构的工作人员、普通老百姓都能看得懂。

总之，为了保证量表的质量，描述语库在经过专家审核和数据验证后，剩下的都是最好的描述语。为了达成这个目标，笔者认为，在审核、编辑、撰写任何一条描述语时，必须要做到：

①心中要有清晰的英语能力构念：即量表的每个“目标语言能力”的表述一定要为大家准确理解，并且烂熟于心。

②心中要有清晰的“学生语言行为表现”作为描述对象：一条描述语是为哪一个层级的、什么样的学生写的要清清楚楚。我们不能为想象的客观上不存在的学生写描述语，因为既然是测量，其对象首先要客观存在，否则量表就纯粹是规定性的。如果只凭想象工作，结果将不可预料。所以，笔者认为“采样法”是最可靠的描述语收集方法，尽管成本高，可能无法大面积实施，但做一些试点研究还是非常有必要。

③心中要有清晰的描述语的Can-Do语义结构：每一条描述语所描述的都是学生的“语言行为表现”，因此其语义结构要符合前述Can-Do描述模式，而且语义具体、清晰，符合总的英语交际语言能力模型。

5 描述语中的社会文化和意识形态问题

我国英语学习者的英语能力是一种“外语交际能力”，即中国人用英语来参与国际化交际活动的“英语运用能力”。项目要有意识地构建关于中国英语能力量表的话语体系，即，用中国的语言、中国人的思维方式和价值观来阐释关于中国英语能力等级量表的一系列观点和方法。中国是一个独立主权国家，中文（普通话）是唯一官方语言。当代中国社会文化格局的主要特征是“一主多元”，即，我们坚持的是“主流文化主导与多元文化并存相统一”的原则，具体说，就是我们要发挥“社会主义核心价值体系”在“和谐文化建设”中的引领和主导作用。这种政治与文化观与美国、加拿大和欧盟的“多元文化多元语言观”有很大的区别，也是英语等级量表建设中最主要的意识形态问题。显然，这些问题已经超越了语言的工具性层面，更多的与语言的内容有关，所以，我们绝对不能在“描述语本身的内容”和“描述语对英语学习内容的规范”这两点上犯意识形态方面的错误。（本文的很多思想是在“中国英语等级量表”项目综合组的集体讨论中以及笔者与项目组专家广泛的交流中形成的，文中虽有所注解，但难免挂一漏万。高霞、荣丽以及教育部考试中心量表项目工作组的同志为本文的文献资料准备和整理工作付出了辛勤的劳动，同时也提出了很多宝贵的意见，在此一并表示衷心感谢！)

[1] 高靓.我国首个国家外语能力测评体系建设工作正式启动[N].中国教育报，2014-10-31（1）.

[2] 教育部考试中心.中国英语能力等级量表工作手册[R].北京,2014.

[3] 韩宝成.国外语言能力量表述评[J].外语教学与研究，2006（6）：443.

[4][8] Council of Europe.Common European Framework of Reference for Languages:Learning,Teaching,Assessment[M].Cambridge:Press Syndicate of the University of Cambridge,2001.

[5][9] North,B.The development of a common framework scale of language proficiency[M].New York:P.Lang,2000.

[6] Bloom,B.S.,Engelhart,M.D.,Furst,E.J.,Hill,W.H.,&Krathwohl,D.R.Taxonomy of educational objectives:The classification of educational goals.Handbook 1:Cognitive domain[M].New York:David McKay,1956.

[7] 王淑花.中国学生英语理解能力量表的构建及验证研究[M].北京：知识产权出版社,2012.

[10] 杨惠中,朱正才,方绪军.中国语言能力等级共同量表研究——理论方法与实证研究[M].上海：上海外语教育出版社，2012.