计算机辅助英语听说测试任务研究
——以新托福、培生学术英语考试听说测试为例

2022-07-14 07:16赵剑楠

考试研究 2022年4期

赵剑楠

一、引言

听力理解和口语表达是英语语言运用中的两项关键能力。虽然在日常的英语教学与学习中，人们十分重视对听说技能的培养，但相较于读、写能力而言，成效却并不显著，部分原因在于当前暂时缺少合理的测试手段。测试的后效作用（wash back）不突出，导致英语教学中“轻听说，重读写”的问题愈发严重，阻碍了英语学习者语言水平的进步与发展。

计算机辅助测试（Computer-aided Testing）以其独特优势弥补了纸笔型及面试型测试的部分不足，通过技术手段实现了英语听、说能力在考查形式层面的结合。目前，这种测试形式已应用于我国的中高考英语听说测试、大学英语四六级口语测试等国家级考试之中，对英语学科的教学评价以及英语学习者的语言提升起到了积极的导向作用。

测试任务是测试构念的体现，同时也是测试信度与效度的保障。新托福和培生学术英语考试是两项典型的机助英语测试，积累了较多的实践经验，受到多个国家及地区的认可。本文对计算机辅助英语听说测试的概念、优势及应用进行简要介绍，并结合交际语言测试理论（Communicative Language Testing）对上述两项测试在机助背景下设计的英语听、说任务加以详细分析，以期为英语听说机考的开发者提供参照。

二、计算机辅助语言测试的优势及应用

计算机辅助测试指利用计算机协助进行测试的一种方法，其在语言测试方面的应用被称为计算机辅助语言测试（Computer-aid language testing），简称CALT。与传统的纸笔型或面试型语言测试相比，CALT 具备五项优势，即（1）受时空环境影响小，测试便捷度高；（2）指令说明规范，测试公平性强；（3）计算机能够通过其强大的信息加工技术适时调配诸如图片、音效以及视频等多模态（multi modality）语篇，充分还原语言任务的交际情境，为受试者提供更为丰富的语境信息，较面试型测试更加灵活真实；（4）自适应语言测试（Computerized Adaptive Testing）实现了计算机与受试者输入的实时互动，且计算机能够根据受试者的信息反馈派发与之相匹配的测试任务，以此形成更为动态、高效、精准的测试方式，较纸笔型或面试型语言测试具有更高的信度与效度；（5）自然语言加工技术实现自动化评分，评分灵活性与准确性高[1]。

目前，CALT 在英语听说能力测试方面的应用十分广泛。一般而言，英语听力能力的检测常与纸笔型测试结合进行，而口语方面则多采用面试型测试的形式展开检测。两种不同的考查形式使得英语的听、说能力独立存在，语言的输入与输出环节孤立呈现，不符合语言运用的规律，同时也无法反映受试者真实的语言能力水平。此外，面试型测试还存在着诸如组织复杂、人力物力成本高、测试信度效度不够稳定等问题。CALT 在一定程度上弥补了纸笔型与面试型测试的不足，通过技术手段做到了视、听、说的交互结合，实现了语言输入与输出在考查形式上的统一。计算机辅助下的英语听说测试任务完整性高、综合性强，加之图片、视频等多模态语篇的融入，使得受试者能够在更为真实的语境下展现自身的英语听说能力，有助于提高测试的效度。此外，CALT通过“人机互动”的方式留存受试者的音谱信息，形成“语音证据”，可供机器或人工评分员进行多次评审，大大提升了测试的信度。

三、新托福、培生学术英语考试听说机考任务设计介绍

新托福和培生学术英语考试是两项典型的计算机辅助语言测试。两项测试均对受试者英语的听、说、读、写能力进行了比较全面的考查，信度、效度较高，是衡量受试者语言能力水平的较为权威的测试，测试成绩得到多个国家及地区的认可。这两项测试之所以能够比较精准地反映受试者的英语语言能力水平，关键在于测试开发者对测试任务的科学设计。任务的设计离不开诸多方面的考虑，包括施考形式、测试构念、考查目标以及评分方式等因素。本研究聚焦于新托福和培生学术英语考试的听力理解和口语表达两个板块。

（一）测试项目简介

托福全称为“对非英语国家留学生的英语考试”（Test of English as a Foreign Language），是由美国教育考试服务中心（ETS）研发的学术英语语言测试，其成绩可用于本科及研究生阶段的院校申请。2005年9月，托福采用网考形式，新托福由此诞生。目前，新托福已成为全球100多个国家6000多所大学认可的标准化语言测试。培生学术英语考试由培生教育集团开发，是标准化的出国留学移民类英语语言能力考试。测试作答及阅卷评分均在计算机上完成，全程无纸化。培生学术英语考试目前已获得美国、英国、加拿大等多个国家及地区的认证。

值得说明的是，虽然新托福和培生学术英语考试均为计算机辅助语言测试，但均未采用近些年流行的自适应性测验形式。两项测试均为常规的计算机化测验，各受试者所作答的试题内容一致。两项测试在施考形式上具有较高的相似度，可比性强。

（二）测试构念、能力目标及任务类型

测试构念（Construct）指测验所测量的概念或特性。新托福基于交际语言测试（Communicative Language Testing）理论（由语言能力、策略能力及心理-生理机制构成）进行开发，旨在反映受试者在学术语言任务环境下的真实语言能力[2]。培生学术英语考试在测试任务类型的设计上也同样体现了交际语言测试理论的内涵。两项测试均属于水平性测试（Proficiency Test），主要功用是为申请留学、移民的人群提供鉴别英语能力水平的凭证。两项测试在听说方面的测试构念可大致理解为：测量受试者在学术环境中，理解口头语言与有效交谈的语言能力、策略能力以及心理-生理机制等。

对于理解口头语言，即听力能力，新托福以选择式回答（selected responses）任务为主，包括单（多）项选择、语意搭配等。相较之下，培生学术英语考试的任务类型则更为丰富，融入了诸如听后总结等建构式回答（constructed responses）的任务。此类任务不仅考查了受试者的听力能力，同时还反映了受试者理解主旨、识别要点、思维逻辑、语言组织等层面的技能。在考查受试者有效交谈，即口语表达方面，两项测试均借助CALT 计算机技术将听、说、读等语言能力进行整合，以观点讨论、回答问题、图像描述等综合性较强的口语任务为主。语言情境方面，多为常见的日常生活、校园学习和学术交流等内容。与此同时，两项测试在进行听说考查时，还融入了不同区域的差异化英语发音和诸如图像、表格等多模态语篇，以此保证测试的相对真实。

表1 新托福与培生学术英语考试听力及口语任务细目表

（三）评分标准及成绩报告

新托福听力采用机器评分，口语方面则通过评分员远程集中盲评的形式进行。评分员在评分开始前均需接受统一的训练与严格的考核，以确保充分理解评分标准，保证最终评分质量。培生学术英语考试全程采用人工智能评分，机器深度学习算法后对受试者的听、说任务作答情况进行评价。

听力评分标准方面，新托福听力以客观性任务为主，机器依照任务的既定分值进行赋分即可。相较之下，培生学术英语考试的听力任务更为多样，评分办法也相对复杂。例如，在多项选择题中，受试者如存在误选情况，则会进行分数的倒扣；涉及听、写能力相结合的建构式任务，还需视受试者的具体作答情况，制定相应的容错机制。

口语评分标准方面，新托福采用综合法（Holistic Approach）评分办法，对受试者完成测试任务的整体情况进行打分。各口语任务分别设置5 个分数档位，且各档均附有整体描述（General Description）、内容传达（Delivery）、语言使用（Language Use）以及主题发展（Topic Development）四个维度的描述，以帮助评分员进行评判。培生学术英语考试则采用分析法（Analytic Approach）评分的方式进行，其评分依据为培生教育集团自主研发的全球英语水平测量标准（Global Scale of English）[3]。计算机对受试者完成各项口语任务的内容（Content）、发音（Pronunciation）、流利性（Oral Fluency）等维度进行分析并赋分，最终合成该任务的整体分数。虽然培生学术英语考试采用全机器评分，但其评分结果同人工评分有着较高的一致性。研究显示，培生学术英语考试口语人工评分与机器评分相关度高达0.96，口语部分整体信度为0.91[4]（Pearson，2009）。

成绩报告方面，新托福除报告受试者整体成绩外，还会相应显示受试者在听、说、读、写四个方面的分项成绩。培生学术英语考试的分数报告则更为精细，共包含三个板块，即考生信息、总体得分、能力分析等，每一板块都通过文字或图表的形式对受试者的作答情况进行解释与说明。

四、新托福、培生学术英语考试听说机考测试任务分析

（一）充分利用CALT优势，语境真实，任务丰富

相较于纸笔型和面试型测试，CALT 具有独特的优势，这些优势为英语听说能力的科学测评提供了条件。新托福、培生学术英语考试听说测试充分利用CALT技术，提高了测试的真实有效性。

语言测试的“真实性”通常指测试任务与目标语在真实情境中语言使用的吻合程度，是影响测试效度的重要因素[5]。以英语口语测试为例，基于“人人交互”的面试型测试虽能直观地反映出受试者的语言能力水平，但因考官固化的“话术体系”，受试者机械的“作答模板”，以及程式化的“一问一答”流程，并非完全贴合现实生活中的交际环境，存在着一定的“非真实性”弊端。结合语言测试学的认知效度理论，测试的设计和开发应充分考虑受试者在真实语言使用环境中所经历的认知过程，并尽可能使受试者在完成考试任务时经历相似的认知过程，以支持测试分数的解释和有效使用[6]。新托福与培生学术英语考试口语测试除在话题选材方面保证了相对真实外，两项测试还充分借助CALT 的技术优势，融入了诸如独立语篇、连续文本、图片表格等多模态语篇用于口语能力的考查，拓宽了受试者的信息输入渠道，丰富了受试者的作答形式，在一定程度上缓解了面试型测试存在的问题。同时，CALT 下的英语听说测试也充分反映了当下日常交际的“新形式”，即随着信息技术的不断发展，除单一的人际交往外，人类同各种形式的“多模态因素”的沟通互动也变得愈发密切。

语言使用任务通常指在特定的情境中，个人为实现特定目标而使用语言完成的具体活动[7]。基于CALT 技术的两项测试在语言使用任务的设计方面各具特色，且类型十分丰富。对于英语听力能力的测量，以往多以纸笔型测试的形式进行考查。为便于在纸质卷面上进行呈现，英语听力测试主要以单（多）项选择等客观类测试任务为主。此类测试任务十分经典且优势突出，但单一的任务类型仅能反映受试者有关听力的个别能力，并不能全面体现受试者使用语言而达成的特定目标。借助CALT技术，新托福与培生学术英语考试在听力任务的设计上加以创新，增设了诸如排序、搭配、标记以及听后写作等任务，极大丰富了听力测试的任务类型，受试者也基于不同的任务类型表现出了更为全面而多样的语言能力，起到了有效交际的效果。

（二）遵循交际语言测试理论，注重英语听说能力的整合性考查

新托福与培生学术英语考试的听说任务均反映交际语言测试理论的理念与内涵。20 世纪90 年代，语言测试学者Bachman 提出“语言交际能力”这一概念，并指出语言交际能力就是把语言知识和语言使用的情景结合起来，创造并解释意义的能力；该理论主要由语言能力（语法能力、语篇能力、功能能力、社会语言能力）、策略能力（评估、确定目标、制定计划、实施）和心理-生理机制三个部分构成[8]。

长久以来，多数语言测试受结构主义（the Structuralism-Psychometric Approach）影响，认为整个语言系统可以解构为若干个细小的语言单位，如语音、语法、词汇等，且可进行单独测量[9]。基于这一理论，以往的英语听说能力测量简单地划分为“听”与“说”两个独立的板块，单一且割裂。但随着语言研究的不断深入，人们开始意识到，在语言学习的过程中，除应掌握各类不同的语言知识外，还应具备综合运用各项语言技能的能力。新托福和培生学术英语考试遵循交际语言测试理论，其听说测试强调受试者通过灵活运用听、说技能解决实际问题的能力。以新托福的某一口语任务为例，该任务要求受试者先在规定时间内阅读一篇语篇，阅读完成后听取一段相关主题的音频，最后结合所阅读的语篇及收听的音频，口头回答一个问题。根据交际语言测试理论，本题所反映的相关能力如图1所示：

图1 基于交际语言测试理论的新托福某口语任务设计分析

该测试任务设于新托福的口语测试部分，所考查的目标自然以受试者的口语表达能力为主。但经过分析，该任务在测量受试者口语能力的基础上，通过CALT 技术将英语的读、听、说等语言技能进行整合，对受试者的语言能力、策略能力以及心理-生理机制进行了全面而综合的考查，形成了从语言输入到输出的完整闭环。作答该任务时，受试者首先需依靠语法、语篇、社会语言等语言能力阅读语篇；再次，受试者通过听力能力收听音频，获取更多的内容信息；最后，受试者通过逻辑评估、目标计划等策略能力进行内容整合、逻辑梳理、语言组织并最终形成口语输出。与此同时，受试者在话题内容、素材情节等任务元素的引导下，势必会激发出其内在的心理-生理机制，由此表现出不同层面的语言或非语言能力，形成独有的“自主性”反馈，而这也真实反映了人们在实际语言交际过程中所经历的心理、生理变化。基于交际语言测试理论的测试任务充分调动了受试者有关英语听说方面的各项能力，符合语言交际与使用的规律，在一定程度上缓解了原结构主义语言测试存在的问题。

（三）基于不同评价理念的评分办法，成绩报告反拨作用强

新托福与培生学术英语考试均采用机评方式对受试者的听力作答情况进行评阅。口语方面，因其测试任务开放性大，受试者作答主观性强，一直是英语测试评分中的难点。因此，选择恰当的评分方式，制定合理的评分标准则尤为关键。新托福和培生学术英语考试基于不同的评价理念，在口语评分的评分方式、评分办法以及评分标准等方面各有不同，具体情况如表2所示：

新托福采用多人参与的综合法评分办法对受试者的口语能力进行评价。评分员通过对受试者完成测试任务的整体情况进行打分，较为宏观，注重受试者的综合语言运用能力。培生学术英语考试则采用机评下的分析法评分方式对受试者的口语能力进行评价。通过对受试者口语表达的内容、发音、流利性等微观维度进行赋分，较为细致，注重对受试者语言使用的不同侧面进行评价。不同的评分方式及办法也侧面反映了两项测试口语任务的不同特点：以人工综合法评分为主的新托福侧重受试者的整体交际效果，故其口语测试任务的开放性更大；而以机器分析法评分为主的培生学术英语考试侧重具体语言知识，故其口语测试任务的语言技能针对性更强。

两项测试在考后都为受试者提供了细致全面的成绩报告。以培生学术英语考试为例，其成绩报告一般分为三个部分，即受试者信息、总体得分以及能力分析。其中，总体得分是对受试者整体表现的评价，除显示分数外，还附有详细的文字说明。能力分析部分则分为交际技能分（Communicative Skills Scores）和语言运用技能分（Enabling Skills Scores）两个维度[10]。前者是对受试者听、说、读、写能力的评价，后者则是对受试者语法、口语流利程度、发音等具体情况的解释，由粗到细，为受试者的语言能力提供全方位的评价。此外，培生学术英语考试还深入开展分值的对标研究，通过自主研发的全球英语水平测试标准，精细化分数标准颗粒度（10-90 分），同欧洲语言共同参考体系、雅思、新托福等国际重要语言标准及测试进行对接，以帮助受试者更加全面而精确地预估、比较自身的语言能力水平。

五、计算机辅助英语听说测试任务设计的启示

（一）借助机考平台技术优势，保证测试任务的多样性与情境的真实性

计算机辅助测试是语言测试形式的一大发展。该测试形式不仅延续了纸笔型与面试型测试的各项特征，同时还具有一些独特的优势，即通过技术手段实现了上述两种测试形式所无法呈现的内容。这不仅为英语听说测试的开发提供了有利条件，同时也为英语听说任务类型的丰富提供了良好的契机。测试开发者应充分借助计算机辅助语言测试的技术优势，打破固化测试思路，勇于创新，力争从单一的任务类型向多元的建构式任务进行转变。这种转变不仅能够缓解原诸多英语听说测试中仅对个别能力进行检验的弊端，同时还能够反拨受试者英语听说能力的全面发展。此外，测试开发者还应充分考虑受试者的语言交际实际，结合认知效度理论，通过计算机辅助语言测试技术融入更加多元的多模态语篇，以进一步保障测试的真实性与有效性。

（二）基于语言的交际功用导向，注重英语听、说能力的整合性考查

受结构主义测试影响，在以往的英语测试中，各项语言能力与技能通常进行分项、独立考查。这种测试方法虽能直观地检验出所要考查的目标能力，但却具有一定的弊端，造成众多英语学习者虽能够熟练掌握诸如语音、词汇、语法等语言知识，但却无法将这些技能整合，用英语进行自如表达，其部分原因就在于对整个语言系统的割裂化认识。在语言运用的过程中，各种语言技能往往不是单独使用的，理解性技能（听、读）与表达性技能（说、写）可能会同时存在。因此，测试开发者在进行英语听说测试任务的设计时，应以语言的交际运用为导向，结合交际语言测试理论，通过计算机辅助语言测试技术将有关英语听力与口语的能力进行整合。在考查语言知识的同时，设置一定比例的综合性语言任务，调动受试者的语言能力、策略能力以及心理-生理机制，以此激发受试者通过运用语言解决实际问题，实现有效交际的能力。

（三）确定合理的评分办法，突出测试的诊断反拨效果

英语口语评分通常包括分析法评分和综合法评分两种办法。分析法评分注重语言使用的不同侧面，侧重语言的具体知识与技能。综合法评分强调受试者的综合语言运用能力，侧重受试者完成语言任务的整体情况。测试开发者应结合具体的测试目标选择相应的评分办法。此外，测试开发者还应关注成绩报告的设计。目前，国内大部分的英语测试仅向受试者报告其最终分数，受试者对自身语言能力的认识并不清晰，测试对语言学习的指导意义不强。测试开发者可以参考本文中两项测试的成绩报告设计思路，优化成绩报告的内容维度，对受试者掌握各项语言技能的情况进行详细说明，帮助受试者进一步明确需加强的重点，真正起到测试的诊断与反拨作用。

六、结语

计算机辅助测试在语言测试领域中的应用愈发广泛。其独特优势为英语听说测试的开发与实施提供了良好的条件与契机。新托福与培生英语考试是两项较早基于计算机辅助测试开发的考试，积累了较多的实践经验。本文聚焦上述两项测试的英语听说部分，对其测试开发理念、测试构念、任务类型、能力目标、评分方法等方面进行了细致探究，并提出了在当今计算机辅助测试的热潮下，英语听说测试任务设计与开发的思考之处，以期为相关测试的开发者提供参考。

计算机辅助英语听说测试任务研究——以新托福、培生学术英语考试听说测试为例