国际居家语言测试的研究与展望

2022-07-14 07:16李群锋
考试研究 2022年4期
关键词:居家考试测试

肖 媛 李群锋 董 彬

新冠肺炎疫情是百年来全球发生的最严重的传染病大流行。为有效抗击疫情蔓延,世界各国政府不得不关闭教育机构,面对面的聚集型教学与测试被迫中断。世界教科文组织统计,2021 年5 月全球仍有近一半的学生受到教育中断所带来的影响[1];与此同时,在线教育的占比正在逐渐扩大。此次疫情对于全球教育业态的影响是深远的。正如Gacs 和Chapelle所言,“我们已经到了在线教育、语言测试实践的分水岭时刻[2-3]”。为了迅速适应这种变化,2020年初,许多国家的教育组织从面授改为远程教学[4]。多家国际知名语言教育考试机构如美国教育考试服务中心(Educational Testing Service,ETS)、剑桥大学英语考评部(Cambridge Assessment English)、法国法语联盟(Alliance Française)和中国教育部中外语言交流合作中心(简称“语合中心”)的线下考试经历短暂中断后,在2020 年初相继推出了居家版语言能力测试,这一创新的考试形式使全球数千万语言学习者受益。居家语言测试对于恢复语言教育秩序做出了重要贡献,对语言测试业态变革与发展产生深远影响。

居家语言测试不是现有纸笔考试或网络考试版本的简单转化,其在考试技术、考试安全、考试公平、考试伦理等诸多方面都面临着独特的挑战。笔者以标准化的第二语言水平测试为研究对象,调查了9项居家语言测试,从内容、效力、技术、安保4 个角度分析居家考试的现状,在公平性、技术和安全3方面探讨面临的挑战,并对居家考试未来的发展进行展望,希望能为我国教育考试提供借鉴,并为不同利益相关者,特别是学习者、考试主办单位和院校提供参考。

一、国际居家语言测试的现状分析

广义上的居家考试由来已久,在独立空间单独进行的在线或非在线测试都可以称为居家考试。狭义上的居家考试则仅指由于本次疫情而导致的由线下转移到线上的有组织有计划的大规模在家进行的测试。疫情以来,居家语言测试一经推出便引起了学习者、使用者的广泛关注,但关于居家测试的研究尚比较少见,仅有Isbell 和Kremmel 对英语为主的几项居家测试的一项调研[5]。目前由于日语能力测试(JLPT)、韩语能力考试(TOPIK)、西语考试(DELE/SIELE)、德语考试(TestDaF/Goethe/ÖSD/ÖIF)等标准化语言测试仅在部分地区恢复了线下考试而尚未采用居家形式,使得调查对象的选择相对有限。在综合考虑影响力、语种分布及考生数量等因素的基础上,选择了领思考试(Linguaskill)[6]、托福居家版(TOEFL iBT®Home Edition)[7]、法语水平考试居家版(TEFExpress)[8]、雅思居家版(IELTS Indicator)[9]、HSK 居家版[10]、日语交流能力鉴定考试居家版(JLCAT)[11]、TOEFL®EssentialsTM[12]、美国外语教学学会ACTFL 居家考试TEP和Duolingo 9种测试进行分析[13-14]。

(一)国际居家语言测试的内容与形式

2020 年3 月到6 月,剑桥大学英语考评部、ETS等多家机构比较集中地推出了居家版语言能力测试。如表1所示,这些测试可分为四种类型:

表1 国际居家语言测试内容与形式

第一种是基于原有的纸笔或网络版本测试开发的居家版考试,一般试卷体例固定,可称为传统型居家 考 试,如TOEFL iBT®Home Edition、IELTS Indicator 和HSK,这些考试的内容、结构与线下考试完全一致,覆盖范围最为广泛,TOEFL iBT®Home Edition 在除了中国大陆和伊朗以外的地区开放;HSK 居家考试至2021 年5 月已覆盖全球96 个国家和地区,对原纸笔测试考点国家数的覆盖达64%。

第二种是针对疫情开发的新测试,多采用基于人工智能技术(AI)的多级远程自适应模式,如Linguaskill、JLCAT 和TOEFL®EssentialsTM,这些考试的题目和考试时长根据应试者的表现决定。有的还采用自由组合的模块式设计考查听、读、说、写各项语言技能,如Linguaskill,学习者可以根据需要选考或重考任意模块,满足了个性化和灵活性的需求。

第三种是根据已有测试开发的缩减版考试,仅在疫情期间使用,如TEF-Express只在2020年4月到9月间提供,题目数量和考试时间都缩短至TEF的一半(TEF 有阅读、听力、词汇与结构三项必考项目和写作、口语两项选考项目,Express 仅有阅读和听力两个测验)。

第四种测试是原本就被设计为B2B/B2C 形式的远程自适应考试,在疫情期间通过将原有测试组合或优化,升级为居家版考试,TEP 和Duolingo 属于这种情况。TEP 是美国外语教学学会开发的听说读写全技能集成性测验,实际上是将ACTFL 已有的口语OPIc、写作WPTc 和听读L&Ract 三项自适应考试汇集成一个测试,每项分技能测试单独进行。除了HSK居家版和TEF-Express外,其他测试都考查听说读写全技能。考试时长1到4小时不等。

(二)国际居家语言测试的分数与效力

居家考试的评分可分为有资质的评分员评分、自动评分和AI 辅助下的有资质的评分员评分三种形式。根据前一部分对考试的分型,传统型居家考试评分方式与线下考试保持一致,特别是口语和写作都由有资质的评分员评阅;自适应考试多为自动评分或自动评分与人工评分相结合。每项考试都提供分项分数和总分,有些测试还提供与不同标准的参照量表,如Linguaskill分数以剑桥英语分数量表形式呈现并对应CEFR;Duolingo 提供与CEFR、TOEFL iBT®和IELTS®Academic 的等级对应量表;JLCAT 提供了和日语能力考试(JLPT)以及CEFR 的对应量表;TEP 依据《美国外语教学学会语言能力指导大纲2012 版》(ACTFL Proficiency Guidelines 2012),对Novice 到Superior 各等级相应语言能力进行描述。考试结束后的2~14天即可查询成绩,见表2。

表2 国际居家语言测试的分数和认可度

关于考试效力,TOEFL iBT®Home Edition 和HSK 明确指出不同考试版本具有相同的效力;特别是HSK,其居家版并没有单独设置名称,各版本不作区分。雅思联盟则明确说明,IELTS Indicator 仅在疫情期间为因受疫情影响而取消雅思考试的地区开放,并非所有机构都接受居家版成绩,建议考生咨询相关单位后报考。为在疫情期间提升法语学习者法语水平而开发的TEF-Express 则与TEF没有可比性,Express 没有正式成绩单,考后2 天会收到一封关于考试结果的邮件,官网指出Express 成绩在作为入学和移民参考方面不能与TEF 进行比较,建议考试前咨询相关单位是否认可,目前Express 只被加拿大个别大学接受。Duolingo 和TEP 的认可度非但没有受到影响,反而因为其远程形式的先天优势在疫情初期扩大了市场份额。可见,因疫情而特别推出的新考试还在逐步被认可的过程中,这些新考试一方面依托于测试提供者的品牌信誉和丰富的测评经验,另一方面测试提供者也在推动新考试认可度向“旗舰”项目靠近上不断努力。剑桥大学英语考评部针对Linguaskill 提出了“以测促学”和“领军AI 测评”的理念,在测试的可靠性、灵活性、易操作性、快速生成结果、降低考生焦虑感等方面宣传其优势。ETS 则在其官网上从考试体验、设计、成绩、安全等方面将Essentials 与Duolingo、雅思学术类考试和PTE 学术英语考试进行对比,EssentialsTM在考费、考试便利、寄分服务、AI 辅助下的人工作业(出题、评分、监考)诸多方面展现出了不小的优势。在ETS 的推动下,90%的美国、英国、加拿大院校愿意接受EssentialsTM作为录取标准。但这些新考试推出时间还比较短,接受程度远不如传统考试广泛。

(三)国际居家语言测试的考试环境

各项居家考试对于考试环境和设备的总体要求差别不大。考场需要独立、封闭且安静,考场内需具备电脑、摄像头、扬声器和麦克风,一般不允许使用平板或手机,除非作为第二机位监考使用,如HSK(表3)。对于耳机的要求则比较多样,TOEFL iBT®Home Edition、JLCAT 和EssentialsTM、Duolingo 禁止使用耳机,考试过程中面部及耳朵需要清晰可见,Linguaskill则要求使用包耳式耳机;HSK 禁止使用蓝牙等无接线耳机,TEP 则建议使用无线的USB 数字耳机。Windows 操作系统比MacOS 更为普遍,一般64 位Win7 及 以 上 可 满 足 要 求,Google Chrome 和Firefox 是较为常用的浏览器,网络带宽基本要求是1Mbps。由于远程应用软件存在将考试机链接至第三方设备的风险,出于考试安全的目的,部分考试中,TeamViewer、Apple Remote Desttop、向日葵等远程软件被禁止使用。

表3 考试环境要求

(四)国际居家语言测试的安保措施

各项居家版测试所采用的安保措施不尽相同,可归纳为监控和使用指定程序两种手段(表4),监控包括考前核验身份、考中远程监考和考后抽查三种。值得注意的是,除了真人远程监考外,生物识别技术和人工智能辅助手段在监控中也有所应用,雅思采用生物识别技术进行“人证”比对来确认考生身份,并在考后借助人工智能对考试过程和结果进行审查;JLCAT 采用了人脸识别和语音识别技术;Duolingo 自动巡航监控可辨析考生75 种以上的行为,为监考老师判断不当行为作出提示。使用指定程序方面,Linguaskill、TOEFL iBT®Home Edition/EssentialsTM、IELTS Indicator、HSK、Duolingo均要求应试者安装专用的考试客户端,这些考试客户端通常设有页面前置、禁用未授权程序、禁用鼠标右键和键盘快捷键等功能。TEP、HSK和托福还启用了远程监考程序,这些远程程序中一部分是侵入式的,即安装在考试机上,监考老师可以远程操控考生电脑,TEP和托福就属于这种情况;还有一种是非侵入式的,远程程序安装在第二机位上如HSK。远程软件通常由第三方平台提供,包括ZOOM、LogMeIn Rescue、腾讯会议等,并非是专门用于居家测试的监控软件。ETS则将监考工作委托给了专门提供监考服务的第三方公司ProctorU,ProctorU 不仅提供平台还提供人员和技术的支持。TEF-Express 全程无监控,仅书面告知考生诚信考试并对考试内容进行保密。

表4 安保措施

二、国际居家语言测试实践的挑战与建议

疫情给线下考试带来了前所未有的危机,却为远程居家考试的发展迎来了重要机遇,也为测试研发人员重新思考语言测试的发展提供了有益启示。ETS 称居家考试会成为一个永久性的选项(permanent option),HSK 相关研发人员认为居家考试很可能发展为一种常规考试类型,而这种全新的考试形式在考试的公平性、技术和安全等方面正面临着不同于以往线下考试的独特的挑战。

(一)考试公平

在全球教育中断的时刻,许多语言测试不约而同地选择从线下转为居家,并且Linguaskill 和Duolingo还提供随时约考服务,这无疑对促进教育公平做出了重要努力。但同时,测试的公平性问题引发了利益相关者极大的担忧,并与测试安全和测试技术交织在一起。虽然一些测试的居家版试题与常规版并无差别,但许多单位并不认可居家考试成绩,在人们的观念中,在家进行的考试安全等级更低,而手写与键盘输入也存在难度差异,这些都有损考试公平,然而尚未见到任何语言测试机构发布的关于纸笔版、机考版和居家版不同版本考试是否具有相同的构念效度,以及不同版本测试之间分数转换和衔接的实证研究。测试公平问题并不限于此,还涉及考试的标准化。作为测试行业标准的《教育与心理测量标准》(Standards for Educational and Psychological Testing,简称“标准”)在其2014版中对测试过程中的公平性问题(Fairness in Treatment During the Testing Process)进行了讨论,从考试时长、考场、监考人员、安全程序的一致性方面做了详尽描述,包括为所有考生提供的设备具有相似的处理速度、所提供的图表具有相同的分辨率和尺寸等[15]。而居家考试在私人环境中进行,无论软、硬件设备还是网络条件都千差万别,无疑降低了对考试标准化的要求,从技术角度讲也存在引发考试公平争议的风险。此外,还涉及考试的可达性(accesssibility)。这是2014 版《标准》中新增的概念,可理解为考生在所测量构念上的表现不得因为任何无关特质而受到影响,对于一些特殊应试群体,如视障者,线下考试可通过提供盲文考卷、放大字考卷等,使这一群体能够更公平地获取考试内容,居家考试在特殊应试者个性化设置方面则受到了一定限制。为了更加顺利地推动居家考试的发展,居家测试研发单位应提高对考试公平性的认识,加强考试公平性的实证研究,形成科学的考试公平理论,以便提供更多的有力证据证明居家考试的公平性,这包括对不同版本测试效度的实证研究、不同版本测试的等值、是否应该建立单独的居家考试考生常模、不同环境中的应试者的认知方式和焦虑水平对成绩的影响等,这些议题都与考试公平密切相关,同时也应当尽可能通过技术手段消减因考试形式所带来的公平性隐患,保障所有学习者参加考试的权利。

(二)考试技术

技术要求也是居家考试直面的挑战之一。作为测试提供者,不仅要考虑服务器部署、并发压力等技术问题,还要充分考虑应试者所具备的实际条件。从以上调查的居家考试来看,居家考试对于考试环境和设备的要求大致相同,可以说当今全球初等发达及以上的国家和地区基本都能满足居家考试的实施条件,这为居家考试的快速扩展提供了可能。另一方面,居家版测试对于网络带宽有比较严格的限制,HSK 相对于其他考试,对上传和下载速度的要求是最低的,达到150Kbps 即可,其他考试则需达到512Kbps 或1Mbps 及以上;自适应考试以及通过音频、视频、仿真考官等形式交付的试题对网络带宽要求更高,这对于能否在经济欠发达地区和网络环境不稳定的情况下开展居家考试带来了挑战。第二,缺乏居家口语测试专用软件和居家测试监控专用软件。人机互动式口语考试通常只需要对考生回答进行录音、保存并回传至服务器,但遇到人与人远程面试型的口语测试,许多考试的做法是选择在第三方会议平台上进行,如雅思听读写在其考试专用客户端Inspera 完成,口语则选用通用型的会议平台Zoom暂时替代考试客户端。由于测试开发时间紧迫,目前许多考试的居家客户端某种程度上是原有机考版客户端的升级版本,居家测试监控专用软件也普遍采用第三方软件,如ProctorU,这对于考试安全和用户隐私保护形成了潜在威胁。考虑到居家考试很可能发展成为一种常规化考试形式,测试研发单位应当加大科研投入,提升居家考试技术水平。一方面,应及时收集和分析居家环境中所产生的新要求新问题,优化、完善现有系统的功能,自主研发适用于居家场景的考试和监控系统;另一方面,应加大人、财、物的投入和保障力度,支持技术不断更新迭代,使居家考试技术始终处于领先水平,进而维护测试的公平和安全。

(三)考试安全

除了上述两方面,居家考试的安全性也备受关注。从采取的安保措施分析可知,以上所调查的居家考试在维护考试安全方面都做出了巨大努力,严密的监控流程和专用软件能有效减少考试违规行为发生。然而,居家考试在考生熟悉的私人环境中进行,即便通过网络远程监控,有些行为也有可能逃过检测[16],如使用隐蔽的拍摄设备盗取试题、通过无线电接收器接收答案等。开发和使用测试的利益相关者一致认为,当考试或其他结构化评估出现某种形式的作弊或泄题时,分数的价值就会减少[17],使考试公平性受到损害[18]。居家测试提供者要强化考试安全观念,对居家考试安全进行系统设计。国际考试委员会(International Test Commission,ITC)制定的《考试安全准则》(The International Test Commission Guidelines on the Security of Tests,Examinations,and Other Assessments)指出,考试安全的顶层设计便是制定考试安全计划。居家考试也应该根据自身考试理念、目标、设计制定相应的《居家考试安全计划》,通过《居家考试安全计划》建立完备的居家考试安全体系。该体系应涵盖考试设计、开发、部署、实施、结果处理各关键阶段,具体包括:

1. 优化考试安全设计。基于大规模题库设计的自适应考试在控制题目曝光率、防作弊和防泄题等方面都表现出了一定优越性,Duolingo 称只有参加1000 次考试才能碰到相同的试题。传统考试也可以通过采用多套平行试卷(Multiple Equivalent Forms)、打乱题目和选项排列顺序的方式降低考试风险。另外,还可以优化题目呈现方式,如将文字题通过图片、音/视频结合的多模态形式展现也能增加泄题难度;

2. 加强考试安全教育。使测试研发人员、使用者、考生和第三方机构(院校、法院、雇主)出于法律和道德的要求,保障测试内容和结果安全,履行自觉维护考试权威的义务;

3. 强化作弊筛查机制。雅思和TEF Express 在考后通过人工或AI 对考试过程进行审查,笔者认为,除了审查考试过程的记录外,还应加强针对考试作答结果的作弊筛查,如雷同筛查、个体一致性筛查、短期多次应试筛查等。互联网的超时空特性使得一些人员利用时差进行跨国作弊成为可能,不仅要在相同国别、区域内查,还可以开展跨国家、跨时区筛查,深入研究不同作弊行为特点,不断优化作弊筛查机制,提升作弊防控甄别能力;

4. 通过加强考试违规行为违法证据采信的方式维护考试安全。需对监考人员进行摸底与培训,建立违规者黑名单,控制多次考试间隔等。建立主动的、前瞻性的居家考试安全体系,将有助于保障考试安全。

三、结语

由于居家考试的出现,语言测试的业态已经悄然改变,居家测试在未来或许会发展成为一种不可或缺的考试形式。希望对上述国际居家语言测试的调查和分析能为我国的教育考试发展起到参考作用。国际居家测试刚刚起步,正处于技术窗口期,我国测试研发人员应抓住历史机遇,积极投身研发工作,在居家测试这一新起点上增强我国教育考试的考试理念、考试理论、考试技术和考试产品的原创性、引领性,推动我国教育考试高质量发展。

关于居家测试的研究刚刚开始,许多议题都值得深入地思考和分析。如何提升居家测试的公平性、安全性和技术水平是一系列相当复杂的问题,每一个专题都需要投入大量精力进行深入研究和实践,需要语言教育、心理测量和计算机科学等不同领域的专家展开跨学科跨领域合作,本文仅提出一些浅见,希望能为测试利益相关者提供有益借鉴,未来笔者将进一步聚焦于居家考试的公平性开展实证研究。

猜你喜欢
居家考试测试
为您的居家健康生活 撑起一把保护绿伞
幽默大测试
居家好物,为你打造更浪漫的家
staycation居家假期
“摄问”测试
“摄问”测试
“摄问”测试
微生高的往事
Japanese Artificial Intelligence Robotto Take Entrance Examinations
你考试焦虑吗?