中文评估的几种模式

2015-03-28 00:34李英哲
海外华文教育 2015年1期
关键词:受试者评估测试

李英哲

(夏威夷大学,美国 夏威夷96822)

本文从语文评估和评估目的的关系说起。评估内容一般当然针对评估目的而设计。一般语文评估有无针对性要看评估内容,评估形式,评分方式(discrete/ global),受试对象等方面(李英哲2000)。

本文谈到语文评估的几种主要模式:语文水平,语文进度/成绩,和语文混合评估(proficiency vs.achievement vs.prochievement.Domizio,Hsiu-huei Lin 1995 )。本文重心是语文水平评估的内容和形式,以及语文水平评估的发展模式。

通过数十年参与各地(美/新/中/港/台)语文评估/测试的经验,我总结自己得到的观感是:

(一)一般语文测试缺少考虑受试对象的背景和需要

我们应该认识真正公平的评估/测试不管是否和语文有关,最重要的是评估内容必需考虑受试者的社会文化背景。美国的托福英文测试,GRE,SAT 等测试在几十年中受到的批评是:它们对非西方主流文化背景的受试者不公平。

(二)语文测试的科学性和专业性有待加强

不但测试内容需要继续改进,就是测试形式是否能达到测试所宣示的目的都有很多疑问。不少标示考查语文水平的测试,需要检讨它们的内容和形式是否能真正考核语文实际运用中的交际/使用功能。这一方面反映需要训练更多的专业测试人员,另一方面反映我们对语文水平的定义有不同的解读。

(三)虽然很多语文测试者都认为他们测试目的主要为评估听、说、读、写的各种语文技能,但是各种技能的测试内容都可能偏重考核语音,语汇,和语法的准确性。

我们需要理解:虽然考查这些语文单位的准确性可以间接反映受试者的语文水平,但是真正的语文水平不能利用考查这些语文单位的准确性来直接反映受试者的实际交际能力。

(四)最理想的语文测试应该针对受试者的母语和社会文化背景

最近十几年在香港理工大学(陈瑞端2010,2012,祝新华2010,2012)和其他大学开发的普通话水平测试才是真正针对说母语(如粤语)者需要而设计的测试。在美国开发的中文能力测验(李英哲1983,1984,1985,1986,1987,1988),SAT2-中文,和AP-中文也是针对英语母语者设计的中文测试(姚道中2005)。

(五)网络和云端科技的发展还没有促使很多语文测试者开发真正的计算机自适测试computer adaptive test (CAT)(姚道中1995,1998,2001)。

虽然不少语文测试已经通过网络来让各地受试者使用,但是每个受试者所看到的内容仍然和纸本完全一样,考试的总时数也是每人固定的:120 分,150 分等。这不是真正的CAT。

本文依照:1 序言,2 语文评估和评估目的,3 中文评估模式:水平,进度/成绩,和混合评估,4 语文水平评估的发展模式,5 结语:语文水平评估的重点,进行讨论。

二、语文评估和评估目的

语文评估内容应该依照语文评估目的;这个观念应该说没有多大争议性。我们已经说了,一般语文评估有无面对评估目的的针对性要看评估内容、形式、评分、受试者等方面。我们先讨论最基本的评估目的。

讨论语文评估内容时,先需要讨论现在一般语文教学目标是什么?语文教学目标就是语文评估目的。我拿个人比较熟悉的美国最近情况来讨论。在全球华语热时期,美国大学理事会在完成SAT2-中文之后,数年前又决定推动AP-中文(姚道中2005,AP College Board 2008a/b)。

他们所订的中学AP-中文课程和测试内容是根据美国国家外语学习目标的5C(使用外语交际communication,体认外语文化cultures,连贯学习内容connection,比较语言文化comparisons,语文社区实践communities)来作一般准则(National Standards in Foreign Language Education 1999)。

美国国家外语学习目标对文化内容还有三方面要求,叫做外语文化的3P。3P (Perspectives,Practices,Products)其实就是一般人类学中研究各族群文化内容时常常提到的三方面:某族群的文化观念,文化活动,文化产物等。

美国国家外语学习目标中订定了学习某种外语时,需要同时学习:

(一)外语文化观念(Perspectives:例如信仰,价值观,思想,态度等);

(二)外语文化活动(Practices:例如风俗习惯,传统节日,社交礼节等);

(三)外语文化产物(Products:如文学作品,书画,口述故事,舞蹈,仪式,筷子等)。

这三方面的要求涵盖了一般人所熟知的各种文化内容,可是它们对特别是在美国中学/大学的华语文化学习目标并没有特殊指针性作用。3P 内容失于广泛笼统;仅显示美国外语教学对体认文化的重视。

不过,在这里我们也看到了很多语文教学目标中对实际交际能力和对双方文化的重视。序言中,我们已经提到现在各地开发的语言测试都有一些共同问题:缺乏社会文化背景针对性,缺乏综合交际能力针对性,缺乏语文水平内容针对性,缺乏测试形式针对性等。我们再讨论语文水平等问题。

三、中文评估模式:水平,进度/成绩,和混合评估

传统语言教学常只注意到学习者对语文内部的语音、语汇、语法等语言单位的吸收或对语言文化内容的理解。八十年代语言教学界开始从语文外部的宏观视角来观察和讨论一般语言学习或者习得的结果代表学习者获得了甚么能力。

新的宏观看法告诉我们:语文学习者的实际水平应该表现在特定的情境(和内容)里。他运用已经学会的各种语言单位,以及利用适当的语体来发挥某种语言功能时,我们才观察得到他的真正水平。因此语言功能,语言情境(内容),语言技能,语言体裁等经过综合观察后,才能比较恰当地评定一个学习者的语文水平。

语文水平显示在特定沟通情况中,而沟通能力则是适当的功能,情境(内容),技能,和体裁等的综合发挥。沟通能力的发挥也显示在学习者是否能实际完成某种特定的语言任务(linguistic task)。

语言功能一方面发挥在受试者于各种层次的叙述,请求,提问,说明,议论等语言能力,一方面显示在他是否能适当利用所学语文的各种语用习惯(包括称呼、问候、谢歉、谦辞、褒奖、隐私、禁忌等。(方丽娜2007)。

语言情境则需查考受试者在各种生活和工作环境里的表达/理解能力;这些能力显示在他是否能完成不同的诸如购买,交涉,遵循交通指示,阅读电器使用说明,委婉拒绝某种要求等语文任务。尤其在高等测试中需要考核不同专业语文的内容。

因此提供学生不同练习来完成日常生活中各种任务的教学法,在语言学习过程中特别重要。对于华语作为第二语言的美国学生,中文表达方式可能和英语相差很大,所以需要多给他们机会在真实的语境中,多练习理解和表达比较自然的语言。认识不同情境和文化也是理解华语内容的关键。

一般语文学习都使用不同教材;在各个学习阶段会显示不同进步情况:包括每课课文中所学到的内容,以及不同学习阶段所学得的语言单位。传统语言教学中考察学生对语音,语汇,语法等语言单位,在不同阶段的学习结果和掌握情况,就是语文进度测试或成绩测试。

语文混合评估即是语文水平和语文进度/成绩测试在各种程度的混合测试。当前很多标示语文水平测试的内容实际都是语文进度和水平的混合测试。初/中级语文学习者所显示的水平程度也是进度和水平的混合(prochievement)。

因为这些学习者在初始学习阶段有实际需要,尽量掌握所学语文的基本语音,语汇,语法等语言单位,而他的实际语文交际能力仍然十分有限,所以混合评估形式能够比较合理地测试他的有限语文程度。不过对中/高级语文水平的第二语言学生,如果要考核他的语文交际/使用能力,就应该尽量采取真正语文水平的测试内容和形式了。

四、语文水平评估的发展模式

我们已经提到在各种语文水平评估内容和形式的设计及开发中,各地测试者都在极力改进。本文想建议大家今后尽早朝计算机自适测试(CAT)模式发展(姚道中1995,1998,2001)。网络和云端科技的进步给了我们很大的发展空间。无论开发哪种语文测试(水平,进度/成绩,混合评估),计算机自适测试模式提供我们很大方便。

(一)它通过网络可以超越时空限制,提供给各地受试者使用

(二)它的开发,改进,使用等可以节省很多人力和物力(包括纸笔等)

(三)它可以让开发者随时随地修改测试内容和增减题库数量(题库数量越多,就越减少泄露测试内容之虞)

(四)它可以完全依照每个受试者程度和需要出题(即使同等级受试者也不会看到完全相同题目)

(五)它可以节省每个受试者实际考试时间(至少减半)

(六)新开发的测试可以很快地推广到世界各地

(七)它可以让测试开发者迅速做试测,分析,统计,测量等工作,改进测试的信度和效度。

计算机自适测试的好处实在不胜枚举。相信今后会有很多人朝这个方向发展;希望在座各位专家走在别人前面,希望中文测试的云端发展走在其他语文测试前面。

五、结语:语文水平评估的重点

假如大家同意本文对语文水平的定义,我们就可说真正语文水平评估的重点即是考核下列:

(一)语言水平考核在特定社会文化背景,以及各种实际生活和工作环境中的交际/使用能力。

(二)语言水平观察在特定沟通情况中,适当的功能,情境(内容),技能,和体裁等的综合发挥。

(三)语言水平分别考核听、说、读、写等技能的各等各级使用能力。

(四)语文水平考核综合的大意理解(global understanding),不是细节的理解,除非细节理解和大意有关。

(五)语文水平观察跨文化交际层次的语用习惯(包括称呼、问候、谢歉、谦辞、褒奖、隐私、禁忌等)。这些特别体现中国文化崇尚集体、和谐、关心、尊重、热心、谦虚等传统 观念(方丽娜2007)。

(六)语文水平考核听、说、读、写技能的等级能力,以初、中、高的不同级别标示,而不以综合分数评定等级。一般学习者听、读理解能力高于说、写表达能力,说话能力高于写作能力。

(七)语文水平测试不单独考核语音,语汇,和语法的准确性。语文水平不能利用考查语文单位的准确性来直接反映实际交际能力。

(八)由于语文水平测试需要直接考查受试者的日常交际/使用能力,因此测试尽量选择实际生活及工作环境中可见可闻的真实素材。

(九)语文水平测试尽量避免考查听写,朗读,字词发音,词汇意义,词汇造句,句型造句,完成造句等项目。

(十)语文水平测试里的测试说明/指令,以及问题和答案选项等尽量使用学习者母语。

陈瑞端、祝新华等编:《小学普通话水平的考试研究》,北京:商务印书馆,2010年。

陈瑞端:《语言政策与普通话教学及评估》,《中学普通话水平的考试研究》,北京:商务印书馆,2012年。

陈瑞端主编:《中学普通话水平的考试研究》,北京:商务印书馆,2012年。

方丽娜:《语言与文化》,《华语文研究与教学》,2007年,253 -288 页。

李晓琪主编:《对外汉语文化教学研究》,北京:商务印书馆,2006年。

李英哲、唐秀玲等:《普通话教师的语文水平要求与教材和课程的设计》,《香港语文教育学院》,1993年,178 页。

李英哲:《美国最近汉语教学方向与语言使用能力准则的拟定》,《第一届国际汉语教学研讨会论文集》,北京:世界图书出版公司,1986年。

李英哲:《最近语文教学方向与能力测验的设计》,《第一届世界华语文教学研讨会论文集》,1985年。

李英哲:《对外汉语教学中阅读理解的一些关键问题》,《语文教学面面观》,田小琳等主编,香港:香港文化教育出版社,1994年。

李英哲:《汉语说话测试的设计》,《第二届中美语文教学研讨会》,1983年,18 -20 页。

李英哲:《美国外语教学学会对外语使用能力程度的订定与能力测试的编写》,《普通话测试论文集》,99 -110 页,香港中国语文学会(1985年会议),1988年。

李英哲:《语言测试的针对性》,《语言测试的理论与实践》,李学铭主编,香港:香港商务印书馆,2000年。

李英哲:《中文电视理解计算机课程的设计教学》,《第4 届世界华语文教学研讨会论文集》,1995年,台北。

李英哲:《自学华语计算机课程内容设计与应用》,《教育技术和媒体(Instructional Technology and Media)》,台北,1997年。

刘 珣:《试论汉语水平测试》,《语言教学与研究》,1983年第4 期。

刘英林、郭树军、王志芳:《汉语水平考试(HSK)的性质和特点》,《世界汉语教学》,1988年第2 期。

刘英林:《谈谈对外汉语教学的测试问题》,《对外汉语教学论文选》,中国教育学会对外汉语教学研究会编,1983年。

谢锡金:《香港的教育体制、课程与中国语文学习领域改革的方向》,《中外母语教材比较研究论集》,江苏:江苏教育出版社。

姚道中:《网上计算机自适中文阅读测试简介》,《第二届全球华文网络教育研讨会论文集》,台北:华侨委员会,2001年。

姚道中:《由SAT 到中文AP 测试》,《二十一世纪华语机构营运策略与教学国际研讨会论文集》,台北:台湾师范大学,2005年。

College Board,AP.AP Chinese Language and Culture:Sample Syllabus 1 -4.apcentral.collegeboard.com.2008b.

College Board,AP.Chinese Language and Culture:Course Description.apcentral.collegeboard.com.2008a.

Domizio,Hsiu-huei Lin.Prochievement in Light of SOPI and OPI:Activities for Advanced Speakers of Chinese.Paper presented at the Annual Meeting of the American Council on the Teaching of Foreign Languages.1995.

LI Yinzhe(李英哲).ACTFL Chinese Proficiency Guidelines (with Albert E.Dien,Shou-hsin Teng,Ronald Walton,et al).Foreign Language Annals.47l-87.1987.

LI Yinzhe(李英哲).Chinese Proficiency Tests for Listening and Reading.(w/ Shang Ho,Ronald Walton,et al.)Ctr.for Applied Linguistics,D.C.30 pp.(test forms).1984

LI Yinzhe(李英哲).Chinese Proficiency Tests for Speaking (4 parallel forms,w/ S.Ho,R.Walton,et al.)Ctr.for Applied Linguistics,Washington,D.C.40 pp.(test forms).1985.

LI Yinzhe(李英哲).Development,Validation,& Dissemination of a Proficiency-based Test of Speaking in Chinese & an Associated Assessment Model for Other Less Commonly Taught Languages (w/ J.Clark,).ERIC.DC:Ctr.for Applied Ling.1986.

LI Yinzhe(李英哲).Language Proficiency Requirements for Teachers of Putonghua and the Design of Putonghua Courses and Materials for Teachers.Hong Kong:Institute of Language in Education.43 pp.1993.

National Standards in Foreign Language Education.1999.Standards for Foreign Language Learning:Preparing for the 21st Century.Alexandria:American Council on the Teaching of Foreign Languages.

Tseng,M.F.AP Chinese Language and Culture:Teacher’s Guide.New York:The College Board.2007.

Yao,Tao-chung & Yuichi Watanabe Validation of CATRC:A Computer-Adaptive Test for Reading Chinese.Lucy Lower& Haejin E.Koh (eds.)Voices and Visions in Global Perspective:Selected Papers from the Second College - Wide Conference for Students in Languages,Linguistics and Literature.Honolulu:National Foreign Language Resource Ctr.,University of Hawaii 147 -52.1998.

Yao,Tao-chung (姚道中).A Computer-Adaptive Test for Reading Chinese (CATRC):A Preliminary Report.Journal of the Chinese Language Teachers Assoc.0.1:75 -85.1995.

猜你喜欢
受试者评估测试
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
第四代评估理论对我国学科评估的启示
涉及人的生物医学研究应遵循的伦理原则
幽默大测试
“摄问”测试
“摄问”测试
“摄问”测试
涉及人的生物医学研究应遵循的伦理原则
评估依据