高职英语教学质控量化研究

2013-09-12 07:57
外国语文 2013年4期
关键词:考试分数平均分试卷

甘 利

(广东工程职业技术学院 外语系,广东 广州 510000)

1.引言

近些年来,语言测试的研究中心开始从经典理论的信、效度的研究转移至测试行为和过程的研究(曾用强,2012)。目前,虽然每年都举行全校、全省以至全国的英语考试,包括英语四、六级考试,大专水平的应用能力考试,但是各校一般只追求过级率,未能充分发挥测试应起的作用。上述考试都有相当的权威,考试的区分度、难度、信度、效度等都经过严格的检验,考生的成绩很大程度上反映出学生的学习成果和教学效果。若我们以这些考试所反馈的数据为基础,加上科学的分析,利用学生入学后由学校组织,按英语考试大纲要求所设计的英语水平考试,综合检测教学效果,便可以对英语教学质量进行科学的定量分析、跟踪与监控,从而对英语教学质量进行宏观调控。

国内外有关英语测试研究由来已久。Bachman(1990:155)指出,语言测试研究的目标之一就是考察影响语言测试行为的因素,语言测试成绩的多变是考生个人语言能力和测试方法特点共同作用的结果,并将测试方法细分为五大方面,其中包括测试环境、试题要求、输入性质等。因此,大量研究都致力于探究某些因素的特定层面对语言测试的影响或不同层面对测试的交互影响,如对语言测试的整体研究(Liying et al.,2011;Jungok et al.,2011)/、听力测试(Berne,1995;Ginther,2001,2002)、完形填空测试(JM O’et al.,2011)等各方面的专项研究。但是将数据统计分析应用到外语教学和测试尤其是高职英语教学和测试的研究远未到达满意的程度。为了弥补此项研究的不足,本文尝试展开了一项关于高职英语的实证研究,旨在发挥数据统计分析在此类研究中应有的作用,从而提高高职英语教学质量。

2.研究方法

2.1 研究描述

本研究通过自主研发的高职英语课程测试与教学质量量化监控系统软件采集学生的测试数据并进行系统的自动分析。对比学生的测试成绩和按要求所测试的测试组成元素和技能,监控教师的教学表现、学生的学习效果和试卷的质量。例如比较学生成绩、按要求测试的技能点和相关因素,从而达到对以下三个方面进行监控:(1)课堂教学表现;(2)师生个体表现;(3)试卷质量。

2.2 研究问题

本研究采用定性和定量的研究方法,研究问题如下;

(1)该系统是否能监控课堂教学效果;

(2)该系统是否能监控师生个体表现;

(3)该系统是否能监控试卷质量吗。

2.3 研究对象

受试来自广东工程职业技术学院三个系11个班的789名2008级新生。研究对象是学习公共英语的全体学生,平均年龄19岁,来自广东省的不同县市。

2.4 研究过程

为了了解受试的英语基础,2008年9月对其进行了一场英语水平测试并获取第一次考试的成绩。受试完成该学期80学时的英语学习后,期末参加了由学院统一组织的期末考试,考试时间均为120分钟,试卷类型相同,均包括六道大题,满分100分。考试试卷由几名教授根据教学大纲和命题要求编写,例如要具有一定的现实可行性、可比较性、可复制性、基础性,每道小题都要达到所定的质量标准,题目要求编写简明易懂。不同考试分别使用的AB卷是平行卷,每次考试都要做项目分析。具体的听、读、译要求单独列表如下:其中听读译各部分的比例分配是依据高职英语课程教学能力目标(培养高职类学生的语言综合能力和实际应用能力,即用英语做事的能力)的要求并结合本校的教学实际(学生语言基础普遍薄弱,技能欠缺,可供支配的教学资源有限)而定的。其中第一部分听力的Section A五小题,听5个句子,然后回答5个问题。Section B十小题,听十组男女对话,然后回答十个问题。其目的是要测试学生对句子、对话的掌握。题材源于日常生活,难度由浅入深,这个部分的题型设计,一般与全国统考的题型大致相同,目的在于强化对比度,与全国考试接轨。第二部分词语结构与语法包括词汇和语法两个方面。词汇方面,第一次水平考试所覆盖的词汇(含词组)约在2000个基本单词以下,以后每次期末水平考试递增1000个左右,都是学生应该掌握的常用语,目的在于考核学生常用语的掌握程度。语法方面为英语的基本语法,初始阶段测试学生对基本语法的掌握程度。以后逐渐深化。最后着重考核学生在语法方面的应用能力及熟悉程度。第三部分阅读理解四篇文章,从不同角度分别测试学生判断、逻辑思维、运用能力,强调实用性、基础性。试题设计由浅入深。第一次水平测试以简单形式的阅读理解为主,逐渐过渡到理解句子字里行间的逻辑关系、分析作者的态度等。第四部分阅读判断目的是考察学生能否区分信息正误及信息有无提及的能力。第五部分完形填空旨在考察学生综合运用语言的能力,包括词汇、基本语法、逻辑思维、同义词反义词。第六题翻译都是基础、实用型的题,目的在于考察学生英汉互译中的综合技能。总之,试题设计把听、读、译及综合能力都考虑在内。说和写的能力在时机成熟时,都要包括在内。

听力播放由播音室将录音通过扬声器清晰地传送到每间考室,机读卡由机器阅卷直接生成数据库并自动录入数据统计软件包。全过程由考务部门的技术人员完成。主观题的评分由任课教师集中统一评分,并事先进行试评,统一标准,试评结果显示评分员之间的相关系数均达到0.8以上,在此过程中排除掉评分标准前后不一致的评分员,这样单个评分员的前后评分标准也得到了控制,以保证评分的信度和效度。

对于本研究采集的数据,我们使用了不同的统计分析方法。每道题的项目分析标准如下表所示:

表1 项目分析标准(Li,1997:274)

考试分数通过SPSS软件分析处理,结果有:平均分、标准误(S.D.)、Z 值、图表等。

3.数据收集与分析

第一次测试于2008年9月举行,第二次测试于2009年2月举行,即期末考试。所有的受试在同一时间考试,时长2小时。每次考试均按高考标准严格施行。所有答题卡回收后交付教务处专门的技术人员进行评分。

每学期的每次考试都按实施、分析、监控和跟踪的流程进行,包括每次的不同班级不同专业和不同系别的分数比较。每次测试的分析结果包括平均分、通过率、标准误等。通过比较每次考试的相同题目的作答情况,我们能清晰地看出某位学生在此项考点技能上是进步还是退步了,同时也能得知他/她的英语总成绩和分项成绩在班级年级系以及整个学院的排名。还可以根据进退的绝对值而不仅是最终值或最终排名看出其进退的程度,例如某个学生的成绩或某个班级的平均分从60上升到75,而另一个学生的成绩或另一个班级的平均分从90上升到95,如果从最终值来看,后者肯定优于前者,但从进退程度和教学效果来看,前者显然优于后者。

既然有很多分数之外的因素影响教学,监控系统不能仅通过分数还要通过一些辅助手段来做出判断或决策,例如应该对教师教学态度、教学水平、教学表现、教学指导、教学方法进行测评和定量分析,但这些因素较主观,在总评成绩中的比重不应超过20%。

有了这个系统,我们既可以发现问题还能对某些班级在某些题目上提供建议,还能对某位学生的所有考试成绩或某个题目的得分提供分析和建议。该系统还可以监控某位学生整个的学习进程或某位教师的英语教学中出现的问题。通过分析,我们可以了解到某个班在某个题目上得分最高,我们由此找出原因,总结经验并加以推广。例如通过两次考试比较我们找出进步最大的一个班级和退步最严重的一个班级进行实地案例研究,通过随时深入课堂听课录像,师生座谈等形式找到其背后原因。在我们的实地调查中,发现了一些原来没考虑到的影响教学质量的因素,例如教师在课堂教学中的语码转换风格、个性化语言风格、人格魅力、感染力、驾驭力、情感情绪状态、教师本人的语言观和跨文化意识、教师变更频繁等。据此,每年都要评选出最优秀的教师加以表扬奖励或委以重任,表现不佳的需要再学习再培训,仍达不到要求的为了确保教学质量的调换岗位。

4.研究结果和讨论

4.1 课堂教学效果的监控

此次实验中,来自三个系的789名受试被分成11个教学班。以下是两次考试分数的描述性数据分析。

表2 第一次考试描述性统计数据

表3 第二次考试描述性统计数据

由上图可知两次考试的总体情况:第一次考试分数为正态分布(斜率值为0.009),即“两头少,中间多”,高分和低分人数少,中间段分数居多;第二次考试分数呈负偏态分布(斜率值为-1.248);中高分段人数居多,低分段人数显著减少。第二次平均分也远高于第一次,从方差值来看,第一次分数分布比较集中均匀,第二次比较分散参差不齐。这也说明了受试刚入学时的英语水平分布均匀,经过半年的学习后,开始出现了分化和差距,大部分经过半学期的学习取得了相应的提高,达到了预期学习目标和教学效果。

下表是两次考试分数的平均分比较的一个实例。

表4 两次考试分数的独立样本T检验

由上表知,P值是.000远小于0.05,因此我们可以说两次平均数之间的差异达到了统计学上的显著程度,拒绝零假设。也就是说,受试第二次比第一次表现更好。

为了获得更多的有用信息,类似的比较还可以用于每个班每个系两次考试分数以及三个系11个班之间某一次的分数比较。

4.2 师生个体表现监控

该系统可以自动生成每次每个系的每个学生的分数。我们把每次所有的结果发布给每个系和每个教师。这样当教学管理人员和教师们得知每个学生的考试情况后,就会去寻找背后的原因,并采取改进措施。例如,A受试的两次考试成绩,两次年级排名和进退情况。在第一次考试中,A受试考了27分,但在第二次考试中上升至900分,这个进步很巨大;B受试第一次考了819分,第二次降至639分。

我们还可分析比较每个班的两次考试的具体分数以及三个系11个班之间某一次的分数比较。如两次考试中,第2次考试进步最大的班为商管系3班,其平均分从入学35分升为46分。退步最大的班为计算机1班,其平均分从入学48分下降到45分。其原因主要是该班任课教师不稳定,频繁调换过三位。由于学习方式和手段趋向多样化,教师要想给众多学习者提供足够的帮助已力不从心。解决这一问题的有效办法之一就是利用计算机实现对学生学习过程跟踪检测的诊断测试,电脑化诊断测试。计算机的采用推进了个别化自主学习的发展,学习者更加需要及时、详尽的指导。(杜金榜、桂诗春,2000)

4.3 试卷监控

该系统能保存并分析每次考试每个学生的总分和分项得分情况,由此我们就能分析出此次试卷是否达标,是否能有效区分学生成绩的好坏。

经统计,我们得知题目6的FV值是1.199,题目55的FV值是1.213,意味着他们是最容易的。题目3的FV值是 -0.2,题目62的FV是 -0.014,意味着他们是最难的,题目71的FV值是0.5,此难度值比较理想,因为这意味着一半的受试正确作答一般的受试作答错误。根据标准差,0.3至0.7认为是可接受的难度值。还有大量题目的难度值变化幅度很大,下一步将对试题区分度和效度作进一步研究。

基于以上的研究,我们可以得出结论:该系统通过对两次考试的平均分、最高分、最低分、集中趋势、分数升降的比较,能对课堂教学效果进行量化监控此次实验结果告诉我们第二次考试总体取得了进步,这是师生共同努力的结果,但仍有许多细节问题需要解决。通过对进步和退步背后原因的仔细分析,我们获得了能反映师生个体表现的除了成绩之外的更多的有用信息,这些信息大大完善和提高了分数的解释力和监控力。同时也说明该系统能监控师生个体表现。

从考试的每道题目的分项数据来看,它不仅反映了师生在每个技能模块的教学表现,还能提前获得关于试卷质量控制的一些关键技术指标值,例如信度、效度、区分度、难度等。有了这些数据反馈信息,以后我们每次编写试题的时候都能据此做相应的改善以提高试卷编写质量。这也说明该系统能监控试卷质量。

5.结语

通过现代化的测试手段,利用电脑软件包,提供数据分析(学生成绩),监控学生学习成绩、教师教学效果所用测试试卷。通过量化的形式监控教学质量。此研究价值如下:(1)突破传统;(2)以现代测试手段,通过量化的形式监控教学质量;(3)不仅跟踪学生学习成绩,更能跟踪教师的教学成果,还能监控考试试卷,便于动态管理;(4)数据正确,行之有效,说服力强,判断科学;(5)操作方便,应推广应用到各种语言教学测试的监控中,特别是人财物稀缺的高职院校。桂诗春(1989)指出,教育技术(educational technology)在语言测试中占有重要的位置。计算机为语言测试开辟了诱人的前景,目前所能做到的仅是一些初步的尝试,它的潜力还有待发挥。语言测试在中国教育界特别是高职教育方面还有漫漫长路要走。

[1]Bachman,L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.

[2]Berne,J.How does Varying Pre-Listening Activities Affect Second Language Listening Comprehension?[J].Hispania,1995(78):316-329.

[3]Ginther,A.Effects of the Presence and Absence of Visuals on Performance on TOEFL CBT Listening-Comprehension Stimuli(Research Report No.66)[C].Princeton,NJ:Educational Testing Service,2001.

[4]Ginther,A.Context and Content Visuals and Performance on Listening Comprehension Stimuli[J].Language Testing,2002(2):133-167.

[5]JM O’T.& K.RAR.The Deceptive Mean:Conceptual Scoring of Cloze Entries Differentially Advantages More able Readers[J].Language Testing,2011(28):127 -144.

[6]Jungok,B.& L.Yae-Sheik.The Validation of Parallel Test Forms:“Mountain”and“Beach”Picture Series for Assessment of Language Skills[J].Language Testing,2011(28):155-177.

[7]Liying,C.,Stephen,A.& Y.Ying.Impact and Consequences of School-based Assessment(SBA):Students’and Parents’Views of SBA in Hong Kong[J].Language Testing,2011(28):221-249.

[8]曾用强.自信心与语言测试行为[J].现代外语,2012(2).

猜你喜欢
考试分数平均分试卷
这样做合理吗
教你学会平均分
考试分
Module5 A Trip Along the Three Gorges
Module5 Great People and Great Inventions of Ancient China
Module 4 Sandstorms in Asia
Module 1 Europe
平均分一半
透过试卷分数查找知识能力缺陷
卫生行业职业技能鉴定成绩与从业人员工作绩效的相关性研究