大规模外语测试中写作任务时限设定研究*

2014-04-02 02:32詹先君

教育与考试 2014年1期

詹先君

一、研究的缘起

时限因素是外语测试的重要条件之一。〔1〕本研究探讨的主要问题是在大规模外语测试中是否有必要在有限的考试时间内再对写作任务进行时限设定。

目前，国内外大规模的外语测试时限条件的总体可以分为两类：限时写作（见表1）和非限时写作，而限时写作中的时间长度设置又各不相同。在国内的大规模外语测试中，非限时写作比限时写作更普遍，如大学英语四、六级考试，专业英语四、八级级考试，对写作测试任务都有明确的时间限制；而研究生入学英语考试、专业技术英语考试、高考英语等则没有对写作任务进行单独的时间限制。从国际上来看，对外语写作测试进行时限设定的情形更普遍一些，如托福、雅思、GMAT、GRE、托业等著名国际性英语测试，都对不同的写作任务规定了不同的时间，被称为美国高考的SAT考试中的写作任务也有时间限制。限时写作测试任务在时长设定上也不尽相同，从8分钟到45分钟不等（见表1）。以表1中的14个写作任务时间长度为变量进行描述性统计，可以发现（见表2），各个写作任务时限的平均数为27分钟，标准差为10.4，最低时限为8分钟，最高时限为45分钟，两极差为27。由此可见，统计范围内的写作测试任务时间设定差异偏大。不少研究者对外语写作测试时限差异问题加以关注，并进行了不同角度的研究。

二、相关研究回望

既有的外语写作测试时限研究，主要从三个方面进行：非大规模外语测试中不同时限、大规模高利害外语测试中的不同时限以及日常外语教学中的限时和非限时条件对写作的影响。

在非大规模外语测试中不同时长对外语写作影响的研究方面，Biola认为比较长的时限 “似乎能够让学生提供更好地展示其写作水平”。〔2〕Younkin发现时间长度因素对本族语学生和非本族语学生的写作影响不一致，对非本族语学生的影响不显著。〔3〕Livingstone也认为时间因素对外语写作没有显著性的影响。〔4〕

表1 部分大规模外语测试的写作任务时限设定

表2 部分大规模外语测试的写作任务时限描述性统计

在大规模高利害外语测试中的不同时长对写作影响的研究方面，Crone等对参加SAT II阅读写作的7100名初中和高中学生在15分钟和30分钟条件下写作结果的研究发现，较长时间条件下可以使学生获得更好的测试成绩〔5〕；Hale比较了在30分钟和45分钟条件下820名学生的两个不同TWE写作任务成绩差异，发现虽然比较长的时间条件有利于产生更好的写作成绩，但两种时限条件下的写作差异不具有统计学上的显著性〔6〕；Powers和 Fowles研究了304名研究生在40分钟和60分钟条件下的写作测试成绩，结果发现两种写作时限对写作测试没有影响〔7〕。

在日常外语教学中的限时和非限时条件对写作影响的研究方面，Caudery、Ellis和 Yuan、Knoch 和Elder等都进行实证性的探索，结论基本一致，即认为限时写作和非限时写作之间的差异不大。〔8〕〔9〕〔10〕

在国内，仅有少数人对外语测试中写作任务的设定问题，如陈慧媛和吴旭东（1998）、邵继荣（2003）、吴红云（2006）、王宗迎/何广铿（2008）等人，研究结果与国外大体一致，即大都认为不同的时限对写作结果的影响比较小。〔11〕〔12〕〔13〕〔14〕

通过以上梳理可以看出，国内外对外语写作测试任务时限的研究，主要是比较不同时长（例如30分钟和50分钟的写作）对写作行为的影响。研究结论虽然不尽一致，但大多数研究结果倾向于认为不同的时限对于写作不存在显著影响。因此，本研究倾向于采信不同时限对外语测试的影响不显著这一结论，不对这一问题进行继续探索。考虑到既往的研究只是针对不同时限对外语测试中的写作行为的影响，对大规模外语测试中时限设定条件下和非时限设定条件下写作任务完成情况的差异研究还比较鲜见。本研究拟对这一问题进行实证性的探索。

三、实验设计

（一）研究的问题

研究的主要问题有：（1）大规模外语测试中的限时写作和非限时写作在成绩上能否产生显著性差异？（2）限时写作和非限时写作能否在语篇特征产生显著性差异？

（二）场景设计及样本抽取

大规模外语测试往往具有参加人数多、覆盖地区广、与考生的切身利益密切相关等主要特征。为了使实验场景具有大规模外语测试特征，笔者利用所在高校的期终大学英语课程考试作为大规模语言测试场景，因为期终大学英语考试虽然只涉及本校学生，但具有参加人数多、与考生的评先评优等利益相关的特征，所以能把它大致附比为大规模外语测试场景。

本研究样本抽取方法如下：在2010-2011学年度上学期大学一年级期末大学英语课程考试中，在一个考场（包括2个教学班76人）中要求考生对期末试卷中的写作任务限时完成，并把该考场的考生作为实验组，其它考场的学生按照传统的方法进行考试，即对写作任务不限时，作为控制组。考试结束后，考虑到语篇分析的工作量较大，根据客观题成绩接近或相等的原则，分别在实验组和控制组中抽取了30名学生的试卷进行比较分析。之所以依据客观题的成绩进行抽样，是因为学界一般认为客观题成绩与写作能力具有相当大的相关性，客观题成绩接近的学生，其写作能力也应该相对比较接近。样本抽取的结果如下（表3）：实验组和控制组分别为30人，实验组男女生分别为16人和14人，控制组男女生分别为12和18人，两组的客观题平均分分别为42.25和42.23人，标准差分别为3.7，从集中量数和离散量数来看，两组考生在客观题成绩上十分接近。

表3 样本客观题成绩描述性统计

（三）研究工具

研究的工具有大学英语期末试卷，用来测试大规模外语测试中的限时写作和非限时写作；评分标准、评分量表、评分记录表，用来对写作测试进行评分；调查问卷，用来收集考生对大规模外语测试中写作任务时限设定问题的看法；SPSS统计软件，用来对收集到的各种数据进行定量分析。

（四）研究方法和过程

本研究采用盲试法，即在样本不知道真实的实验目的的情况下进行实验。这样避免样本针对试验目的采取防御策略，使实验具有真实性。实验步骤如下：

（1）试题设计：实验组和控制组的大学英语课程期末考试题目内容完全都相同，测试的构成部分为听力、阅读理解、完型填空、选词填空、翻译、写作，只是在实验组试卷中写作部分的指导语要求考生在30分钟内完成写作，并要求把作文写在专备答题纸上，30分钟结束收取试卷，并且为了便于限时，写作任务的安排顺序有所不同，实验组的写作任务安排在听力之后进行，便于在规定的写作时间内取写作答题纸，控制组的写作则象往常一样安排在最后。写作部分的总分为10分。实验组和控制组的写作任务改编自1992年的大学英语四级试题的写作部分：

Directions:For this part you are allowed 30 minutes to write a composition in no less than 120 words on the topic:Is Failure a Bad Thing?Your composition should be based on the following outline(give in Chinese)（答题要求：请就Is Failure a Bad Thing?这个题目，在30分钟内写出一篇120词左右的短文，短文应该包括下列要点。）

1.失败是常有的事?

2.人们对失败有各种不同的态度。

3.我对失败的态度。

Remember to write your composition on writing sheet,which will be collected immediately after the 30-minute writing time is over.（注意：把作文写在答题纸上，30分钟写作时间结束，必须交卷。）

为了弄清考生是否能够读懂指导语，我们用相同的指导语但是不同的写作话题设计了另外一个写作任务，请部分实验组学生来进行理解。结果，他们都能够准确无误地理解出指导语的意思。

（2）实施测试：在大学英语课程期末考试进行之前，跟实验组的监考老师进行了沟通和说明，请求他们在听力考试结束之后立即指令考生完成限时写作，并在30分钟结束后立刻收回写作答题纸。

（3）进行评分和语篇分析：根据客观题的成绩分别抽出实验组和控制组的30份试卷后，我们请两位有经验的教师进行对实验组和控制组的写作进行评分。采用整体评分法，每份试卷都由两位教师背靠背评分，最终分数为两位教师评分的平均数。另外请两位语言学专业的资深教师对样本作文进行语篇分析，语篇分析也是由两位教师背靠背完成，然后对照两位教师分析的结果，在有分歧的地方由两位教师协商解决。语篇分析主要采用下列客观性的指标（表4）：写作的总词数（代表流利度）；错误数与T-unit之比、正确T-unit的百分比（代表准确度）；从句与T-unit之比、平均词长（代表复杂度）。语言的流利度(fluency)、复杂度(complexity)和准确度(accuracy)被广泛地应用到口语和写作任务的测量中，能够比较客观地反映口语和写作水准。〔15〕

表4 语篇分析指标

（4）问卷调查：考试结束之后，对控制组和实验组的考生展开问卷调查。主要问题是写作时间是否充足、是否有足够时间来修改作文、作文时限是否有必要等。

（5）统计分析：把评分数据、语篇分析数据、问卷调查数据输入Spss软件，进行描述性统计、独立样本T检验，借此观察和分析时限设定对外语写作的影响。

四、结果和讨论

（一）限时写作和非限时写作的成绩差异

两位教师对样本作文评分结果的Person相关系数为0.663,P值为0.00,呈显著相关，说明评分的一致性信度较高。因此，两位教师的评分结果可以采用。通过对实验组和控制组考生的写作成绩进行独立样本检验，我们可以发现，两组考生的写作成绩基本上无差异。

表5显示，试验组和控制组考生的写作平均分分别为7.5和7.7，非常接近，标准差分别为0.8和1.0，也比较接近。独立样本T检验结果（表6）也显示，显著性概率为P=0.341,大于0.05的显著性水平，均值差异也只有-0.2。由此可以推断，两组的写作成绩差异显著性不具有统计学上的意义。这与前述的Caudery,Hale、Livingstone、Powers 和 Fowles、陈慧媛和吴旭东、邵继荣、吴红云、王宗迎、何广铿、Knoch和Elder等人的研究结果基本接近。

Skehan指出，学习者在完成任务的过程中，时间限制和压力会带来交际的压力，从而影响任务的完成。〔16〕而实验的结果与Skehan的观点相左，这应该由两方面的原因引起：其一是控制组的不限时是相对的，其实质仍然是限时写作，因为在测试状态下，考生必须考虑到各个题目时间的合理分配和安排问题，在实验组和控制组中可能都有写作时限压力，会对写作质量产生同样的影响。其二是评分有误，评分是采取主观性的人工评分，可能评分者不能觉察到控制组和实验组作文中的细微差别。基于这样的推测，为了验证评分的准确性和更深入地了解实验组和控制组的写作差异，我们在下面又借助语篇分析方法对两组学生的作文进行了分析。

（二）限时写作和非限时写作的语篇特征差异

语篇分析指标的平均数如表5，实验组和控制组的流利度指标词数平均值分别为128.55和133.25，控制组作文词数平均值高于实验组，这说明实验组和控制组在流利度方面还是有所差别，控制组的作文长度略高于实验组。在代表准确度和复杂度指数的错误数/T-unit、无错误T-unit比例、从句/T-unit、平均词长等指标的平均数上，试验组和控制组都有所差别，在错误数/T-unit和从句/T-unit平均数指标上，控制组高于实验组，在无错误T-unit比例和平均词长这两项指标上，实验组反而还高于控制组，这说明，实验组和控制组在作文正确度、复杂度方面，各有优劣，并不存在压倒性的差异。为了验证差异的显著性，我们有对两组数据进行了T检验，通过独立样本T检验（如表6），观察各指标的P值，发现实验组和控制组在语篇分析的大部分指标上的差异不具有显著性，只有在词数这个指标上，两组差异呈显著性，其双尾检验的显著性概率P值为0.015，低于0.05的显著性概率，说明这两组在作文的长度上差异明显。

上述分析可以得出结论：限时和非限时写作在语篇分析框架内的大部分指标上虽然有差异，但是差异不大。为什么控制组的学生在能够自由调节写作时间的情况下不能写出比试验组更好的作文呢？这或许如Kroll(1990)和Caudery(1990)指出的那样，学生对写作的技能掌握得不够，不知道如何利用多余的时间来计划写作，改善这种状况的途径是加强对学生写作训练。很显然，目前高校都把大学英语课程作为公共课程，课时紧缩，教师教学任务繁重，很少有对学生进行写作限时和非限时训练的。

上述写作成绩分析也显示实验组和控制组的作文分数没有显著性差异，分数分析结果和语篇分析结果一致，相互印证，说明评分客观准确。两方面的分析结果也更能说明此次实验中的限时写作与非限时写作的差别不大。

在大规模语言测试中对写作任务进行时限设定虽然在客观上没有差异，但是在主观上，也就是对受试者的心理，是否会产生影响呢？下面的问卷调查可以回答这个问题。

表5 试验组和控制组作文描述性统计

表6 实验组和控制组作文指标独立样本T检验

五、结论和建议

通过上述统计分析，可以对研究的问题作出如下回答：（1）大规模外语测试中的限时对写作成绩虽然能产生影响，但是影响不大，难以达到显著性水平。（2）限时不会对考生作文的主要语篇特征产生显著影响。实验组和控制组写作的语篇特征只有在词数方面存在显著差别，在其它指标上并无显著差异。

结合上述研究结论，建议在大规模外语测试中取消对写作任务的时限设定。因为非限时外语作文更接近现实生活对写作的要求〔17〕，符合交际语言测试真实性原则。语言测试的真实性就是试题设置的情景要符合真实的生活情景〔18〕。在实际生活中，应当说限时写作和非限时写作的情况都有存在，写作时间的长短是作者根据自实际情况来调节的。在大规模外语测试中，取消写作任务的时限设定，考生可以根据自己的写作水平、其它试题完成的进度来自主调节写作时间，这个调节过程就与实际外语写作情景非常类似。

尽管本研究尽量注意了研究过程的科学性，注意多种研究方法相结合，但还是有一些不足之处：如样本量过小，代表性不是很强；把大学英语课程期终考试附比为大规模的外语测试情景是否适当也值得商榷；还有写作试题设计的难易度、写作的类型对测试的结论是否有影响也需要进一步探索等。

〔1〕〔18〕Bachman F.Palmer AS.Language testing in practice〔M〕.Oxford:Oxford University Press,1996.

〔2〕Biola,H.R.Time limits and topic assignment for essay tests〔J〕.Research in the Teaching of English,1982.16:97–98.

〔3〕Younkin,W.F.Speededness as a source of test bias for non-native English speakers on the college level academic skillstest〔J〕.Dissertation AbstractsInternational,1986.47:40-72.

〔4〕Livingstone,S.A.,The Effects of Time Limits on the Quality of Student-Written Essays〔R〕.Paper presented at the American Educational Research Association conference,1987.

〔5〕Crone,C.Wright,D.Baron,P.Performance of Examinees for Whom English is their Second Language on the Spring 1992 SAT II: Writing Test.Educational Testing Service〔R〕.Unpublished manuscript,1993.

〔6〕Hale,G.Effects of Amount of Time Alloacted on the Test of Written English〔R〕.Research report no.92-27.Educational Testing Service,Princeton,NJ,1992.

〔7〕Powers,D.E.,&Fowles,M.E.,Effects of applying different time limits to a proposed GRE writing test〔J〕.Journal of Educational Measurement,1996.33(4): 433–452.

〔8〕Caudery,T.The validity of timed essay tests in the assessment of writing skills〔J〕.ELT Journal,1990.44:122–131.

〔9〕Ellis,R.&Yuan,F.The effects of planning on fluency,complexity and accuracy in second language narrative writing〔J〕. Studies in Second Language Acquisition 2004.26(1):59～84.

〔10〕Knoch, U Elder, C.Validity and fairness implications of varying time conditions on a diagnostic test of academic English writing proficiency〔J〕.System,2010.38:63–74.

〔11〕陈慧嫒，吴旭东.任务难度与任务条件对EFL写作的影响〔J〕.现代外语，1998(2):27～39.

〔12〕邵继荣.任务类型和任务条件对EFL写作的影响〔J〕.国外外语教学，2003(2):28～34.

〔13〕〔17〕吴红云. 时间限制对EFL作文成绩的影响〔J〕.外语教学与研究2006.38(1).

〔14〕王宗迎,何广铿.时间限制和任务类型对EFL写作的影响〔J〕.中小学外语教学：中学版.2008(11):6～11.

〔15〕Ellis,R.&Yuan,F.The effects of planning on fluency,complexity and accuracy in second language narrative writing〔J〕. Studies in Second Language Acquisition,2004.26(1):59～84.

〔16〕Skehan, P. A Cognitive Approach to Language Learning〔M〕.Oxford:Oxford University Press,1998.