写作自动评估系统对中国大学生英语写作水平影响的历时研究

2017-05-10 12:56王淑雯

山东外语教学 2017年2期

关键词：后测实验班均值

王淑雯

(西南石油大学外国语学院，四川成都 610500)

写作自动评估系统对中国大学生英语写作水平影响的历时研究

王淑雯

(西南石油大学外国语学院，四川成都 610500)

很多研究表明写作自动评估系统对英语写作水平有积极影响，但缺少探讨这种影响是否具有持续性的历时研究。本研究采用定量研究的方法，使用写作自动评估系统“Writing Roadmap”为写作工具，通过前测、中测、后测和延测，历时考察该工具对非英语专业大学生英语写作水平的积极影响是否具有持续性。研究发现：实验班的语言形式和写作质量增幅均显著高于对照班，写作质量在延测中具有持续优势；实验班在语篇结构方面的增幅高于对照班，但无统计意义上的差异；两个班的写作水平在后测和延测的增幅都趋缓。研究表明，该系统对实验班英语写作水平的提高具有持续性影响。这一研究发现为写作自动评估系统与大学英语写作教学进一步融合提供了依据。

写作自动评估系统；英语写作水平；语言形式；语篇结构；写作质量

1.0 引言

近年来，就英语写作教学的诸多研究发现，写作并不是一个个孤立分离的任务，而是一系列循环而又相互嵌入的复杂认知过程(Flower & Hayes,1981)，也是“写作—反思—修改—再写作—再反思—再修改……”的循环过程，且“过程的好坏决定结果的好坏”(Martinez & Martinez,1991:73)。写作自动评估系统因其能为使用者提供即时反馈以及反复修改的循环写作机会，并监控评估写作过程，而在国内外教学中逐渐受到重视。

2.0 国内外写作自动评价系统研究现状

20世纪60年代，写作自动评价系统在美国问世，并迅速被应用于英语写作教学。近年来，随着计算机网络技术的发展以及人工智能技术突飞猛进，该系统不断得以研发和完善。目前比较成熟且被广泛运用于教育领域的写作自动评价系统，如MY Access！、Project Essay Grade、Intelligent Essay Assessor、Electronic Essay Rater和Writing Roadmap等，不仅能为学习者的写作提供个性化、实时性的形成性评价、诊断性评价以及终结性评价，而且能就语言形式、语篇结构和写作质量等方面提供多维度的反馈评价。

国外相关研究表明，写作自动评估系统对学生写作质量产生了积极影响，尤其是就语言形式层面提供的即时有效、准确的反馈有助于减少机械错误，提高学生的写作水平(Rich et al.,2008；Shermis et al.,2004;Hoon,2006)。Milton (2006)的研究还发现，写作自动评估系统能提高写作学习者的学习自主性。Scharber et al.(2008)的研究发现，相较于高年级学生，写作自动评估系统更能有效提高低年级学生的写作水平。Schroeder et al.(2008)的调查显示大多数使用者对写作自动评估系统持积极态度。White et al.(2010)对西弗吉尼亚州中小学的调查表明，使用Writing Roadmap的学生写作成绩高于没有使用该系统的学生。这些研究主要以英语为母语的中小学学生为研究对象，采用定量研究的方法，关注系统对写作结果的影响，且大多由系统开发商资助完成，研究结论的客观性大打折扣，而且对系统在课堂教学应用方面的研究较少。除部分研究外(如Shermis et al.,2004;Rich et al.,2008)，其余研究在设计上或缺少随机抽样，或缺少实验前成绩，或缺少对照组等，其可信性受到质疑(唐锦兰、吴一安，2011)。值得注意的是，目前国外对于自动评估系统在教学中的应用研究更加趋于理性，如Wilson (2014)的实证研究指出，虽然写作自动评价系统在写作教学中发挥了重要作用，但仍存在缺陷，如反馈较单一，尤其是欠缺写作策略和任务聚焦等方面的反馈；Reilly (2014)表达了对利用系统进行作弊的担忧。

国内对写作自动评价系统的研究起步较晚，但这两年发展迅速。目前的研究主要分为三类。一是综述类：如陈潇潇、葛诗利(2008)和葛诗利、陈潇潇(2009)分析了国外主流写作自动评分系统所采用的技术及对国内开发此类系统的启示；梁茂成、文秋芳(2007)依据语言测试领域的作文评分要素, 从技术层面对国外具有代表性的三种作文自动评分系统进行评介和比较；唐锦兰、吴一安(2011)综合分析了国内外使用写作自动评价系统的相关研究成果；王勃然等(2015)回顾了50年来国内外写作自动评价领域的主要成果，并展望了未来发展态势。二是调查类：如鲁艳辉等(2010)发现智能化在线评阅系统能促进学生改变写作策略；周颖(2011)调查了学生使用WRM写作自动评价系统进行英语写作过程中遇到的困难，进而提出相应的对策；王淑雯(2011)和马卫华、甄强 (2016)的调查都显示绝大多数学生对写作自动评估系统持积极肯定态度；唐锦兰、吴一安(2012)的调查发现，融入自动评价系统的英语写作实验教学使得教师的教学理念、行为、角色均发生了变化；张荔、盛越(2015)使用个案分析法，采用CET4作文样卷验证了人/机(句酷批改网)评阅一致性和相关性较高；但何旭良(2013)指出国内开发的句酷系统的评价信度低于教师评判的信度。第三类是实证研究：如蒋学清等(2011)采用定量研究和定性研究相结合的方法，指出写作自动评价系统WRM在发展大学生英语写作能力方面发挥积极的作用；唐锦兰(2014)提出了基于自动评价系统的自主写作、多维反馈以及修改于一体的系统的先导模式，并多视角验证了其效度；胡学文(2015)通过数据分析发现，在自动评阅环境中，学生自我修改的次数与作文成绩的提高不存在相关关系；杨晓琼，戴运财(2015)建构了基于句酷批改网的自主写作教学模式，指出该模式有助于提高学生的自我效能感，降低写作焦虑感；周丽(2015)从生产单位、句式类型、从句和短语等四个角度分析了句酷网对学生句法能力的效用。综上，目前有关写作自动评价系统的研究对象范围较广，包括教师、中小学生、大学(非)英语专业学生。前期研究多表明写作自动评估系统有助于提高学生的英语写作质量，研究设计的共同特点是：a)对写作质量的最终考察多来自系统，没有考察人工阅卷环境下学生写作水平的变化；b)缺少历时研究；c)没有继续跟踪学生在停止使用系统后，英语写作水平的变化，缺少持久性检测，研究结果的有效价值可能受到质疑。

基于此，本研究以我国某大学非英语专业的100名大一新生为研究对象，分为实验班和对照班，历时三个学期，通过前测、中测、后测和半年后人工评阅的延测等4次测试，历时考察写作自动评估系统Writing Roadmap(简称为WRM)对实验班英语写作水平的影响。写作水平主要从语言形式、语篇结构和写作质量三个方面来衡量。具体研究问题是：

(1)学生的语言形式是否发生了显著变化？变化趋势如何？

(2)学生的语篇结构是否发生了显著变化？变化趋势如何？

(3)学生的写作质量是否发生了显著变化？变化趋势如何？变化是否具有持续性？

3.0 研究方法

3.1 写作自动评价工具

本研究采用由美国麦克劳—希尔教育测评中心(McGraw-Hill)研发的WRM 为写作工具。该系统提供一个复合分和六个分项分，分值都是0-5分。其中，写作质量由复合分(Holistic)决定。Chandler (2000) 也用复合分验证整体写作质量。我们将分项成绩分为两类，一类是语言形式，包括词汇(Word choice)、句法(Fluency)和规范(Conventions)；另一类是语篇结构，包括内容(Ideas and contents)、结构(Organization)和语体(Voice)。WRM 还就作文整体情况和六个分项维度提供批语反馈(Narrative feedback)。设置写作辅助工具供学生写作时随时使用。不限制修改次数，学生可以反复“提交—获得反馈—修改”，直到满意为止。

3.2 研究对象

研究对象是我国一所综合性大学非英语专业的100名大一新生，来自同一个专业的两个自然班，其中，实验班50人，对照班50人，由同一教师任教，使用同样的英语教材——读写综合教材，教学任务一致，写作任务和写作次数相同。实验班在第一、二学期使用WRM，第三学期采用纸质写作和传统教师批改方式，对照班一直采用纸质写作和传统教师批改方式，即采用大学英语四级测试中的写作评分法，从内容和语言两个方面对作文进行综合评判，只提供复合分，不提供分项分。

3.3 实验过程

实验历时三个学期，每学期各16周。其中，WRM实验为前两个学期。前测安排在正式上课之前，中测在第一学期期末，后测在第二学期期末，延测在教学实验结束的第三学期期末。实验开始前，两个班都接受了WRM的使用训练。前测、中测和后测时，100名学生同时用WRM完成同题作文，限时30分钟，不少于120词，在写作过程中，我们禁闭了WRM的写作辅助工具。由于成绩要纳入该学期的平时成绩，所有学生都参加了3次测试并能认真对待。延测采用第三学期期末考试中的写作成绩(定义为写作质量，原始的满分15分折合为满分5分)，采用大学英语四级写作阅卷标准，密封阅卷，由两位经常参加大学英语四级阅卷并多次被评为优秀的教师统一评阅，若在同一分数档，取平均分；若跳档，由两位老师协调确定分数。采用期末考试写作成绩作为延测是基于以下原因：学生会认真对待期末测试；英语写作，尤其是大学英语四六级测试仍以人工批阅为主，且只提供复合分，我们要观察实验班在停止使用WRM进行写作训练后，他们的写作质量在人工阅卷环境下会发生什么变化。

3.4 数据收集和分析

本研究的数据来自两个方面。第一，从WRM 提取的前测、中测和后测的复合分和分项分。第二，人工评阅的延测成绩，仅有复合分。我们采用SPSS19.0对数据进行独立样本t检验和重复度量方差分析，回答受试成绩均值的变化程度及其趋势。

4.0 结果与分析

研究结果从三个方面汇报分析：语言形式、语篇结构和写作质量。

4.1 语言形式变化

如上文所述，本研究中所涉及的语言形式主要从WRM 设置的词汇、句法和规范三个维度衡量。其中，词汇维度主要衡量词汇丰富性、多样性和传递信息的准确性；句法维度评价句子结构的完整度、句子的流畅度和句式多样性；规范维度就拼写、标点和语法及词汇深度进行评价。

对照班和实验班在这三个维度的前测、中测和后测均值如表1所示。

表1 对照班和实验班语言形式独立样本t检验

注*：Sig. 小于 .05较显著(下同)

表1显示，对照班语言形式的前测均值都略高于实验班，但没有显著性差异(分别是p=0.826, p=0.629和p=0.802)，前测均值在三次测试中都是最低的，经过两个学期的系统学习后，两个班在三个维度的中测和后测均值都有所提高，后测均值最高。在词汇和规范维度，实验班的中测和后测均显著高于对照班(词汇p=0.049<0.05和p=0.015<0.05；规范p=0.013<0.05和p=0.022<0.05)，在句法维度，实验班的中测和后测也均高于对照班，但没有显著性差异(p=0.289>0.05和p=0.133>0.05)。整体而言，两个班的语言形式均值都表现出后测>中测>前测的特征，这表明两个班的语言形式成绩均发生了变化，即呈上升趋势。

这种变化是否具有显著性需要进一步进行多重比较，结果如表2所示。

表2 对照班和实验班语言形式均值多重比较统计表

注：1=前测，2=中测，3=后测(下同)

表2显示，实验班在三个维度的均值增幅都高于对照班。其中，词汇维度，实验班前测-中测，中测-后测和前测-后测的比较结果均有显著差异(分别是p=0.002<0.05, p=0.000<0.05和p=0.034<0.05)，而对照班的前测-中测和前测-后测比较结果有显著差异(分别是p=0.037<0.05和p=0.000<0.05)，中测-后测结果不具有统计意义上的差异(p=0.159>0.05)。在句法和规范维度，两个班的前测-中测和前测-后测比较结果有显著性差异，中测-后测比较结果都没有显著性差异(p=0.176>0.05 和p=0.367>0.05)。

数据显示，两个班学生在语言形式的三个维度上的均值都表现出在第一学期(中测)增幅较大，第二学期(后测)增幅减缓的整体变化趋势。实验班的增幅较大。变化趋势见图1、图2和图3。

图1 词汇成绩变化趋势

图2 句法成绩变化趋势

图3 规范成绩变化趋势

以上数据表明，传统写作评阅方法和WRM均对学生写作中的语言形式产生了积极影响，实验班学生的提高幅度明显大于对照班。研究者认为导致这一变化趋势的原因有：a) 如果学生有大量用英语写作的机会，他们的语法错误有逐渐减少的可能性(Raimes，2002)。b)WRM是比较新颖的写作工具，实验班初次接触，写作积极性较高，但这种热情在实验后期下降(这反映在学生修改作文的次数减少)，学生心理素质不稳定，中测-后测成绩在句法和规范维度没有显著性差异。c)详细的错误反馈有助于减少错误量(Fathman & Whalley，1990；Kepner，1991)，提高语言的准确性(Chandler, 2000)。WRM既是评价工具也是学习工具，该系统的写作界面设置了四种语言形式方面的编辑功能选项：Hint(写作提示)、Tutor (能即时指出学生的单词拼写错误、词汇错误和语法错误)、Thesaurus(近义词提示)和Tree(指出学生的句法结构错误，并提供修改建议)，学生在写作过程中可以随时获得语言错误提示、诊断提示和修改建议。而传统教师评阅通常只就文章的整体印象给一个总体分数，很少面面俱到地指出学生作文的所有语言形式错误，较少提出纠正建议，更不会提供更丰富的词汇供学生选择。d) 纠错的积极效果并不是来自于纠错本身，而是源自于学生的即时性(Truscott, 2004) 。相对于教师评阅反馈的滞后性，WRM提供了即时反馈信息。e)WRM不限制修改次数，每次更正错误后再次提交，学生都能得到新的反馈，验证修改成果。在“写作—修改—再写作—再修改”的循环写作过程中，获得更多的语言输出机会和交互活动，既体验成功，又发现自我的不足，激发主观能动性，最终完成语言知识的主动建构。而对照班在纠错后很少得到进一步的反馈，其写作表现为线性终结过程。f) Schmidt ( 1990) 的注意假说 ( Noticing Hypothesis) 指出，有效加工处理信息的必要条件是对输入(input)的注意，注意是吸收(intake)内化的前提。WR提供的高频率错误反馈能引导学生有意识地去关注自己的错误，进行认知和加工。久而久之，学生逐渐将正确的语言形式存储于长期记忆中，内化为内在知识，从而提高了语言的准确率。而对照班学生在写作中出现的错误并未得到标注，缺少信息输入，更谈不上有意注意。

4.2 语篇结构变化

本研究中所探讨的语篇结构主要从WRM 提供的内容、结构和语体三个维度加以衡量。其中，内容维度衡量文章的主题是否突出，展开句与主题之间是否有相关性；结构维度就主题思想及其展开方式和展开顺序以及衔接连贯性进行评价；语体维度主要评价学生能否根据写作主题、写作目的和阅读对象选择适当的体裁。

对照班和实验班在上述三个维度的前测、中测和后测均值如表3所示。

表3 对照班和实验班语篇结构均值统计表

表3显示，对照班在三个维度的前测成绩均值略高于实验班，但没有显著性差异(分别是p=0.800>0.05, p=0.381>0.05和p=0.897>0.05)；在三次测试中，两个班的前测均值都是最低的，中测和后测均值都有所提高，后测均值最高。实验班在三个维度的中测均值虽都高于对照班，但没有统计意义上的差异。在后测中，实验班在内容和语体两个维度的均值没有显著高于对照班，结构维度均值则低于对照班，但没有显著差异。整体而言，两个班的语篇结构均值都具有后测>中测>前测的特征，这表明语篇结构成绩在测试中发生了变化，均呈上升趋势。

进一步进行多重比较显示上述变化是否具有显著性，详见表4。

表4 对照班和实验班语篇结构均值多重比较结果

表4显示，在内容维度，实验班中测和后测均值的增加幅度都高于对照班。前测-中测、前测-后测和中测-后测比较结果显示，两个班的内容维度均值都有显著提高。在结构维度，实验班的前测-中测和前测-后测的均值增加值高于对照班，但中测-后测增加值小于对照班(分别增加了0.014和0.072)；另外，两个班的前测-中测和前测-后测比较结果均有显著性差异，成绩显著提高，但中测-后测都没有显著性改善(对照班p=0.072>0.05，实验班p=0.886>0.05)；相比而言，对照班的后测增幅稍大于实验班。在规范维度，实验班在前测-中测、前测-后测的均值增幅高于对照班，但中测-后测的增加值小于对照班(分别增加了0.108和0.088)；此外，两个班都在前测-中测和前测-后测比较结果有显著性差异，而中测-后测比较结果都没有显著差异(对照班p=0.321>0.05，实验班p=0.298>0.05)。

数据显示，两个班在语篇结构的三个维度上的均值都表现出在中测增幅较大，后测增幅减缓的整体变化趋势。不过，对照班在结构和语体两个维度的后测均值提升略高于实验班。变化趋势见图4、图5和图6。

图4 内容成绩变化趋势

图5 结构成绩变化趋势

图6 语体成绩变化趋势

以上数据表明，传统写作评阅方法和WRM都对学生写作中的语篇结构产生了积极影响，其中实验班在三个维度的中测均值提高幅度高于对照班，但后测却趋缓，甚至在结构和语体维度略低于对照班。研究者认为导致这一变化趋势的原因有：a) 经过两个学期的学习，语篇结构成绩有自然提高的过程。b)经过第一学期16周较大强度的语言输入，实验班和对照班学生原有的语言认知积累得到激发，中测均值增加最大，但在第二学期，学生的写作认知提高速度减缓，进而导致后测均值增加趋缓。c)传统英语作文评阅方法重视对语法错误的修改，忽略对结构和语体方面的指导，学生写作时也较少关注语篇内容。WRM采用的分项评分能引导学生关注内容、结构和语体的重要性，但评语比较宽泛笼统，多为机械性批语，缺少修改建议，学生虽然能认识到语篇结构在写作中的重要性，却无所适从，无法完成认知建构。d) WRM提供的语料库反馈信息显示，实验班针对语篇结构的修改频次远低于语言形式的修改次数，这与Attali(2004)、Chen & Cheng (2008)和Warschauer & Grimes (2008)的调查结果一致。e)思维模式很难在短时间内发生转变，两个班学生仍然用汉语思维模式进行英语写作。首先，学生虽能控制写作主题，但展开句与主题之间的相关性相对较弱，语篇展开的逻辑性较弱。其次，传统教师评阅基本没有给出针对语体的评语，WRM 就语体方面的反馈信息非常模糊宽泛且基本上千篇一律。因此，学生的语体意识相对淡薄，两个班都表现出“读者负责型”的写作特征。第三，由于不了解英汉语篇在衔接手段方面的差异，少量学生在写作之初缺少结构意识，后来为了备考大学英语四级，背诵了“模板”作文，在作文中开始大量使用过渡词，结构维度的均值都有所提升，但这种生搬硬套的过渡词过于单一，没有兼顾另外几种衔接手段，如替代、省略、指示、词汇衔接等。因此，两个班在结构维度的后测均值是三个维度中最低的。f) 缺少语篇知识的可理解性信息输入。二语写作教学中，教师多将注意力集中在写作的表层特征，如语法和写作技术规范，较少关注篇章布局、遣词造句的技能、修辞手段的运用 (Applebee,1981;Hedgcock & Lefkowitz,1992;Hyland,2000;Kepner,1991;Vann, et al.,1984；蔡基刚，2002) 。Long(1996)提出的交互假设(Interaction Hypothesis)认为交互包括得到可理解的输入、提供对二语形式的反馈和创造调整后输出的机会。系统提供的语篇结构反馈虽能弥补教学信息输入的不足，引起学生的有意注意，但缺少有意义的反馈，学生的修改略显盲目，效果也不理想。

由此可见，写作自动评价系统尚无法解决的弊端——不能识别、评价写作在语篇、语境、文化、修辞等方面的高阶特征，应由教师反馈和写作教学予以弥补。

4.3 写作质量变化

写作质量由复合分数决定。WRM 给予的复合分并不是各个单项分累加后的平均分，而是基于上述六个维度的综合评定。对照班和实验班写作质量的前测、中测、后测和延测均值情况如表5所示。

表5 对照班和实验班复合分数均值统计表

表5显示，对照班的复合分前测均值略高于实验班，但没有统计意义上的差异(p=0.797>0.05)；前测均值在四次测试中都是最低的。经过三个学期的系统学习后，两个班的中测、后测和延测均值都有所提高，延测均值最高。实验班的中测和后测均值都显著高于对照班(p=0.031<0.05和p=0.033<0.05)，延测均值则未显著高于对照班(p=0.358>0.05)。整体而言，两个班的复合分均值都具有延测>后测>中测>前测的特征，这表明两个班的写作质量均发生了变化，呈上升趋势。同时也表明，在停止使用WRM后，实验班写作质量的提高仍具有持续性。

实验班和对照班写作质量的变化是否具有显著性需要进一步进行多重比较，结果见表6。

表6 对照班和实验班复合分数多重比较结果

注：4=延测

表6显示，两个班除后测-延测均值提高都没有统计意义上的差异 (对照班p=0.346>0.05，实验班p=0.817>0.05)外，前测-中测、前测-后测、前测-延测、中测-后测、中测-延测的均值都有显著提高。实验班在前测-中测、前测-后测和中测-后测的均值增幅都高于对照班，但后测-延测均值增幅低于对照班。另外，两个班都表现出中测和后测增幅较大，延测增幅减缓的整体变化趋势，见图7。

图7 写作质量变化趋势

以上数据表明，传统写作评阅方法和WRM都对学生写作中的写作质量产生了积极影响，而且WRM对实验班写作质量的提高具有持续性。导致这一变化趋势的原因有：a) 持久的英语学习能自然提高写作质量。b)写作质量达到一定程度后，其后续提高过程会遇到瓶颈因而逐渐减缓。c) 当二语习得者的作文得到整体反馈和分项反馈时，他们能在修改中表现出语篇内容和语言形式两个方面的共同进步(Ashwell,2000;Fathman & Whalley,1990;Ferris, 1997)，实验班的复合分均值增幅高于对照班这一结果印证了分项评分和整体评分相结合的方法更能有效提高写作质量。d)实验班并没有建构完整而稳定的写作知识体系，导致延测均值没有显著高于对照班，且后期写作质量的提高幅度略低于对照班。需要指出的是，写作质量由语言形式和语篇结构综合考量，任何一个维度的分项分数都有可能影响到最后的复合分(写作质量)。实验班写作质量具体在哪个维度的变化导致其延测成绩增幅减缓，仍需进一步探究。

综上所述，写作自动评估系统对于中国大学生英语写作水平具有积极影响，尤其能显著提高语言形式和写作质量。即使停止使用后，在人工阅卷环境下，实验班学生写作质量的提升仍表现有持续性，但在语篇结构层面的提高不明显。

5.0 结论

评价最重要的目的不是证明而是为了改善(Stufflebeam,2003:34)。写作自动评价系统运用于写作教学中，能够改变学习者的语言学习体验，增加可理解性知识的输入，提供高频率、反复的写作反馈，并创造调整后输出的机会，从而提高学生的写作水平。从语言形式看，实验班学生在词汇、句法和规范等三个维度的增幅显著高于对照班，而且能将正确的语言形式存储于长期记忆中。从语篇结构看，实验班在结构和语体维度的后测成绩增幅低于对照班。这暴露了写作自动评价系统的缺陷——不能从高阶层面给予有效反馈，也验证了该系统只能是其他形式反馈的补充而不能是其替代品(Ware & Warschauer,2006)，如何将自动写作评价系统提供的语言层面的反馈与教师的语篇反馈相结合，建立多元化的人际交互反馈机制，还需要进一步探究。从写作质量看，实验班的增幅显著高于对照班，但这种优势并没有持续到延测，说明学生并没有建构完整而稳定的写作知识体系，所以在教学中如何突破写作瓶颈也是未来值得探究的问题。

本研究为探讨如何将现代信息技术与大学英语教学进行整合，使之成为教学的一个有机组成部分，提供新思路。不过，本研究尚存在一些局限性，如样本数量较少，因此，研究结果的普遍有效性有待后续研究的进一步论证。

[1] Applebee, A. N.WritingintheSecondarySchool(NCTEResearchReport.No. 21)[R]. Urbana: National Council of Teachers of English, 1981.

[2] Ashwell, T. Patterns of teacher response to student writing in a multiple-draft composition classroom: Is content feedback followed by form feedback the best method?[J].JournalofSecondLanguageWriting, 2000,9:227-257.

[3] Attali, Y. Exploring the feedback and revision features of criterion[R]. Paper presented at the Annual meeting of the National Council on Measurement in education. San Diego, CA. April, 2004.

[4] Chandler, J. The efficacy of error correction for improvement in the accuracy of L2 student writing[R]. Paper presented at the AAAL Conference, Vancouver, 2000.

[5] Chen, E. & E. Cheng. Beyond the design of automated writing evaluation: Pedagogical practices and perceived learning effectiveness in EFL writing class[J].LanguageLearningandTechnology, 2008,12:94-112.

[6] Fathman, A. K., & E. Whalley. Teacher response to student writing: Focus on form versus content[A]. In B. Kroll (eds.).SecondLanguageWriting:ResearchInsightsfortheClassroom[C]. Cambridge: Cambridge University Press, 1990.178-190.

[7] Ferris, D. R. The influence of teacher commentary on student revision[J].TESOLQuarterly, 1997,31:315-339.

[8] Flower, L. & J. R. Hayes. A cognitive process theory of writing[J].CollegeCompositionandCommunication, 1981,32:365-387.

[9] Hedgcock, J. & N. Lefkowitz. Collaborative oral/aural revision in foreign language writing instruction[J].JournalofSecondLanguageWriting, 1992,1:255-276.

[10] Hoon, T. Online automated essay assessment: Potentials for writing development[OL]. 2006. http://ausweb.scu.edu.au/aw06/papers/refereed/tan3/paper.html [2014-12-27].

[11] Hyland, F. ESL writers and feedback: Giving more autonomy to students [J].LanguageTeachingResearch, 2000,4:33-54.

[12] Kepner, C. G. An experiment in the relationship of types of written feedback to the development of second-language writing skills[J].TheModernLanguageJournal, 1991,75:305-313.

[13] Long, M. The role of the linguistic environment in second language acquisition[A]. In W. Ritchie & T. Bhatia (eds.).HandbookofSecondLanguageAcquisition[C]. New York: Academic Press, 1996.413-468.

[14] Martinez, N. & J. Martinez.BasicCollegeWriting[M]. Prentice Hall, 1991.

[15] Milton, J. Resource-rich Web-based feedback: Helping learners become independent writers[A]. In K. Hyland & F. Hyland (eds.).Feedbackinsecondlanguagewriting:Contextandissues[C]. New York: Cambridge University Press, 2006.123-139.

[16] Raimes, A. Responding to students’ written errors: Looking at causes[A].Paperpresentedatthe22ndAnnualTESOLConvention, Chicago, 2002.

[17] Reilly, E. D., R. E. Stafford, K. M. Williams & S. B. Corliss. Evaluating the validity and applicability of automated essay scoring in two massive open online courses[J].InternationalReviewofResearchinOpenandDistanceLearning, 2014,11(5):83-98.

[18] Rich, C., H. Harrington, J. Kim & B. West. Automated essay scoring in state formative and summative writing assessment[R]. Paper presented at the Annual Meeting of the American Educational Research Association. New York, March 2008.

[19] Scharber, C., S. Dexter & E. Riedel. Students’ experiences with an automated essay scorer [OL]. 2008. http://escholarship.bc.edu/cgi/viewcontent.cgi? article= 1116&content= jtla [2011-12-27]

[20] Schmidt, R. The role of consciousness in second language learning[J].AppliedLinguistics, 1990,11:129-158.

[21] Schroeder, J., B. Grohe, & R. Pogue. The impact of criterion writing evaluation technology on criminal justice student writing skills[J].JournalofCriminalJusticeEducation, 2008,19(8):432-445.

[22] Shermis, M., J. Burstein & L. Bliss. The impact of automated essay scoring on highstakes writing assessments[R]. Paper presented at the Annual Meeting of the National Council on Measurement in Education. San Diego, April 2004.

[23] Stufflebeam, D. L. The CIPP model for evaluation[A]. In D.L. Stufflebeam & T. Kellaghan (eds.).TheInternationalHandbookofEducationalEvaluation[C], Boston: Kluwer Academic Publishers, 2003.31-62.

[24] Truscott, J. Evidence and conjecture on the effects of correction: A response to Chandler[J].JournalofSecondLanguageWriting, 2004,13(4):337-343.

[25] Vann, R. J., D. E. Meyer & F.O. Lorenz. Error gravity: A study of faculty opinion of ESL errors[J].TESOLQuarterly, 1984,18:427-440.

[26] Ware, P.D. & M. Warschauer. Electronic feedback and second language writing[A]. In K. Hyland & F. Hyland (eds.).FeedbackinSecondLanguageWriting:ContextsandIssues[C]. Cambridge: Cambridge University Press, 2006.

[27] Warschauer, M. & D. Grimes. Automated writing assessment in the classroom[J].Pedagogies:anInternationalJournal, 2008,3:22-36.

[28] White, L., N. Hixson, J. D Brot & J. Perdue. Impact of Writing Roadmap on WESTEST 2 online writing assessment scores [OL]. 2010. http://wvde.state.wv.us/oaa/pdf/research. [2011-12-27].

[29] Wilson, J. Does automated feedback improve writing quality?[J].LearningDisabilities:AContemporaryJournal, 2014,12(1):93-118.

[30] 蔡基刚. 大学英语四、六级写作要求和评分标准对中国学生写作的影响[J]. 解放军外国语学院学报，2002,(5):49-53.

[31] 陈潇潇，葛诗利. 自动作文评分研究综述[J]. 解放军外国语学院学报，2008,(5):79-83.

[32] 葛诗利，陈潇潇. 大学英语作文自动评分研究中的问题及对策[J]. 山东外语教学，2009,(3):21-26.

[33] 何旭良. 句酷批改网英语作文评分的信度和效度研究[J]. 现代教育技术，2013,(5):64-67.

[34] 胡学文. 在线作文自我修改对大学生英语写作结果的影响[J]. 外语电化教学，2015,(163):45-49.

[35] 蒋学清，蔡静，唐锦兰. 探究自动作文评分系统对大学生英语写作能力发展的影响[J]. 山东外语教学，2011,(6):36-43.

[36] 梁茂成，文秋芳. 国外作文自动评分系统评述及启示[J]. 外语电化教学，2007，(5)：18-24.

[37] 鲁艳辉，谭福民，彭舜. 智能写作评分系统在大学英语写作中的实证研究[J]. 现代教育技术，2010,(6)：56-58.

[38] 马卫华, 甄强. 大学生对在线英语写作自动批改系统的评价——以句酷批改网为例[J]. 山东广播电视大学学报，2016,(1):31-33.

[39] 唐锦兰. 探究写作自动评价系统在英语教学中的应用模式[J]. 外语教学理论与实践，2014,(1)：49-57.

[40] 唐锦兰，吴一安. 在线英语写作自动评价系统应用研究述评[J]. 外语教学与研究，2011,(2):273-282.

[41] 唐锦兰，吴一安. 写作自动评价系统在大学英语教学中的应用研究[J]. 外语与外语教学，2012,(4):53-59.

[42] 王勃然, 金檀, 赵雯. 自动写作评价研究与实践五十年——从单一、合作到交互[J]. 外语研究，2015,(5),50-56.

[43] 王淑雯. 如何利用Writing Roadmap进行在线英语写作反馈[J]. 现代教育技术，2011，(3)：76-81.

[44] 杨晓琼，戴运财. 基于批改网的大学英语自主写作教学模式实践研究[J]. 外语电化教学，2015,(2)：17-23.

[45] 张荔，盛越. 自动作文评阅系统反馈效果个案研究[J]. 外语电化教学，2015,(3)：38-44.

[46] 周丽. 英语在线写作平台对大学生写作句法能力的影响[J]. 外语电化教学，2015,(5)：26-29.

[47] 周颖. 在线形成性评价工具在英语写作中的应用——困难及对策探究[J]. 现代教育技术，2011，(9)：88-93.

A Longitudinal Study on the Impacts of an Automated Writing Assessment System on the English Writing Proficiency of Chinese College EFL Learners

WANG Shu-wen

(School of Foreign Languages, Southwest Petroleum University, Chengdu 610500, China)

While many research results have proved that the automated writing assessment system has positive impacts on the improvement of writing quality, few researches examined the endurance of such effects in a longitudinal way. In this research, a longitudinal study was carried out to examine the effect of “Writing Roadmap” — an automated writing assessment system, on the English writing proficiency of non-English major freshmen. Pre-, mid-, post- and extended-tests were conducted to examine the enduring effect of Writing Roadmap on their English writing proficiency. The results indicate that more improvements in language form and writing quality were observed in the experimental group than that of the control one, and such an improvement in the writing quality was endured in the extended-test. Besides, non-significant improvements were found in textual structure in the experimental group. What’s more, there was little progress in post-test and extended test in both groups. So it is concluded that “Writing Roadmap” has showed enduring positive impact on the writing proficiency of the experimental group. It is expected that the findings of the study will provide references for the further integration of automated writing assessment system with writing teaching in the EFL classroom.

automated writing assessment system; English writing proficiency; language form; textual structure; writing quality

10.16482/j.sdwy37-1026.2017-02-007

2016-11-14

本文为四川省科技厅软科学项目“基于语料库的中外石油天然气类英语学术语篇的言据性研究”(项目编号：2015ZR0156)和西南石油大学教学课题“对比语言学视域下的研究生英语翻译教学研究与实践”(项目编号：2016JXYJ-38)的部分成果。

王淑雯(1970-)，女，汉族，安徽省固镇人，教授。研究方向：语言学及应用语言学。

H319

1002-2643(2017)02-0051-11