句酷批改网写作智能批阅系统信度和效度问题研究

2018-02-26 19:17常伟
教育界·上旬 2017年12期
关键词:英语作文信度效度

常伟

【摘要】句酷批改网对提高学生的写作能力有着不可低估的作用。然而,句酷批改网在对英语作文评判中依然存在着相当严重的信度和效度不足问题。文章试图从词意、结构、逻辑性方面对句酷批改网评分失真因素进行探析。

【关键词】英语作文;信度;效度;句酷批改网

一、引言

句酷批改网是北京词网科技有限公司开发的一款基于语料库和云计算技术的英语作文自動在线批改服务系统。该系统将学生作文与语料库文本从192个子维度进行对比测量,将其差距通过一定的权重进行计算,在生成词汇、句子、篇章和内容四个维度的得分的同时给予最后总分、评语和点评。同时,对拼写错误、语法错误、中式英语、高分句型和易混词汇等信息提供反馈,提示学生进行作文修改,从而达到提高学生写作水平的目的。该系统与传统作文批改方式相比优势明显,能有效提高教师的工作效率,提升学生的英语写作能力。

然而,在实际的写作实践过程中,笔者发现句酷批改网在信度和效度方面都存在一定的问题,有些问题甚至较为严重。基于此,本文将从词意、结构、逻辑性方面研究影响句酷批改网信度和效度失真的因素,以及以上三个方面在多大程度上会影响信度和效度的偏移。

二、研究现状

随着句酷批改网在全国各高校英语教学中的实践应用的兴起,国内众多研究者对句酷批改网在写作实际运用中的作用、效果、运用策略等方面做了实证调查研究,并得出了相应结论。例如:这种方式为学生在词汇和语法上提供了很多帮助,但是在思想内容、篇章结构和逻辑性方面还需要教师的辅导(马卫华,甄强,2017);句酷批改网比较机械化,不够智能化,不能判断作文题目与文章内容的相关性,不能判断写作者写的作文是否跑题,作文题目根本不影响作文的得分(罗保山,2016);批改网评分尚不能反映学生英语作文的真实水平。在词汇和语法层面给予学生的反馈较多,但在写作内容、篇章结构、语体修辞、内容逻辑性及连贯性方面尚不能给学生足够的反馈(何旭良,2013);对常见拼写错误和搭配问题能做出正确的批改,但就批改效度而言,还需要在语篇结构、修辞手法、语言的得体性等方面进行改进,提高句酷批改的灵活度(何小翠,2015)。众多研究都明确指出了一个不可回避的尴尬现状,即句酷批改系统在信度和效度方面存在失真现象。本研究将从词意、结构、逻辑性三个方面展开研究,力图探究这三个方面在评分上如何影响最终结果。

三、关于信度与效度

(一)信度

信度(Reliability)即可靠性,指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度。信度分析的常用具体方法有重测信度(test-retest reliability)、复本信度(parallel-forms reliability)、分半信度(split-half reliability)。对于句酷批改网打分评判的信度而言,其主要目的在于确定文本在什么程度上会导致其评分信度的失真。也就是说,当写作者提交一篇作品之后,句酷批改网给出的评分是否能有效测量作者的实际语言水平。

(二)效度

效度(Validity)即有效性,是指测量工具或手段能够准确测出所需测量的事物的程度。效度是指所测量的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,效度越高;反之,则效度越低。效度分为三种类型:内容效度(content-related validity)、准则效度(criterion-related validity)和结构效度(construct-related validity)。就句酷批改网效度而言,主要看是否检测了应该检测的内容或者说所检测的内容是否反映了检测的要求,即测试的代表性和覆盖面的程度。

四、研究方法

鉴于该研究只针对大学英语四级写作文本的检测信度和效度研究,因此本研究材料均取自大学英语四级标准写作文本。笔者选取2013-2017年四级真题写作标准范文10篇,通过对文本的分析和检测来回答句酷批改网对文本如何在词意、结构、逻辑性方面的失真导致检测的信度和效度失真。

(一)用词对评分信度和效度的影响

对于英语写作能力评判的要素之一就是文本用词的准确性和复杂性。对于写作水平评判,必然需要考察的是这个层次应该具备的用词难度。因此,用词的准确性是影响文本质量的重要因素。笔者先将10篇四级写作标准范文用句酷批改网进行评分,得出对照组分数;然后将每一篇范文中涉及话题的名词一律用X符号代替,再进行评分,得出实验组分数。其结果如表1。

从表1可以看出,虽然实验组成绩都有所下降,但句酷网给出的关于词汇部分的评分却没有降低,而是对篇章结构的评分降低了,这一点反映了句酷批改网存在信度失真。实验组的作文虽然句型结构未变,但实际表达意义消失,虽然评分有所下降,但整体分数依然偏高,与实际应该的得分相差较大,这说明句酷批改网在对作文的评分中对文章核心词的关联度极低。同时,对照组平均成绩为85分,在对名词替换后,实验组平均成绩为77.05分,平均成绩下降了7.95分。从效度角度来看,句酷批改网评测效度较为理想。

笔者随后将10篇标准范文中的动词进行语法错误性替换,再进行评分,得出10个实验分。其结果如表2。

从表2可以看出,实验组文章错误数量剧增。虽然实验组文本的分值出现了下降(实验组平均成绩为78.5分,比对照组的平均成绩下降了6.5分,说明评测具有一定效度),然而从整体上来看,分数依然还是偏高,与实际应该的得分相差较大,说明信度问题依然严峻。句酷批改网在词汇和句子方面的分值都有所下降,这说明虽然句酷批改网在对作文的评分中对动词检测敏感度较高,但与分值关联度较低,这是导致评分信度和效度失真的重要因素之一。

(二)文章段落结构对评分信度和效度的影响

对于英语写作水平评判的另一个要素就是文本篇章结构是否合理。对于四级层次的写作,合理、必要的分段是评价写作水平的重要因素。endprint

笔者将10篇标准范文原有段落结构顺序彻底打乱,再进行评分,得出10个实验分。其结果如表3。

由表3可以看出,句酷批改网对打乱了段落结构顺序的文章评分与标准范文原文的评分一致。对于英语四级写作来说,段落结构就是作者论证话题的思路结构,对段落结构的改变在一定程度降低了思路逻辑的合理性。然而,从句酷批改网的评分来看,段落结构的变换没能带来相应的评分变换,这说明句酷批改网对段落结构逻辑布局没有纳入评分范围。这对评分信度和效度有着极大的影响。

(三)句子结构对评分信度和效度的影响

对于四级层次的写作而言,在要求做到语言表达准确,段落逻辑结构合理之外,句子结构的难易程度也是衡量一篇文章是否优秀的重要标准。长、短句的混合存在是优秀文章的必要条件之一。

笔者将10篇范文中的长句进行缩句替换,保持信息量不变,然后再进行评分。其结果如表4。

从表4可以看出,在不改变表达意义的前提下,对句子进行缩句替换后,评分都出现下降,且符合实际应得分数,这说明句酷批改网在对句子结构给分判断上信度和效度较高。以最后一篇范例来看,在进行缩句处理后,文本句型变单一,句子复杂度降低,整体文章质量下降,评分由87分下降为82.5分,实验组平均成绩为76.65分,比对照组平均成绩下降了8.35分。且评分下降主要体现在句子层面的得分下降,这说明句酷批改网在对句型结构的判断上具有一定的信度和效度。

五、结论

通过以上实验性的检测分析,我们可以看出,句酷批改网在对文章检测过程中对句型复杂度的赋值大于对用词准确度的赋值,对文章的段落逻辑结构的检测信度和效度为零。其中在用词方面,对名词的检测度赋值大于对动词的检测赋值,动词使用错误检测准确率高,但赋值度较低。

在学生使用句酷批改网进行写作训练应时,首先,无论是想根据分数来判断文章存在问题,还是想尽量提升句酷批改网评分,在具体操作上,都应将重点放在句子层面,增加句子长度,多用从句、并列句、复杂句等。句子结构层面的提升既是提升文章质量,也是提升句酷网评分的首要选择。其次,应该增强用词方面的准确性和正确性,虽然这在句酷批改网评分提示中较为容易发现错误,赋值也较低,但对文章质量影响较大。再次,句酷批改网只是人工智能在写作方面的初步应用,要实现人类大脑具有的逻辑性思维还有漫长的路要走。

【参考文献】

[1]马卫华,甄强.大学生对在线英语写作自动批改系统的评价——以句酷批改网为例[J].山东广播电视大学学报,2016(01):31-33.

[2]罗保山.基于句酷批改网的英语作文题目對作文总体评分的影响[J].软件导刊(教育技术),2016,15(05):91-93.

[3]何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教育技术,2013,23(05):64-67.endprint

猜你喜欢
英语作文信度效度
校企融合背景下,思政教师在职业生涯规划教学中的效度探索
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
提高高中生英语写作能力之我见
大学生积极自我量表初步编制
论高职英语多元化综合评价模式的效度与信度
巧用多媒体,提高教学效率
计算机辅助英语测试研究
墨子论度