基于BBS语料的批改网应用研究

2018-07-28 06:36牟晓青于志涛
关键词:发帖错误自动

牟晓青,于志涛

(山东理工大学 外国语学院,山东 淄博 255000)

一、引言

自动写作评分与评价(Automated Essay Scoring and Evaluation,AESE)技术,在教学与考试中逐渐得到应用。该技术可识别和评价写作中的语言属性和存在的问题,为学生写作提供及时反馈,亦使教师可以籍助计算机网络的高效功能,布置写作任务,进行跟踪、监督,提供个性化指导。国际上,AESE已成为一个重要研究领域[1]27。

与国际相比,国内相关研究文献相对较少。在中国知网期刊库中,根据主题进行检索,共获得1349条文献记录。根据论文标题和摘要,逐一进行人工判别,最终获得研究文献280条,其中核心期刊、CSSCI期刊论文仅有69条。运用CiteSpace 2.2.R9[2]359[3]5303进行主题知识图谱分析,结果见图1。

根据图1,结合文献主题判别,可将国内AESE领域的研究热点分为英语写作与教学、自动评分、反馈、批改网、效度、语料库6个亚类。国内AESE研究主要聚焦英语这一语种的写作与教学,自动评分、反馈(即自动写作评价)、效度、语料库皆为AESE的核心技术,自然成为研究学者的关注点。而在实践中,批改网已成为应用较为广泛的英语写作与教学载体,遂成研究热点。根据中国知网检索,对批改网的研究主要集中在实践教学模式、对写作能力的影响、评分信度与效度等方面,研究方法主要为实验法、问卷调查法、数理统计法。

本研究拟采集BBS语料,对批改网应用进行可视化分析。网络BBS具有匿名性,意见表达相对自由真实[4]41。基于BBS语料,可更客观地对批改网应用进行分析和反思。

二、 批改网网络关注热度与地域分布

百度为全球最大中文搜索引擎,以互联网用户的百度搜索量为基础加权计算的搜索指数,可作为用户群体的关注热度衡量指标,对搜索词人群属性的聚类分析,亦可获得地域分布相关特征。以“批改网”为关键词,使用百度指数统计分析平台(http://index.baidu.com),采集计算每月的日均搜索指数作为每月搜索指数,以○与□分别标示年度最高点与最低点,结果见图2,地域分布见图3。

图1 国内自动写作评分与评估领域主题知识图谱分析

图2 “批改网”百度搜索指数统计图

图3 “批改网”关注人群地域分布统计图

1.网络关注热度分析

借助搜索引擎优化分析技术(Search Engine Optimization,SEO),对批改网进行综合分析可知,该域名创建于2010年5月18日。批改网百度搜索指数,自2011年1月起开始有统计数据,9月指数达到788,开始具有稳定的关注群体。根据趋势预测计算,搜索指数总体呈现明显增长趋势, 2016年5月达到21774,月平均搜索指数达到4220.7867(2011年1月至2017年3月16日),这说明愈来愈多的用户关注使用批改网。但在图2中可看到搜索指数具有明显的起伏周期,高峰与低谷恰与学校的学期和寒暑假设置相吻合。这说明,学生对批改网的使用,还主要依赖于教师的主导式教学安排,自主学习的主动性尚待提高。

2.网络关注地域分布分析

根据图3可知,“批改网”搜索词关注人群中,数量最多的省份为广东、北京、四川、江苏、山东。关注度主要集中在华东、华北、华南。从我国东部、中部与西部的地区划分来看,批改网的网络关注主要来自东部地区,中西部明显偏少。这间接反映出中西部对批改网的应用,尚不广泛。在一定程度上说明,中西部地区信息化教学支持体系建设相对薄弱,其英语写作教学的信息化发展相对缓慢。这可能与我国地区间存在数字鸿沟有关。东部地区网络社会发展水平与数字生活发展水平明显居于优势,东西部绝对差距仍然较大[5]。

三、基于BBS语料的批改网应用

(一)数据来源

本研究采用网页数据采集程序,对百度贴吧“批改网吧”(http://tieba.baidu.com/f?kw=%C5%FA%B8%C4%CD%F8&fr=ala0&tpl=5),以及批改网论坛(http://bbs.pigai.org/forum.php)“批改网师生报错专区”“批改网使用帮助”“用户意见反馈”三大板块发帖内容进行采集。采集时间自2017年2月25日至2月28日,历时4天。去重处理后,共获得“批改网吧”发帖数据256条(时间长度:2013-05-02至2017-02-05;数据总长度67038字符),“批改网师生报错专区”发帖数据29802条(时间长度:2013-12-30至2017-02-28;数据总长度7142227字符),“批改网使用帮助”1284(时间长度:2011-12-21至2017-02-26;数据总长度401981字符),“用户意见反馈”268条(时间长度:2012-10-11至2017-02-27;数据总长度63780字符)。所有样本数据,均做预处理:进行分词,去除停用词,提取行特征。

(二)写作报错类型分析

在“批改网师生报错专区”,用户主要依据批改网给出的报错提示进行发帖,反映了用户群体关注的报错类型,也反映了用户群体写作过程中存在的主要错误类型。发帖主要涉及提示类(学习提示、搭配统计、批改提示等)、错误类、警示类(低频、中式英语等),也有少数发帖对批改网提示提出了疑问。通过主题判别,删除灌水帖19条,获得有效发帖29783条,抽取批改网报错提示的表述语句,用于主题命名,获得88类主题。提取报错主题,对频次属性进行可视化分析,结果见表1。

在表1中可以看到,批改网中有的报错提示表述进行了程度区分。其中,语法类提示,区分为语法检查、语法不规范、语法错误。批改网在语料库中没有发现相同表述,寻找不到相近表述提供修改建议时,会给出“语法检查”建议;无相同表述,但寻找到相近表述能够提供修改建议时,给出“语法不规范”提示;根据词语搭配,确认存在错误时,会给出“语法错误”提示。但有的错误类型,例如,主谓不一致、主语错误、句子不完整、句首字母小写等,则皆以“句子错误”给出提示,可进一步细化,提供有针对性的修改建议。

根据表1,用户群体中占最大比例的错误类型是疑似中式英语。有的中式英语比较生硬,错误比较明显;更多的则在语法上完全正确,但不合乎英语国家使用习惯,仍属汉语思维范畴。在写作教学中,对学生加强引导,除中国特色表述难以避免中式英语之外,应以标准英语为规范。

其他比例超过2%的错误类型有语法不规范、动词错误、拼写错误、名词错误、搭配错误、语法检查、标点符号错误、词性错误(批改提示是对写作中常出现词汇、短语的总结和归类,不属错误类型)。由此可以看出,词汇与语法基础知识的掌握,依然是英语写作教学中的一个重要关键点。

表1“批改网师生报错专区”发帖主题统计列表

在发帖主题中,存在改错和作文精批求助。批改网的智能批改,更多是一种建议提示,有时无修改指示,使一部分基础薄弱的学生无所适从。在智能批改的基础上,仍需人工评阅的有机配合,方可实现写作教学的最终目的。

在发帖中,有用户提出批改网存在提示矛盾、按照提示越改越差的问题;还有用户以BBC原文进行评分测试,批改网给出了76.5的较低分数,并指出两个语法错误与许多中式英语用法;也有用户指出,将六级满分作文的一段话掺入自己的作文,可迅速拉高评分。评分技术、语料库建设、改错提示技术等,是批改网未来建设的重要方向。

(三)反馈意见分析

1.主题分析

百度贴吧“批改网吧”、批改网论坛 “批改网使用帮助”与“用户意见反馈”发帖内容主要是就批改网使用的相关问题进行提问,反馈使用意见。对三部分内容进行合并,可视作批改网使用反馈意见。对反馈意见,转化为ANSI编码格式,抽取行特征词,进行一级主题命名。对一级主题,根据共词关系,进行二级主题命名,作为主题分类。最终去除69条无关发帖,获得主题分类61个,有效发帖1739条,结果见表2。

根据表2可知,求助类发帖最多,占61.2421%,其中修改求助发帖达到1048条,占60.2645%。用户在获得批改网提示后,由于英语能力受限,却不知如何修改,这就需要人工帮助加以配合,才能达到作文批改的最终目的;另一方面,在一定程度上也反映了批改网的修改提示需要作进一步的明确和细化;这与人工批改主题发帖、存疑类发帖、修改建议机械/不明确主题发帖相一致。其他求助发帖主要涉及有关词汇、方法、知识的提问。

数量位居第二的为操作类发帖,共108条,占6.2105%,主要涉及批改网各菜单、功能的使用方法、相关故障。目前批改网已提供了使用指南,有简明的快速入门文档,也配有视频教程。但指南放置的位置并不醒目,不易引起用户的关注,导致部分用户不知如何具体操作,故发帖询问。

许多用户对批改网的评分标准、计算方式提出了疑问(占3.6228%),认为根据提示越改越差,询问为何0分、不及格、同作文不同分数、难以获得满分,建议修改为15分制等多种形式以对接各类不同考试形式,存在乱写得分、再次打开时会出现分数下降现象,求教高分方法。测试类发帖(0.1725%)中,用户使用考研作文、英语国家原文进行评分测试,亦反映了这一问题。

修改类发帖,主要涉及各类信息和操作的修改提问。关于教师一次修改与多次修改的预设置存在争议,从学生自主学习的角度,应允许教师批改后学生仍可修改,但从成绩评定的公平性来看,则应采取双界面的形式,使教师能够看到自己当时的评定信息,便于成绩认定;使教师同时能够看到学生的再修改界面,有利于学生的再学习和提高。写作修改轨迹,有用户以涉及个人隐私为由,提出不应呈现,反映出学生的法律意识和自尊。从尊重和保护学生的角度,批改网可呈现修改次数,将修改轨迹是否呈现交由用户自行决定。

内容相关性与相似度检测,亦是用户的重要关注点。内容相关性涉及语义分析,亦是作文智能批改的难点。在实际操作中,批改网将其分为内相关与外相关。前者指“作文用到的关键词内部之间的相关性”,后者指“本篇作文和相同题目作文之间的相关性”。相似度检测,其比对对象则局限于批改网内部所有作文,对于抄袭网络资源等无法检测。这与通常意义上的内容相关性、相似度检测,仍有一段距离。

在发帖中,也有用户提出了正确使用批改网的态度,认为“尽信书则不如无书”,以批改网智能批改为基础,与教师批改有机结合,方是正确方法,可以有效改善“学生苦老师累”的状况。

2.情感分析

本研究将大连理工大学情感词汇本体库(徐琳宏等, 2008)[6] 180和中国知网情感分析用词语集(beta版)合并,作为情感极性词汇库,对1739条发帖进行分句、分词处理,确定词汇极性,计算情感评分发现,批改网反馈意见发帖中,以中性情绪与积极情绪为主,分别为39.44%、39.22%,消极情绪仅占21.34%。总体来看,发帖内容叙述客观,对批改网应用持赞成态度。

四、反思与启示

从1966年E. Page提出第一个自动评分系统PEG(Project Essay Grade)[7]238至今,已经有五十余年。目前应用成熟的系统有PEG、E-rater[8]55、Intelligent Essay Assessor (IEA)[9]68(P.W. Foltz等, 2013)、IntelliMetric[10]89(M.T. Schultz, 2013)。时至今日,囿限于技术的发展水平,自动写作评分/评价的弱点十分明显:主要侧重于词汇和文本的语法,以及有限地考虑文本语义[11]118。但在手工评阅费时费力这一事实面前,自动写作评分/评价成为实际可行的解决方案。

表2批改网反馈意见发帖主题分类统计列表

根据Blood I.(2011)[12]40的研究,识别伪劣作文、增强反馈的丰富性亦是自动写作评分/评价领域的难题。机器评分会导致学生过多地考虑评分维度,使用所谓高分词汇、句型等技巧,从而获得高分。但这却并非写作能力的真正提高。如何识别恶意获取高分的行为,培养真正的语言产出性行为,是自动写作评分/评价领域的一个重任。再者,从自主学习的角度来看,仅仅获得一个评分,显然不能成为最终目的。能够提供有意义的、有建设性的反馈,以供学生修改提高,这才是写作教学的期望。

通过网络关注度和地域分布分析,可以看出批改网在国内的应用非常广泛,已成为写作教学实施的重要方式之一。作为国内唯一基于语料库的自动批改系统,批改网已逐渐得到认可,在降低测试成本、快速提供成绩报告、减轻教师工作量、实现大量学生的大数量写作方面,具有明显优势。其自动反馈的匿名性、即时性和改进的可重复性,已成为学生多写多练的有效激励方式。

根据用户学习关注点和批改网反馈意见的分析,批改网可进一步完善各项功能,加强语义分析研究,进一步提高评分的可靠性,建设细化具体的反馈系统等,以更好地满足用户写作练习的需求。同时,进一步加强机改系统对各种终端的兼容性,尤其是平板电脑、手机系统,以利于真正实现写作的泛在学习。

从本研究的分析来看,众多用户对批改网提出的意见建议,许多属于功能进一步完善的范畴,需要批改网服务的进一步细化;但有一些则属于自动写作评分/评价领域共同面临的难题,期待未来众多研究学者的共同攻关克难。我们对待包括批改网在内的自动写作评分/评价系统,均应该具有正确的使用态度,正确认识其角色作用,对其求大求全,至少在目前,皆不现实。自动写作评分/评价系统可以提供帮助,而不是替代教师的作用。

猜你喜欢
发帖错误自动
在错误中成长
自动捕盗机
英议会掏钱让议员学如何发帖
让小鸭子自动转身
自动摇摆的“跷跷板”
关于自动驾驶
不犯同样错误
利用学校网络平台,培养学生写作兴趣
《错误》:怎一个“美”字了得
可爱的错误等