基于语料库的英语写作量化评估方法研究:——以商丘学院12届英语本科生毕业论文的量化评估为例

2014-02-26 03:09赵秀莲
大学英语(学术版) 2014年2期
关键词:宁波大学高频词商丘

赵秀莲

(商丘学院,河南商丘476000)

一、引言

1.语料库研究现状述评

语料库(corpus)指“为研究语言,用计算机处理和储存的书面和口头语言材料”(Sinclair 1999:171)。在语料库的建设和开发中,逐渐提出一些原则和方法并对之进行理论探讨和总结,形成了语料库语言学(Corpus Linguistics)。 Crystal把语料库语言学定义为 “以语料为语言描写的起点或用语料来验证有关语言假说的方法”(丁信善1998:4)。王立非将其定义为“运用语料开展语言学研究的学科”(王立非 2009:19)。

中国语料库语言学研究在最近十年发展迅速。 在现代外语、外语教学与研究、外国语等二十多家外语学类核心期刊上,有关语料库研究的文章从2001年至2010年共有316篇。 其中2001—2006年发表的语料库语言学的文章主要是主要在词汇、句法和语篇方面。1)词汇研究:卫乃兴(2004)熊建国 (2002),张立飞 (2003)等;2)句法研究:刘礼进 (2003),王克非 (2003)等;3)语篇研究:文秋芳 (2003),王立非 (2005,2006)等。2007—2010年有关语料库研究的文章有143篇,在口语、文学、翻译和语料库理论研究方面有进一步的拓展:1)语料库的理论与方法,研究者有卫乃兴,李文中 (2007);2)口语语料库的研究:王立菲,文秋芳 (2007)等;3)在文学研究的运用:刘泽权,刘超明等 (2008);4)语料库与翻译的研究,谢家成,刘洪泉 (2010)等。

可见,目前语料库在语言本体研究方面的层次和深度不断延伸。 但总体而言,语料库在语言教学中的应用比较少(McCarthy 2008)。因此,如何把语料库的资源和手段融入英语教学实践就成了目前语料库研究的新挑战。 而把语料库应用于英语写作质量量化评估的研究,尚待开拓。

2.选题意义

作为重要的语言交际技能,英文写作是英文学习者语言输出(output)的主要形式,是学生句法、词汇等综合知识水平和表达技能的体现,因此对写作质量的评估是评估英语教学质量的主要切入点。但长期以来,写作测试的评估方法发展滞后,目前主要采用人工审阅的方式(包括各种全国大型英语考试),其信度被广泛质疑的同时,评估规模也受到人力的严重限制。在计算机技术发达的今天,探索一种规模化、机助、量化评估方法便迫在眉睫。

本研究旨在把语料库应用于教学研究实践,探索一种规模化英文写作质量评估方法:量化、机助评估方法。本项目的意义在于:一方面将语料库科学的研究进一步深化和本土化,拓展语料库科学本身的研究领域;另一方面,将语料库技术服务于英语教学实践,为英语写作质量评估提供一种新型量化方法,不仅为英语教师的写作教学提供反馈,也可以推广应用,服务于各级英语教学质量评估单位。

二、研究设计

本项目将语料库技术应用于实际教学中进行实证性研究,以客观写作材料为研究对象,以语料库为研究方法,以对商丘学院12年英语专业本科毕业论文的评估为例,探索一种新型的英文写作量化评估方法。

本研究将采用两个例证语料库来具体说明该量化评估方法的具体操作步骤并且论证该方法的可靠性。例证语料库是两个层次具有明显区别的两个语料库,一个是本科层次的,一个是研究生层次的,分别是商丘学院2012年英语专业本科生毕业论文语料库和宁波大学2012年硕士研究生毕业论文语料库。

为什么不选取两个具有可比性的同一层次的语料库作为例子,而选取两个层次具有明显差别的作为例子? 这是因为我们要通过已知的去验证未知的,只有我们已知两个语料库是两个层次的,才能验证我们正在探索的量化评估方法的评估结果是否符合我们的已知,以此来论证该评估方法是否可靠。

1.收集语料

收集了商丘学院2012年英语专业本科生毕业论文共180篇,30多万英文单词;为了便于对比区分和分析,又收集了宁波大学2012年所有硕士研究生毕业论文60多篇,90多万英文单词。

这些都是英语作为第二语言学习者的输出文本,是两个不同层次的学习者的写作,这样更便于对比,因为这里我们的目的不是为了对比两者,而是把两者作为例子,用来说明这种评估方法的具体操作步骤和可行性。当然,该评估方法要应用到实践中,根据调研者的目的,应该选取具有可比性的语料,例如,同一年级不同学校间的横向对比,或者同一群体在不同年级的纵向对比。

2.建立语料库

语料收集完成后,需要进行处理。由于我们评估的是学生英文写作质量,所以论文中相关性小的内容需要删掉,例如论文封皮、目录、表格、图表、大段的引文,所有汉语文字、参考文献、致谢、附录包括附属的开题报告、中期检查表等。

经过处理后,商丘学院2012年180篇英语专业本科毕业论文还剩余29万余字,宁波大学2012年硕士研究生毕业论文60篇剩余89万余字,由于语料库的大小影响各项指数,所以尽量让两个语料库的大小对等,故将宁波大学2012年硕士研究生毕业论文89万字删掉一半多,剩余29万多字。经过整理后,建成了两个大小相当的语料库。为了便于指称,商丘学院2012年英语专业本科毕业论文库简称为SQC2012,宁波大学2012年硕士研究生毕业论文库简称为NBU2012。

我们利用美国经典语料库BROWN作为参考语料库,这个语料库是收集母语为英语的人们的语言材料而建立的,是地道英语的语料库。

3.语料库标注与处理

未经标注的语料库有时无法充分提供研究所需的信息。例如,要想获取语料库的词性信息,单纯使用未经标注的语料库是无法完成的,因为语料库检索工具无法直接告诉我们在一个未经标注的语料库中有多少个名词,多少个动词,多少个形容词,多少个副词,而这些实词信息正是我们研究文本流畅性清晰性的指标。为了解决这个问题,我们利用Go-tagger词性标注软件对两个语料库进行标注,把语料库的词性(POS)标注出来,下面是来自SQC2012语料库的标注样本片段:

This_NN novel_NN reveals_VBZ multiple_JJ love_NN,_,which_WDT will_MD be_VB analyzed_VBN in_IN five_CD parts_NNS._.下面是Go-tagger的词性赋码集:

通过检索软件,便可以统计出各个语料库的实词比例。

Table 1 Go-tagger的词性赋码集

4.数据提取

利用Wordsmith3.0和AntConc对语料库数据进行提取。

4.1 标准化类形符比(STTR)

形符(token)指的是一个语料库中所有单词总数,类符 (type)是指一个语料库中所有不同单词的总数,即语料库中所重复的同一单词只算一个类符。例如在下句中 “A Nice little girl met another nice little girl.”有9个形符,但只有6个类符。类形符比 (TTR:Type-token Ration)指的是类符与形符的比例(TTR refers to the relationship between the total number of running words in a corpus and the number of different words used.(Olohan 2004:80))。TTR标志着一个语料库中词汇的多样性或者词汇的丰沛度(lexical variety)。 如果TTR数值低,表明语料库中词汇的重复率高,词汇缺少变化,反之亦然。 因为语料库大小对TTR的值有一定影响,所以一般采取标准化类形符比(STTR:Standardized type-token ratio)指的是大小为1000词的连续多个语料库的平均类形符比 (Standardized type-token ratio is the average type-token ratio based on consecutive 1000-word chunks of text(Scott 2004:130)),可以用来衡量大小不一的两个语料库的类形符比的异同,比起TTR,STTR是更加可靠的参数 (Baker 2000:250)。

利用检索软件,我们获得了如下数据:

Table 2 SQC2012和NBU2012的STTR

上表显示两个语料库的形符总数差别不大(SQC2012:296004;NBU2012:298843),但是类符差别比较明显(SQC2012:14577;NBU2012:11933)。 从标准化类形符比看,SQC2012 的数据是 41.56,NBU2012 的是 35.54,而经典语料库BROWN的是44.59,这说明,从词汇丰沛度看,商丘学院的论文质量更接近地道的英语,这个结果是出人意料的,因为毕竟商丘学院的是本科生论文,宁波大学的是硕士生论文。但是数据是客观的,事实就是事实。

造成这种结果的原因可能很多,但就语料库本身来说,宁波大学的硕士论文只有60篇,60个主题,而商丘学院的180篇,180个主题,应该对词汇丰沛度有一定影响。也有可能是商丘学院的论文确实词汇丰沛度高,但是这不是我们本项目的研究目的,在此不予以深究。

4.2 词汇密度(lexical density)

根据意义,英语单词可以分成两大类:语法词(grammatical words)和词汇词lexical words,即常说的虚词和实词。语法词反应语法句法关系,主要包括冠词、代词、连词和介词等。 词汇词传达词汇信息,指称质量(quality)、物质(matter)或者动作行为(action),主要包括名词、动词、形容词和副词。 (Hu 2001:80)。

Ure(1971)是第一个定义词汇密度的人(lexical density),指的是词汇词与形符的比例。根据韩礼德Halliday(1994:345)、Stubbs(1996:73)、Nida&Taber(1969:207), 语法词反映句子的流畅度和表达清晰度(explicitness)和可预测性(predictability)。 词汇词反映文本所含信息量 (information load)。也即是说,词汇密度越高,单位语料所含信息量越大,流畅度和清晰度越低,读者解码起来越困难。反之,词汇密度越低,单位语料所含信息量越小,文本更加清晰流畅和易懂。

下面是两个语料库的检索结果:

各种词性总数在两个语料库的分布如下表:

Table 3 词汇密度

根据上表,商丘学院2012年英语本科生毕业论文库中名词密度是4.89%,动词密度是1.06%,形容词和副词密度分别是1.22%和0.95%。实词总密度为8.12%;宁波大学2012年英语硕士研究生毕业论文库中名词密度是4.05%,动词密度是1.28%,形容词和副词密度分别是1.05%和0.95%,实词总密度是7.33%。这些数据显示,商丘学院语料库的实词密度8.12%高于宁波大学语料库的7.33%。 说明宁波大学的语料库的单位语料所含信息量越小,文本更加流畅、清晰和易于解码。这个结果符合正常预期。说明词汇密度是量化评估英文写作的可靠参数。

4.3 高频词

高频词可以用来评估词汇的重复率或冗余(redundancy)。

词频指的是一个单词在某个语料库中出现的次数。根据Laviosa (1998b),高频词 (“list head”or“high frequency words”)指的是一个单词出现的次数与某个语料库中所有形符的比不小于0.10%。

一个语料库中高频词越多,意味着其中单词重复率越高,词汇呈现简化(simplification)倾向。如果语料库A比语料库B中高频词所占比例高,那么语料库A里较倾向于重复使用特定单词,其词汇比语料库B更简单。

下面是两个语料库的检索数据和参照语料库BROWN的数据:

Table 4 SQC2012、NBU2012和 BROWN高频词

根据表格可以看出,SQC2012库中的高频词是122项,累计占语料库的51.09%,而 NBU2012库中,高频词有113项,累计占语料库的41.72%,而经典美国英语语料库是85项,占38.81%。数据显示,商丘学院语料库的高频词项目最多,高频词所占比例最大,表明词汇重复率最高,词汇呈现简化倾向,表明库中所用词汇较简单。而宁波大学语料库的指标更接近美国地道英语的标准。当然,这是意料之中的,说明高频词的数量和比例是可以作为量化评估的可靠参数。

4.4 词长(word-length)

一般来说,一个单词的长度标志着该单词的复杂度,单词越长,说明该单词越高级越复杂;单词越短,说明该单词越简单越初级 (赵晴 2009),例如:simple— simplify— simplification,简单的说,这几个单词出现次序应该是短的先出现在低年级的课本中,长的后出现在高年级的课本中,短的较简单,较容易认知,长的较复杂,较难认知。如果一个学生作文中出现较长的单词较多,说明他习得的复杂词汇较多,词汇水平较高。

下面是SQC2012和NBU2012词长对比:

Table 5 SQC2012和 NBU2012的词长

数据表明,长为1-6个字母的单词在SQC2012中有22295个,NBU2012中有204906个。前者比后者的短单词多2000多个,而7个字母的单词两者基本持平,7个以上字母的单词前者均明显少于后者,这说明,商丘学院语料库中有较多的短单词而较少的长单词,而宁波大学语料库中正好相反。说明前者的词汇复杂度小于后者。再看最后一行平均词长,商丘学院语料库的平均词长是4.97个字母,宁波大学的是5.14个字母,这也进一步证明了宁波大学语料库的词汇较长较复杂,商丘学院语料库的较短较简单。这个指标也符合我们的预期,说明平均词长是可以作为一个可靠的参数来量化评估英文写作的。

4.5 平均句长 (mean sentence length)

句长通常指一个句子当中有多少个单词,平均句长是一个语料库中所有句子的平均有多少个单词。当然一个句子的复杂度(complexity)不能单纯从句长衡量,但是对于一个语料库而言,平均句长却能在一定程度上反映句子的复杂度(Yang 2002:135)。平均句长受语料库大小的影响,还可采取更加可靠参数——标准化平均句长来检测句子的复杂度,标准化平均句长指多个1000单词文本的平均句长。 根据Butler(1985,p.121),句子长度可分为短句 (1-9单词)、中句 (10-25单词)和长句(25单词以上)。

我们可以用检索软件 获取如下平均句长和标准化平均句长的数据:

Table 6 of SQC2012和NBU2012的平均句长

上表表明 SQC2012中的句子有 13914个,NBU2012有11378,而 100万词的BROWN有 43017个。SQC2012平均句长是20.75个单词,NBU2012平均句长是26.16个单词,BROWN的平均句长是27.85个单词。从标准化平均句长看,SQC2012是14.75个单词,NBU2012的是20.36个单词,BROWN的是21.95个单词。这些数据说明,宁波大学语料库的平均句长明显大于商丘学院语料库的平均句长,大约平均每句多了6个单词。说明商丘学院论文句子复杂度较小,句子较简单;宁波大学论文的句子复杂度较大,句子就较复杂,接近BROWN母语使用者的水平,与后者仅仅一个半单词之差。当然这也是意料之中,恰恰证明了平均句长也是量化评估英文写作的一个可靠参数。

5.数据对比分析:

本研究建立了两个例证语料库,具体说明了语料库量化评估方面的操作步骤,同时也论证了该评估方法的可靠性。

通过对标准化类形符比、词汇密度、高频词、词长和平均句长这五个语料库评估参数的考察,我们在两个语料库中得出如下发现:

在标准化类型符比方面,商丘学院的本科生毕业论文语料库的数据是41.56,宁波大学硕士生毕业论文语料库的数据是35.54,而经典语料库BROWN的是44.59,这说明,从词汇丰沛度看,商丘学院的论文质量更接近地道的英语。

在词汇密度方面,商丘学院语料库的实词密度8.12%高于宁波大学语料库的7.33%。 说明宁波大学的语料库的单位语料所含信息量越小,文本更加流畅、清晰和易于解码。

在高频词方面,商丘学院库中的高频词是122项,累计占语料库的51.09%,而宁波大学库中,高频词有113项,累计占语料库的41.72%,而经典美国英语语料库是85项,占38.81%。数据显示,商丘学院语料库的高频词项目最多,高频词所占比例最大,表明词汇重复率最高,词汇呈现简化倾向,表明库中所用词汇较简单。而宁波大学语料库的指标更接近美国地道英语的标准。

从词长参数看,词长为1-6个字母的单词在商丘学院库中有22295个,宁波大学库中有204906个。前者比后者的短单词多2000多个,而7个字母的单词两者基本持平,7个以上字母的单词前者均明显少于后者,这说明,商丘学院语料库中有较多的短单词而较少的长单词,而宁波大学语料库中正好相反。说明前者的词汇复杂度小于后者。 此外,商丘学院语料库的平均词长是4.97个字母,宁波大学的是5.14个字母,这也进一步证明了宁波大学语料库的词汇较长较复杂,商丘学院语料库的较短较简单。

从标准化平均句长看,SQC2012是14.75个单词,NBU2012的是20.36个单词,BROWN的是21.95个单词。 这些数据说明,宁波大学语料库的平均句长明显大于商丘学院语料库的平均句长,大约平均每句多了6个单词。说明商丘学院论文句子复杂度较小,句子较简单;宁波大学论文的句子复杂度较大,句子就较复杂,接近BROWN母语使用者的水平,与后者仅仅一个半单词之差。

总之,除第一个参数外,其余四个均符合我们的已知,论证了这些语料库评估参数可以作为可靠的参数来量化评估英文写作。以此我们成功地探索出了一种新型的英文写作语料库量化评估方法。

三、本评估方法的应用价值

从综述部分可以看出,现有基于语料库的英语写作研究主要集中于:利用现有语料库对于学习者语言特点进行研究,包括错误分析(error analysis)、词块(word cluster)、类连接、搭配(collocation)和冗余(redundancy)等特点分析。但将语料库应用于英语写作量化评估的研究还未出现。

1.本研究的应用价值

该研究是一个机助量化评估方法的探索,其研究结果可以经得起反复验证和广泛推广,例如,可以对各个学校或者同一学校各个班级之间的横向共时(synchronic)量化对比,也可以应用于同一教学对象群体在不同年级的英语写作质量提高程度进行纵向历时(diachronic)量化对比;可以用于各种学校(中学或高校)的各种学生(大学英语学生或英语专业学生)英语写作质量评估;可以帮助国家、省、市等各种教学评估部门对所监督的各个教学单位的学生英语写作质量进行评估,也可以对全省或全市整体英语写作教学进行量化评估。

2.该评估方法优点

科学性:传统人工评估是根据评估人的主观知识结构和直觉进行的经验式的审阅,由于不同的评估人认知经验不同,不可避免主观臆断的局限,不同研究对象的写作差异只能凭感觉来大致估计,而该量化评估方法是利用计算机进行定量分析,不同研究对象的写作差异在哪里,差异有多大都可以用数据作出量化说明,同一研究对象的量化结果可以经得起重复验证而不会前后不一,大大提高了评估的可靠性和科学性。

系统性:该方法根据统一标准可以进行大规模评估,可对N多教学单位的每个学生的英语写作材料进行总体分析,避免传统抽样评估的零散性和片面性,杜绝人工审阅的标准不一现象的出现。

规模高效性:只要收集到学生写作的电子文本,一个评估人在数小时内可以对大规模写作文本进行分析,既大幅地节约时间,又大量地节约人力。而传统的评估只能靠抽样调查,对教学单位所有写作文本的评估耗时耗力。

客观公正性:该方法是利用计算机对第一手材料的分析,避免了传统人工评估的主观性和其他因素干扰的可能,为监督部门评估工作的公正性提供一个有力的保障。

四、结语

本项目把语料库文本分析技术应用于对英文写作质量的评估,以商丘学院2012年英语专业本科生毕业论文和宁波大学的2012年硕士毕业论文的质量分析为例,具体说明了语料库量化评估方面的操作步骤。

通过对标准化类形符比、词汇密度、高频词、词长和平均句长这五个语料库评估参数的考察,发现除第一个参数外,其余四个均符合我们的已知,论证了这些语料库评估参数可以作为可靠的参数来量化评估英文写作。以此我们成功的探索出了一种新型的英文写作语料库量化评估方法。该方法具有科学性、系统性、规模高效性和客观公正性。具有广泛的应用价值和切实的实用性,可以推广应用的各个单位,用来量化评估英文写作的质量。

Baker,M.(2000).Towards a Methodology for Investigating the Style of a Literary Translator[J].Target 12(2).

Halliday,M.A.K.(1994).An Introduction to Functional Grammar[M].London:Edward Arnold.

McCarthy,M.(2008).Accessing and Interpreting Corpus Information in the Teacher Education Context[J].Language Teaching(41).

McEnery,A.&Wilson,A.(2001).Corpus Linguistics[M].Edinburgh:Edinburgh University Press.

Nida,E.&Taber,C.(1996).The Theory and Practice of Translation[M].Leiden:E.J.Brill.

Olohan,M.(2004).Introducing Corpora in Translation Studies[M].London&New York:Routledge.

Sinclair,J.(1999).Corpus,Concordance,Collocation[M].Shanghai:Shanghai Foreign Language Teaching Press.

Scott,M.(2004).The Word Smith Tools(v.4.0)[M].Oxford:Oxford University Press.

Stubbs,M.(1996).Text and Corpus Analysis:Computer-Assisted Studies of Language and Culture[M].London:Blackwell.Stubbs,M.(2001).Texts,Corpora,and Problems of Interpretation:A Response to Widdowson[J].Applied Linguistics(22).

Ure,J.(1971).Lexical Density and Register Differentiation[A].In G.E.Perren&J.I.Trim (eds.).Applications of Linguistics:Selected Papers of the 2nd International Conference of Applied Linguistics,Cambridge 1969[C].Cambridge:Cambridge University Press.

丁信善 (1998).语料库语言学的发展及研究现状 [J].当代语言学 (1)。

胡壮麟 (2001).语言学教程 [M].北京:北京大学出版社。

李文中(2004).上海语料库语言学国际会议述评[J].解放军外国语学院学报(1)。

王立非,张 岩(2006).基于语料库的大学生英语议论文中的语块使用模式研[J].外语电化教学(4)。

卫乃兴(2007).中国学生英语口语的短语学特征研究 ——0LSEC语料库的词块证据分析[J].现代外语(3)。

赵 晴(2009).基于语料库的 《红楼梦》两个英译本的译者风格研究[D].西南大学。

猜你喜欢
宁波大学高频词商丘
《宁波大学学报(理工版)》征稿简则
商丘师范学院美术作品选登
商丘师范学院美术作品选登
30份政府工作报告中的高频词
省级两会上的高频词
《宁波大学学报(教育科学版)》稿约
28份政府工作报告中的高频词
省级两会上的高频词
商丘之旅
让更多企业在商丘长得大、飞得高