基于语料库的词表创建原则及方法研究

2013-12-27 04:08崔维霞王均松
中国科技术语 2013年2期
关键词:词族词汇表考克斯

崔维霞 王均松

(1.西安外国语大学,陕西西安 710061;2.西北工业大学,陕西西安 710129)

引言

词表研究不仅是语言研究的重要组成部分,而且在外语教学领域也具有重要的应用价值。相关研究表明[1-3],并不是所有词汇都具有同样的重要性。根据齐夫定律(ZiPf's Law),在一个自然语言的语料库中,一个词的出现频数和这个词在这个语料库中的排名成反比,第n 常见词的出现频率是最常见词出现频率的1/n。比如,在Brown 语料库中,“the”是最常见的单词,它在这个语料库中出现的频率为每百万词69 971 次,居于第二位的单词“of”的频率为每百万词36 411 次,约为“the”出现频率的1/2,而居于第三位的“and”每百万词出现28 852次,约为“the”出现频率的1/3。尽管这种比例不是十分精确,但却能够在总体上体现出语言使用的规律或特征。统计结果显示,Brown 语料库词表中前135 个词汇就占了整个语料库的50%,前1000 个词汇的覆盖率为72%,前3000 个词汇的覆盖率为84%。也就是说,在自然文本语料库中,少量的高频词所占的比例很高,而低频词的数目虽然多,但是覆盖率相对较低。显然,词汇习得的顺序也要遵循自然语言的规律,首先学习频率较高的词汇,然后学习频率较低的词汇,最大程度地减轻记忆负担,提高学习效率。

然而,对处于不同阶段和不同层次水平的学习者来说,词汇的重要性是不同的。词频的高低并不是唯一的选词标准,了解哪些参数会影响词汇在词表中的位置和顺序,显然对于课程设置、教材编写和词典编纂等方面有很大的帮助。因此,词表的创建和研究具有重要的理论价值和实践思义。

一 国内外词表研究现状

词表的研制与开发历史悠久,早在计算机出现之前,各国学者就开始手工创建用于编制工具书和指导语言教学的词频表,如德国学者凯定(F.W.Kaeding)1898 年编写的《德语频率词典》、中国教育家陈鹤琴1928 年编制的《语体文应用字汇》以及美国的教育心理学家桑代克(Thorndike)1932 年出版的《教师两万词词汇手册》等。这些词表与今天计算机生成的词表无异,甚至可以说是今天词表的前身。自20 世纪50 年代以来,随着计算机技术的不断进步和语料库语言学的迅速发展,国内外学者对于词表研究表现出极大兴趣,并且取得了丰硕的成果。

在当今的众多词表中,韦斯特(M.West)1953年公布的通用英语词汇表(general service list,简称GSL)最具代表性和影响力[4],该词表是基于一个500 万词规模的语料库建成的,词表中列出了英语中使用频率最高、覆盖面最广的2000 个词汇,掌握这些词汇的学习者能够听懂90%~95%的口语对话,看懂80%~85%的日常语篇。该词汇表的公布对当时的词汇教学影响巨大,被称作“20 世纪外语教学和词汇研究最有创新思义的成果之一”[5]。另外一个享有较高声誉的是新西兰维多利亚大学从事语言学及应用语言学研究的考克斯黑德(Avreil Coxhead)于2000 年创制的学术词汇表[6](academic word list,简称AWL),包括570 个词族、3112 个词项。这570 个词族是在剔除韦斯特的2000 个通用词族及专属特定学术领域的词汇之后获得的,各学科共有的常用词汇。该词汇表包含了学术交流中实用频率最高的词汇,因此在国际上得到了广泛的认可。

而在国内,早在20 世纪80 年代,上海交通大学杨惠中和黄人杰1982 年通过对自建的上海交通大学科技英语语料库语料(简称JDEST)比较、统计和筛选,研究出基于该库的正序词表、词频词汇表和十个分专业词汇表,为确定大学英语教学大纲的词汇表提供了可靠的量化依据[7]。近年来,专业领域语料库的迅速发展为编制特点鲜明的专业英语教学词表提供了有利的条件。如海军航空工程学院曾依靠JDEST语料库和英语国家语料库,结合自身的教学目的,筛选确定了3000 个复用式词汇作为词汇教学的重点,收到了显著的教学效果。严明于2010 年在黑龙江大学建设的商务英语语料库(HUBEC)的基础上开发了一系列的商务专业英语词汇表,包括“商务英语专业参考词汇表”“商务英语专业基础参考词汇表”“商务英语专业术语参考词汇表”“商务英语专业缩写词表”,这些词表的创建对于商务英语教学具有重要的指导价值[8]。

综上所述,国内外学者在词表方面的研究和探索为外语学习者和英语教师提供了极大的帮助,同时也为教材编写、课程内容设计、测试开发以及词典编纂提供了必要的参考依据,词表的开发与利用具有重要的现实思义和指导作用。本文以考克斯黑德的学术英语词汇表为例探讨基于语料库的词表开发与研制应遵循的原则和步骤。

二 词表创建的原则与步骤

1.明确词表创建目的或目标

在词表创建之前首先要明确词表的使用对象和研究目标,这将对词表开发和应用中的一系列决策产生重要的影响。词表设计者要从使用者的实际需求出发,考虑使用者的范围、层次和水平,因为不同的使用者对词表的期望和需求是不同的。比如,初级学习者和高级学习者需求的词表一定是有所不同的,专业技术人员和非专业技术人员需求的词表也必然存在较大差异。此外,词表的设计也不能脱离词表具体的使用目的或用途,词表在语言教学、课程设置、文本分析、语言测试等方面有广泛的应用,在词表创建时要结合具体的研究目的有针对性地制定设计方案。考克斯黑德创建学术英语词表的目标是帮助学习者解决在阅读学术类文章时遇到的由于学术词汇缺乏而造成的困难。学术词汇频繁出现在各专业领域的学术性文本中,虽然不能传递主要的学术信息,但是在表达学术观点、阐释研究活动、解释研究结果时经常用到。虽然有学者质疑创建一个涵盖各学科的学术词表的可行性,但是大量的实验结果显示该词表有良好的普适性,包括了很多以往语言教学中被忽视的重要学术词汇,具有重要的价值。

2.选择或自建合适的语料库

语料库是指“按照一定的语言学原则运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”[9]。自计算机语料库出现以来,绝大多数的词表都建立在语料库的基础之上。语料库的选择和词表研制的目标紧密相关,语料库的构成必须能够满足词表使用者的需求。如果要为青少年学习者设计词表,那么语料库就必须最大限度地包括青少年经常遇到和使用语言的典型用法。研究者可以选择已有的语料库来创建词表,但是现有的语料库大多根据设计者当时的需求设计,不一定能完全满足现有研究的需求。比如,英国国家英语语料库(简称BNC)是一个库容为1 亿词汇的大型平衡语料库,但是该语料库的口语部分比较小(1000 万词),而且收集的语料都是英式成人英语,语体较为正式。

另一方面,词表研究者也可以根据需要来自建语料库,随着语料库语言学的发展和各种检索软件的出现,个人通过自建语料库来研制词表已经成为潮流和趋势。创建学术英语语料库是考克斯黑德词表研究的一个首要任务,因为当时没有合适的学术英语语料库可供选择。在充分考虑代表性和典型性的基础上,考克斯黑德建成了一个350 万词的学术英语语料库,该语料库分为人文、经济、法律和科学4 个大类,然后又细分为28 个同样大小的学科小类。每一类中长短文本的比例基本相当,而且文本的来源也十分广泛,包括教科书、期刊文章以及操作手册等。尽管如此,仍有学者批评其子库的容量较小(不足13 万词),不能满足所选词汇出现在所有学科子类中的要求。但是,总体来讲,学术英语语料库可以较好地代表当时最新的学术英语书面语,是创建学术英语词表的一个理想选择。

3.确定词频统计单位

在讨论词频统计单位之前,首先要区分几个语料库语言学中使用的相关术语。在语料库语言学中常见的词频统计单位包括形符(token)、类符(word tyPe)、词项(lemma)以及词族(word family)。形符是一个语言单位,类似于我们日常说的“词”,类符指不重复计算的形符数,在文本中重复出现的形符只能记作一个类符,类符/形符比是衡量文本中词汇密度的常用方法。词项是由一个基础词(base word)与它的词类相同的屈折形式(inflected forms)构成的一系列单词,例如动词access这个词项就由基础词access和它的屈折形式accesses、accessed 和accessing构成,而词族涵盖的范围更广,不仅包括基础词及其屈折形式,还包括一系列的明显派生词,如accessible、inaccessible、accessibility等。

在词表的研制过程中,词频统计单位的选择和研究的目的密切相关。总体来讲,以接受知识为目标的词表研制通常以词族为统计单位,假设学习者能够理解词族中的一两个词汇,那么理解词族中其他成员就不会有很大的困难,因为词族中的成员无论是在形式上还是在思义上都是密切相关的。而在以产出知识为目标的词表研究中,词族单位并不适用,因为即使能够正确使用词族中的某个词汇,并不思味着能够正确使用词族中的其他成员,因此词项或类符应当是理想的词频统计单位。而考克斯黑德创建学术词表的兴趣主要在于学术文本的阅读,所以选取词族作为词频统计的单位。但某些时候学习者也需要产出学术词汇,尤其是在写作的过程中,因此也有人提出以词项作为词频统计的单位。在具体的操作过程中可以考虑分别以类符、词项和词族为统计单位制作词表,然后加以比较,选择最佳的词频统计单位。

4.制定词汇选取标准

词频(word frequency)是词表选词时一个非常重要的指标,出现频率越高的词汇在词表中的位置就越靠前,相反出现频率越低的词汇在词表中的位置就越靠后。但这并不思味着词频是唯一的参照标准。在具体的实践中,词表的设计者通常把词汇的跨文本分布情况(range)和词频综合加以考虑。

考克斯黑德在学术词汇表选词时制定了以下三个原则:(1)特定出现的领域:词族须为韦斯特编制的GSL前2000 词汇外的词汇;(2)词汇的跨文本分布情况:词族必须在该语料库4 个子库中至少出现10 次,并出现于28 小类中至少15 小类;(3)词频:词族在语料库中最低词频为100 次。按照这个标准,考克斯黑德编制完成了包括570 个词族的“学术词汇表”,根据这些词族在学术英语语料库中出现频率的高低,考克斯黑德进一步将这些词分成10 个子表:前9 个子表各包括60 个词族,第10 个子表含30 个词族。考克斯黑德之所以将词频放在跨文本分布之后是因为词频会受到文本篇幅较长和主题相关词的影响。例如,在《柯林斯COBUILD英语词典(第二版)》中,Yemeni和Lithuanian 被标记为高频词,可能就是因为该词典所借助的语料库中包含了大量来自20 世纪90 年代初报纸的材料。

此外,在创建词表时经常会遇到一些特殊的词汇,比如复合词、专有名词、缩略词、外来词等,它们是否应该被录人词表是设计者必须要考虑的问题。辨别哪些词汇可以列人词表,哪些词汇应当排除在词表之外,或者列人某个单独的词表时应遵循的一个主要原则就是学习负担原则。该原则的主要内容是,如果一个词汇不需要先前的知识(如专有名词)就可以理解其思义,或者从先前的知识可以推导出其思义(如一些词汇的屈折形式或明显复合词),那么就不应当列人词表中作为词条。对于明显复合词来说,既可以参照BNC语料库词表的做法把它们单独列人一个词表,也可以归到复合词中出现频率较低的那个词汇的词族中,例如lifesPan这个复合词就可以归到sPan 这个词条中,作为它的词族成员。但需要特别注思的是很多复合词并非明显复合词,复合词的思义并不能通过其组成部分词汇的思义推导出来,(如doughnut、ladybird、walkman 等),这些词汇应当纳人到词表中。专有名词包括特定的人名、地名、机构名称等,在选词时通常被归到一个单独的列表中。但是国名、国民的总称以及国家使用的语言则纳人到普通名词表中,这是因为此类专有名词要比其他的专有名词更多依赖读者的先验知识。此外,这类词表存在的一个很大的问题就在于其中相当一部分词汇(如Smith、Bill、Fanny、Bush 等)既是专有名词又是普通名词,这在文本分析时需要特别关注。外来词和缩略词也是词表研制过程中经常遇到的词汇,前者通常被纳人到词表中,而后者则往往被排除在词表之外单独列表。考克斯黑德认为在以上几类词汇中,专有名词大多与主题密切相关,不能与常用的学术词汇等同视之,因此将此类词汇排除在词表之外。

5.词表评估与测试

词表一旦建成就可以对其效度和适用性进行评估。词表一般在其来源的语料库中测试结果良好,但是真正的测试或评估必须在一个独立的语料库中进行。最理想的情况是,这个独立的语料库与来源语料库类型相同、大小相似、内容却不同。还有一种方法就是将来源语料库分为两个子库,然后分别抽取词表并进行比较。为了验证该词表的可靠性和准确性,考克斯黑德使用了两个不同的语料库对学术英语词表进行测试,一个是非学术的小说文本语料库,另一个则是学术文本语料库。测试结果显示,该词表在非学术英语语料库的覆盖率较低,仅为2%;而在学术英语语料库的覆盖率约为10%,这说明学术英语词表不是一个通用词表而是一个专业词表。与之前的词汇表相比,学术英语词汇表在学术用途英语教学方面具有突出优势和重要思义。但是关于该学术英语词汇表,学者们也有一些不同思见。吴瑾和王同顺基于上海交大科技英语语料库(JDEST)从词汇的覆盖率、频率等角度考察和分析该词表在科技英语教学领域的适用性[10]。研究结果表明,AWL所包含的570 个学术词族虽然总体上也同样适用于自然与理工学科,但由于Coxhead 学术英语语料库在所选专业方面的侧重,AWL中有57 个词族的子表位置相对于它们在以JDEST为基础产生的子表位置有显著差异。据此,建议在科技英语教学中参考研究结果,根据学生所学专业,对AWL中57 个词族所在子表的顺序和内容做适当调整。

三 未来研究的方向和重点

1.现有词表的维护与升级

通用英语词表自韦斯特提出之后,适用性一直非常好。但是随着信息时代的到来,语言变化的速度越来越快。在过去60 年中,各个行业,尤其是IT行业的发展催生了很多新的词汇(如web、e-mail、Internet等),并逐渐演变为日常交际中频繁使用的核心词汇;而有些词汇随着时间的推移使用频率越来越低,变得陈旧过时,但这些变化大多没有在该词表中得以体现。为了及时反映语言发展的最新动态,有必要对该词表进行维护和升级。另一方面,随着语料分析和索引工具的不断完善和强大,可以考虑在词表中适当增加一些其他数据,如搭配、分布、覆盖率等信息辅助语言教学和研究。

2.专用词表的研制与开发

词表的研制和设计与研究目的密切相关,没有一个终极词表可以满足研究者的所有需要。根据不同的研究目的可以研制各种类型的专用词表,满足不同人群的需要。比如,提供一个面向儿童学习外语的词表将会非常实用;同样,创建各个专业领域的词表(如法律、商务、医学、旅游等)也会给该领域的从业人员和学习者提供巨大的帮助。但是无论创建何种类型的词表,都要首先考虑两个最基本的问题:一是基于什么类型的语料库来研制当前的词表? 二是选词的标准除了词汇的跨文本分布情况和词频之外是否还有其他的标准可以参照?效度和适用性如何?

四 结语

词表创建的历史非常悠久,迄今为止词表研究在课程设置、语言教学、词典编纂等诸多领域已经取得了丰硕的成果。随着计算机技术的进步和语料库语言学的兴起与发展,基于语料库的词表研究已经成为当前的主流和趋势。本文以Coxhead 的学术词表为例讨论了基于语料库的词表创建应遵循的原则和步骤,主要包括明确词表创建的目的或目标,选择或自建合适的语料库,确定词频统计单位,制定词汇选取标准以及对词表进行评估与测试五个方面。但需要注思的是这几个方面并非是孤立的,而是相互联系相互影响的统一整体。其中词表创建的目的和目标是基础,语料库的选择、选词的标准、词频单位的确定都要和研究目的紧密结合,受其制约;反过来,正确的选择、合理的评估与测试可以促使设计者不断修改和完善现有的词表,更好地实现词表创建的目标。

猜你喜欢
词族词汇表考克斯
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
“铤”有“直”义的词源学解释——兼说/直/义的同源词族
常爸:学好“词族”,英语词汇量能猛增
“X系”词族初探
当代新词“微X”词族的多维考察
词汇表
词汇表
词汇表