试论语料库介入词典编纂的优势及相关问题

2016-05-30 06:47苗宁刘欣彤
现代语文(学术综合) 2016年11期
关键词:对比分析义项语料库

苗宁 刘欣彤

摘 要:以“发酵”“神话”“厉害”三个常用词为例,分别利用国家语委现代汉语语料库和北大中文语料库,调查其义项及排序。再将调查结果与《现代汉语词典》(第6版)相关词语进行对比,结果显示,该词典提供的义项存在诸多不足。同时,两个语料库之间的调查结果对比显示,只有北大中文语料库才能较好地满足该类词典的修订要求。

关键词:词典编纂 语料库 义项 对比分析

得益于计算机及相关技术的飞速发展,语料库这一强有力的技术手段被引入,词典的编纂和修订速度得以加快,其所提供的新语言信息、自然语言实例可以使词的释义更加完整和准确。一般而言,尽管传统辞书编纂在长期实践中已积累了大量的宝贵经验,但由于客观条件的限制,其义项除了可能疏漏之外,往往还具有主观性、趋同性等不足之处。这在很大程度上制约了辞书释义的准确性和全面性。借助于语料库的巨大规模、真实可靠的语料以及技术分析等优势,上述问题可以得到较为有效的解决。不过,鉴于当下汉语语料库种类繁多,在词典编撰过程中,选择合适的语料库至关重要。因为编撰不同的词典对语料库有不同的要求。反过来,语料库的大小、时限、代表性问题等都可能影响词典的编纂质量。

根据上述思考,我们选取权威的《现代汉语词典》(第6版)作为考察对象,以常用动词“发酵”、名词“神话”、形容词“厉害”为例,首先基于国家语委现代汉语语料库相关语料,进行定性与定量分析,归纳其所有可能的义项及其排序,并将调查结果与该词典相关释义条目进行对比。其次,我们使用北大中文语料库重新调查上述三个词语的义项及其排序,并将该调查与前一调查进行对比,尝试探讨上述哪一个语料库更适合《现代汉语词典》这类辞书的编撰及相关议题。

一、本研究的理论背景

语料库是指从有代表性的书面语和口语材料中随机抽样,并由可用计算机进行处理的大量文本组成的,专供语言研究、分析和描述的语言资料库。近年来,计算机技术的发展为基于语料库的词典编撰研究工作提供了三大有利条件:语料库规模日趋庞大、代表性更高、分析更完善。[1]对比之下,传统词典编纂方法的不足更加突出,“传统的释义方法囿于客观条件,往往具有主观性、不周全性、趋同性等经验型释义的特征,这在一定程度上制约了辞书释义的客观真实性、科学准确性方面进一步提升。”[2]国内外很多学者都详细介绍了语料库编纂词典所具有的优势,有的学者还将语料库词典学作为新兴学科列出讨论,足以看出“语料库是现代辞书编纂重要的资源支持和技术手段,应用语料库、引入语料库分析方法是辞书编纂的发展趋势。”[2]

不过,语料库介入词典编纂带来优势的同时,也出现很多有待解决的问题,如语料库的大小、时限、代表性等。根据我们的调查,目前学界似乎对这类问题关注不够。一般而言,调查词语的义项,必须使用不断更新的大型语料库。一方面,只有语料库库容足够大,常用词的重要义项才不会被遗漏。另一方面,随着社会的发展,语言也不断变化,新词、新用法不断涌现,只有不断更新、扩充的语料库,才可以反映出这类语言事实。同时,“不断发展、扩充的语料库,能过滤和筛选材料,保留必要的相关材料,并能注意到新的词形、结构以及旧的词形的新的用法和搭配。”[3]故在汉语词典编纂过程中,如何应用语料库技术手段,并使用恰当的语料库,应成为词典编纂界需要重点研讨的议题。

基于上述思考,对照《现代汉语词典》(第6版),利用国家语委现代汉语语料库和北大中文语料库,通过个案调查,在实证的基础之上,尝试佐证上述论断的合理性。

二、基于国家语委现代汉语语料库的调查结果

基于国家语委现代汉语语料库,本节依次给出常用词“发酵”的动词用法、“神话”的名词用法、“厉害”的形容词用法的语料调查结果。

(一)“发酵”

“发酵”在国家语委现代汉语语料库中共有条目78条,均为动词词性。根据具体语料,可归纳出两个义项,分别叙述如下。

1.复杂的有机化合物在微生物的作用下分解成比较简单的物质,发面、酿酒等均涉及该过程。共77个条目,占总条目的98.72%,是其最常用的一个义项。如:

(1)经过一段时间的发酵,即可食用。

(2)挂于室内,任其自然发酵。

2.感情、心理等滋长。共1个条目,占总条目的1.28%。如:

(3)她也有醋味,但只是添味,不发酵,尤其难得。

(二)“神话”

“神话”在国家语委语料库中共有条目323条,全部为名词词性。根据具体语料,我们概括出3个义项,分别叙述如下。

1.关于神仙或神化的古代英雄的故事,是古代人民对自然现象和社会生活的一种天真的解释和美丽的向往。共266个条目,占总条目的82.35%,是其最常用的一个义项。如:

(4)我喜欢看神话故事,也喜欢月亮里真有个嫦娥姐姐。

(5)《镜狮子》是一个古老的神话传说,是日本舞伎的传统剧目。

2.虚构的、幻想的故事。共39个条目,占总条目的12.07%。如:

(6)这些解答正是他们自己制造的那些神话故事。

(7)他此时是真的相信这些荒诞不经的神话。

3.奇迹,难以企及的、难以想象会发生的、不平凡的事。共18个条目,占总条目的5.57%。如:

(8)她居然跳得这样成功,创造着神话般的故事。

(9)这里像神话似地长着一大片一大片的水稻、油菜、橘子和甘蔗。

(三)“厉害”

“厉害”在国家语委语料库中共有条目409条,其中名词词性共28条。如:

(10)尝到了红军的厉害,再也不敢轻举妄动了。

在此只分析其形容词词性,共381条,根据具体语料归纳出3个义项,分别叙述如下。

1.难以对付或难以忍受;剧烈;凶猛;表示程度很高。共297个条目,占总条目的77.95%,是其最常用的一个义项。如:

(11)原来就是用准备着更普遍更厉害的危机并减少着防止危机的办法。

(12)他不抽烟,可脸色却像抽烟很厉害人的脸色。

2.强大的、较为突出的、超群的(技能、性能、智力等)。共75个条目,占总条目的19.69%。如:

(13)在削弱安全感方面,新教伦理比任何其它一切因素都要厉害。

(14)现代电子技术真够厉害——最后一位选手刚刚走过,显示屏上马上闪出了红色的数字。

3.(性情)霸道的、不温顺的、乖张的。共7个条目,占总条目的1.84%。如:

(15)如能折断,表示新娘温顺,否则将来一定很厉害。

(16)老主任慈眉善目的,不像是很厉害。

三、基于北大中文语料库的调查结果

北大中文语料库的调查结果与国家语委的调查结果有很大不同。

基于北大中文现代汉语语料库,本节依次给出常用词“发酵”的动词用法、“神话”的名词用法、“厉害”的形容词用法的语料调查结果。

(一)“发酵”

“发酵”在北大中文语料库中共有1202个条目,随机抽取308条,均为动词用法,根据具体语料,我们概括为5个义项,分别叙述如下。

1.复杂的有机化合物在微生物的作用下分解成比较简单的物质,发面、酿酒都是发酵的作用。共249个条目,占总条目的80.84%,是其最常用的一个义项。如:

(17)发酵后的苹果醋含有较高浓度的醋酸。

(18)发酵工程泛指利用微生物制造工业原料和产品的工程技术。

2.事物受外力影响发生某种发展变化。共26个条目,占总条目的8.44%。如:

(19)却被洪秀全和冯云山借用而且不断发酵。

(20)我觉得这就如同白先勇老师所说的,是一种文化传承联想的发酵。

3.感情、心理等酝酿、滋长。共19个条目,占总条目的6.17%。如:

(21)不能让仇恨一直在心里发酵,否则最终受害的是自己。

(22)这份痛楚又渐渐在心里发酵、膨胀。

4.助力,鼓励;催化。共9个条目,占总条目的2.92%。如:

(23)学生永远是政治思想的发酵力气。

(24)这句话在这个有偏执性格的人身上起了巨大的发酵作用。

5.锤炼,锻炼。共5个条目,占总条目的1.62%。如:

(25)必须要有丰富的生活经验,同时这些经验又需要沉入到潜意识领域中去发酵。

(26)荒唐岁月发酵出来的社会现实,本身饱含着数不清的失态和笑料。

(二)“神话”

“神话”在北大中文语料库中共有5687条条目,随机抽取343条进行分析,其中作为动词使用出现两次,如:

(27)气功的历史被他延伸、神话了。

分析341条“神话”作为名词词性使用的语料,我们概括出3个义项。分别叙述如下。

1.关于神仙或神化的古代英雄的故事,是古代人民对自然现象和社会生活的一种天真的解释和美丽的向往。共159个条目,占总条目的46.63%,是其最常用的一个义项。如:

(28)长篇神话小说《西游记》。

(29)古希腊神话中,有一个叫赫剌克勒斯的英雄。

2.虚构的、幻想的故事。共101个条目,占总条目的29.62%。如:

(30)欧洲人打算从道义和经济上拯救世界的神话就土崩瓦解了。

(31)(海峡时评)别想把历史涂改成“神话”。

3.奇迹,难以想象会发生的、不平凡的事。共81个条目,占总条目的23.76%。如:

(32)雄伟的妈湾电厂神话般地在一片汪洋处突现出来。

(33)通货膨胀和持续的经济增长,创造了令无数人惊叹不已的“新经济”神话。

(三)“厉害”

“厉害”在北大中文语料库中共有7554条条目,随机抽取389条,根据具体语料,其中名词用法共有97条,在此不作研究。如:

(34)国民党从来不重视思想人物的厉害。

其余均为形容词用法,我们概括为5个义项,共292条,分别叙述如下:

1.难以对付或难以忍受;剧烈;凶猛。共192个条目,占总条目的65.75%,是其最常用的一个义项。如:

(35)哭诉朱兵十分厉害,无可处置。

(36)这两个恶僧有些厉害,不如先伤去一个。

2.强大的、较为突出的、超群的(技能、性能、智力等)。共60个条目,占总条目的20.55%。如:

(37)那七子十二生本领亦颇厉害。

(38)不过他的剑术厉害,为人义侠,也是凡人。

3.(情况、情形等)让人恐惧的,让人敬畏的。共36个条目,占总条目的12.33%。如:

(39)谷里相传有个火神庙,甚是厉害。

(40)他比杀人放火的强盗还厉害呢。

4.(性情)霸道的、不温顺的、乖张的。共3个条目,占总条目的1.03%。如:

(41)好厉害的小姐,辱骂三辈。

(42)喝,好厉害的家伙。

5.严厉。共1个条目,占总条目的0.34%。如:

(43)刚刚收到父亲手书,责备我很厉害。

四、对比和解读

对照动词“发酵”、名词“神话”、形容词“厉害”,根据上述两个语料库所概括出的义项及其排序,下面我们进行两项对比并同时加以解读。首先将国家语委语料库的调查结果与词典相关释义条目进行对比和解读。其次,再将北大中文语料库的调查结果与国家语委语料库的调查结果进行对比和解读。基于上述论述,最后进行进一步的探讨。

(一)对比1及解读

“发酵”“神话”“厉害”在《现代汉语词典》(第6版)中的相关条目列表如下:

将表7和表1、2、3进行对比,可以发现下述事实:动词“发酵”表“感情、心理等滋长”这一义项未被收录。名词“神话”的释义漏收“奇迹(难以想象会发生的、不平凡的事)、虚构的幻想故事”这两个常用义项。另外,随着汉语的发展,“神话”在现代汉语中更趋向于褒义,而词典中“荒诞的无稽之谈”这一义项显然没有反映出这种情感取向。同时,词典中“厉害”有“严厉”这一义项,但语料库中并未出现。词典还漏收另外两个义项:“强大的、较为突出的、超群的(技能、性能、智力等),多含褒义”和“霸道的,不温顺的”。根据上文,由于语料库基本上反映了语言的真实面貌,基于其上的义项归纳显然更加真实可靠。同时,这也凸显了词典传统编纂的以偏概全、义项失真等缺陷。

(二)对比2及解读

将上述表1、2、3和表4、5、6进行相应的对比,我们可以发现下述事实。首先,相关的调查结果并不一致(不包括语法方面的调查,例如,“神话”在北大中文语料库中有动词用法等)。具体如下:除了两个共同义项外,“发酵”其余的三个义项,即“事物受外力影响发生某种发展变化”“助力,鼓励;催化”“锤炼,锻炼”等,在国家语委语料库的调查结果中均未出现。根据北大语料库的调查结果,“厉害”新增了一个义项“(情况情形等)让人恐惧、敬畏”。此外,让人稍感意外的是,根据北大中文语料库的调查结果,“厉害”竟然也有“严厉”这一义项,尽管其使用频率极低。其次,通过上述对比及对相关语料的解读,我们可以发现下述两个有意义的现象:其一,上述两个语料库的调查结果形象地诠释了语料库对提升词典编撰质量的意义,因为上文已作说明,此处不加赘述,只补充一点:语料库可以保障词典的时效性。例如“神话”一词中“奇迹,难以企及的,难以想象会发生的不平凡的事”这一义项。其二,两个语料库均为高质量的大型语料库,这体现于其严格的建库标准(可参看其说明)。然而,尽管“语言的收集实际上就是对语言的原则性的选择,而选择总是意味着丧失一些重要信息”[4]。但通过对上述调查结果的对比,我们可以发现,基于上述两库的常用词义项大同小异(包括义项排序)。这间接证实了双方建库标准的有效性。

(三)进一步的解读

根据上述对比,我们认为,上述议题还有进一步探讨的必要。一般而言,语法框架相对稳定,加之语法规则的普适性,故语法调查相对可以容忍语料陈旧和库容较小等问题。但对词典编撰而言,上述缺陷则无法容忍。一方面,陈旧的语料不能反映出常用词变动不居的特性,从而导致义项失真;另一方面,较小的库容难以反映出常用词义项的丰富性,从而导致词典工具效用的降低。鉴于《现代汉语词典》在汉语世界中的权威性,我们认为,除了极为冷僻的用法之外,常用词其他义项都应该加以收录,并且按使用频率排序。

就此而论,根据上文的调查结果,上述两个语料库均不存在语料陈旧的问题。但就常用词语义项归纳而言,国家语委语料库显然不能完全满足词典编撰的要求。例如“发酵”一词在国家语委语料库中只有78个条目,可归纳出两个义项。但在北大中文语料库中却有1202个条目,可分析归纳出5个义项。另外,如上文所示,“厉害”一词在《现代汉语词典》中有“严厉”这一义项,尽管其没有得到国家语委语料库调查结果的支持,但却得到北大语料库调查结果的支持。

五、结语

语料库技术是词典编纂与研究一种新的支撑手段,根据上文的探讨,可以看出,基于语料库的词典编纂可以较好地解决一些传统上难以避免的问题,如义项疏漏、主观性、趋同性等,从而全面、客观地反映词语的真实使用状况。可以认为,引入语料库这一技术手段是词典编撰与修订的必然趋势。鉴于《现代汉语词典》的权威地位,我们认为,其下一轮的修订有必要全面基于语料库来加以推进,尽管工作量可能较为庞大。另外,也如上述探讨所示,对于《现代汉语词典》而言,一般的语料库可能难以完全满足其修订要求,故有必要使用不断更新的超大型语料库,如北大中文语料库等。这样,就可以有效避免义项归纳不全或区分不细等问题,从而给学习者提供一部与汉语同步发展的高品质的辞书。通过上面的个案研究,我们希望能够引起学界的关注。

(本文系江苏大学2016年省级大学生实践创新训练项目[5551350016]“基于语料库的《现代汉语词典》常用词义项考察”的阶段性成果。)

注释:

[1]杨晓军,李赛红:《语料库在词典编纂中的优势兼评牛津高阶英语学习词典(第6版)》,外语与外语教学,2003年,第04期。

[2]王永耀:《语料库介入的汉语语文词典释义途径》,辞书研究,2010年,第01期。

[3]刘庆荣:《语料库与词典编纂》,上海师范大学学报,2001年,第03期。

[4]王馥芳:《从大数据危机到全数据革命》,中国社会科学报,2015年,第03期。

参考文献:

[1]王馥芳,马兰梅.语料库词典的局限性[J].辞书研究,2003,(05).

[2]中国社会科学院语言研究所词典编辑室.现代汉语词典(第6版)[M].商务印书馆,2015,(1).

[3]国家语委现代汉语语料库HTTP://WWW.corpuscles.org/

[4]北京大学中国语言学研究中心语料库HTTP://ccl.pku.edu.cn/

(苗宁,刘欣彤 江苏镇江 江苏大学文学院 212013)

猜你喜欢
对比分析义项语料库
《语料库翻译文体学》评介
成渝经济区城市经济发展水平比较研究
英汉动物词汇文化内涵的对比分析
基于数据库的唐诗宋词对比研究
基于JAVAEE的维吾尔中介语语料库开发与实现
两用成语中的冷义项
Enhanced Precision
语料库语言学未来发展趋势