由动态语言知识更新看词典的动词收录

2015-05-11 02:21张平蔡意
辞书研究 2014年1期
关键词:现代汉语词典

张平 蔡意

摘 要 文章通过对国家语言资源监测语料库的高频词表与《现代汉语词典》第6版的对比分析,指出该词典的动词收录存在新兴高频动词未得到及时收录和收词标准不一两方面的问题。文章逐一考察了高频词表标注为动词的3239个语言单位,指出了10个应被收录的新兴高频派生词,以及一批由于词和短语的界定问题导致的该收而未收和不该收却予收录的动词性结构。

关键词 动词 词典收录 高频词表 《现代汉语词典》

语言知识的动态更新是客观存在的语言发展现象。张普(2000)从控制论的角度,指出更新语言知识的最好办法是机器自动回收和专家进行评测相结合的协作性知识管理。词典是语言知识的载体,也是人和计算机应用语言知识的指导用书。“随着电子版的文本、数字化的媒体、因特网的网站的几何级数的增加,各种新的知识呈加速度性增长”,词典理应跟上语言更新的步伐,完成好它指导、规范语言文字应用的使命。

国家语言资源监测语料库收集报纸、广播电视和网络新闻中的海量语言信息,为词典的编纂提供了好的“机器自动回收”。《现代汉语词典》(以下简称《现汉》)第6版于2012年7月正式发行,新版词典共收条目6.9万余,增收新词语和其他词语近3000条。本文对比从国家语言资源监测语料库中统计获得的高频词表和《现汉》第6版,专门讨论词典的动词收录问题。

一、高频词表与《现汉》比较的基础

(一)高频词表的特点

高频词表由国家语言资源监测与研究中心的三家媒体语料库(平面媒体语料库、有声媒体语料库和网络媒体语料库)从2005年至2008年四年中共用的带词性的高频词组成。集中反映了最近几年通用领域高流通度、高使用度和高稳定度的现代汉语词汇。取词方式为:

(1)每年三家媒体共用且频率覆盖率达到90%的高频词;(2)从各年高频词中取2005年至2008年四年共用的部分,排除人名、地名、其他专名和数字类的词,最后得到10022条。

(二)比较的基础和必要性

高频词表集中反映了2005年至2008年四年中通用领域高流通度、高使用度和高稳定度的现代汉语词汇。《现汉》第5版发行于2005年,第6版理应反映2005年之后汉语词汇应用的实态。对比高频词表和《现汉》第6版,可以很好地展示《现汉》编纂的进步。

《现汉》的突出特点在于其规范性。它的编写目的,是为现代汉语标准语确定词汇规范。但在实际操作中,词和非词的划界存在一定的困难,这使得不少人在使用《现汉》时,经常会对有些看似短语的单位收进了词典、有些看似词的单位却没有收录感到疑惑。例如:《现汉》第6版收录了三音节的“来得及”“来不及”,却没有收录结构与之一致的“称得上”“称不上”;收录了双音节的“提及”,却没有收录意义与之相近的“提到”。高频词表的词虽然是机器切分的结果,存在一定的分词错误,但换个角度看,无论它是真正意义上的词还是短语,其高频使用就证明了作为一个语言单位,它的内部成员已经具备了高同现的特征,在语感上向词靠近。对比高频词表和《现汉》第6版,发现这些高同现,并与《现汉》第6版已收录的词类似,但未被收录的语言单位,能为《现汉》第6版的修订提供参照性的数据,对其规范起建设性作用。

二、高频词表中的动词在《现汉》第6版中的收录情况

高频词表标注为动词的单位有3239个,其中2896个被《现汉》第6版收录,收录率为89.4%。这说明《现汉》第6版很好地贯彻了收录通用词的原则。未被收录的有343个,除明显有分词错误的“谈谈、有着”等2个外,剩下341个(以下简称“动词性结构”)是本文讨论的重点。

在341个动词性结构中,双音节有307个,三音节有34个。它们在结构方式上的分布和百分比情况如下:

这些高频的动词性结构未被收录的原因,理论上大致有两种可能:一是《现汉》认为它们不是词,以其双音节或三音节的特点,它们最有可能是短语,即机器自动分词和专家语感在词和短语上的分歧(刘庆隆 1982);第二种可能,是《现汉》认为它们尚不具备高流通度特征,不符合通用词的条件。

就构造方式来看,13个附加结构未被收录的原因必定是后者,因为词根和词缀组合而成的只能是词。其他几种结构未被收录的原因,既有可能是前者,也有可能是后者。我们进一步考察了这328个非附加结构在2005年以前的使用情况,它们均已具备了通用特征,由此我们推断,它们未被收录的原因主要是前者。

从数量上看,未收录词中动补结构所占比重最大,这从一个侧面展示了该结构在词和短语的划分上问题最多;其次是动宾结构,再次是状中结构,最后是并列结构和主谓结构。下面,文章以有无分词问题为纲,对比高频词表和《现汉》第6版,讨论这些动词性结构是否应该被收录。

三、无分词问题的动词——附加结构的比较、分析

高频词表中的派生动词,只有一种加后缀“化”的形式,共26个,将它们按词频的高低从1 到26 编号,被《现汉》第6版收录的有16个,未被收录的有10个,分别是:

未被收录的10个派生词在词频上并非都排在已收录词之后;虽然它们都是三音节,但已收录的派生词中也有三音节的情况。鉴于与已收录词的类同性和高频的特点,我们认为,这10个派生动词,具备了被《现汉》收录的条件。

四、有分词问题的动词性结构的比较、分析

(一)比较分析——以动补结构为例

在分词问题上,动补结构最具代表性。以动补结构为例,考察未被收录的176个单位,从形式标记的角度来看,最为突出的有“V+趋向动词”“V/A+介词”“V+到”“V+入”四类,共142个,占未收录动补结构的80.7%,它们在高频词表中的分布和被《现汉》第6版收录的情况如下:

(二)收录理据分析

关于词和短语的划分,吕叔湘(1979)指出:语法原则和词汇原则有时候有矛盾。语法原则强调的是这个组合不容易拆开,它的组成部分不能随意扩展。词汇原则强调的是这个组合不太长,有比较统一的意义。吕先生认为应该把这两个原则结合起来。教学语法经常综合使用三个原则:第一,意义上是否等于内部成分意义的加合,如果等于,是短语;如果不相等,且已经具有了特定的意义,是词。第二,结构上是否固定,即能否被扩展,其内部成分能否单用,如果能够扩展,内部成分能独立运用,是短语;反之是词。第三,语音上的长度,双音节的多是词,两个音节以上的多是短语。(陈蒲清 1984)鉴于词典指导语言文字应用的功能,以词典收词为目的的词和短语的划分,我们认为,如果三个原则有冲突,首先应该考虑意义。一个语言单位的意义不等于内部各成分意义的加合,会给理解带来困难,需要词典注释。所以,结构原则和语音原则应该服从意义原则。其次是语音原则服从于结构原则,语音原则更多表现的是语感层面,结构原则是从语言单位的组合层面做出的理性判断。endprint

综合意义、结构和语音上的特点,对比高频词表中已被收录和未被收录的单位的具体情况,可以看到,《现汉》第6版在相当大一部分动词性结构的收录上很好地遵循了词和短语的划分原则。以《现汉》收录的“V+来”结构的“到来”为例,《现汉》第6版对“到来”的注释是“来到、来临”,它不仅可以表示空间上的位移,还可以表示时间上的临近,如“新年到来之际”,其意义已经不再是“到”和“来”的意义的简单加合,且其结构不能扩展,所以把“到来”视为词更合适。

但对于另一部分动词性结构的收录,《现汉》第6版表现出了标准的不一和态度的游移。一方面,有些更像是短语的单位被收进了词典,而有些更像是词的单位却没有被收进去。

例如,在动补结构的“V+趋向动词”中,“V+去”收录了“除去”,《现汉》第6版对该词的动词用法注释为“去掉、除掉”,意义上等于“除”和“去”的结合——《现汉》第6版对动词“除”的注释中有“去掉”义项,对动词“去”的注释中有“除去、除掉”义项,并且结构上可以扩展为“除不去”,这些都符合短语的要求,和未被收录的“免去”等类同。而且,《现汉》第6版收录了意义和“免去”一致的“免除”,词典对“免除”的注释为“免去、除掉”。词频上,“除去”“免除”和“免去”三者中,“免去”的词频最高。综合起来看,收录前两个却不收录“免去”,似不合理。

又如,在动宾结构的“停+”中,《现汉》第6版收录了“停航”“停诊”,对它们的解释分别是“(飞机或轮船)等停止航行”“停止门诊”,其意义分别是“停”和“航”“诊”的加合,其结构可以扩展为“停了航”“停了诊”,这些特点和高频的“停产”“停赛”一致,但《现汉》第6版没有收录后两者。

再如,在状中结构的“不+”中,《现汉》第6版收录了“不容”,解释为“不许、不让”,其意义等同于“不”和“容”的意义加合,其结构可以扩展为“不能容”,如:

(1)你想我舍得把我偷闲做成的“心”放弃掉么,纵然没有红线,也不能容/不容它流落。

而且,其内部成分可以独立运用:

(2)你别急,容我再想想。

“不容”的这些特点,使它更像个短语。这和没有被《现汉》第6版收录的“不准”“不住”“不知”“不予”“不停”“不怕”“不能”“不明”“不肯”“不符”等类同。

另一方面,有些高频且在意义上不等于各成分意义加合的动词性结构,它们更像是词,却未被《现汉》第6版收录。例如动补结构中的“放下”。我们能在语言应用中看到“放下”的这样一些用法:

(3)分手三年了,她显然还是没有放下前男友。

(4)就像两个匆忙赶路的人,放下一切烦忧琐事,静静地回顾走过的旅程。

(5)为了让村民们放下疑虑,村支书克格介带头下山了。

(6)宫本放下脸来恶狠狠地咬着牙,阴沉地说:“你到底说不说?”

“放下”在以上四个例句中,分别有“忘记”“停止”“抛开”“拉长”的意思,对这几个“放下”的理解,并不能靠“放”的某一义项与“下”的义项的简单加合而获得。

又如,并列结构中的“负有”,其意义并非“负”和“有”的意义的简单加合,而是“担负着、承担着(责任、义务、职能、使命等)”和“享有(盛名等)”的意思,如:

(7)伊格尔伯格表示,美国和中国一样,对改善和发展两国关系也负有责任和义务。

(8)该校作为教会学校,在本地是负有盛名的。

这和同为并列的“+有”结构“享有”和“具有”类同,但《现汉》第6版收录了“享有”和“具有”,却没有收录“负有”。

再如,主谓结构中的“身为”,其意义也并非“身”和“为”意义的简单相加。从汉语的实际使用情况来看,“身为”的意思不能简单地理解为“身体作为”“自己作为”等。例如,下句中的“自己作为”就不能用“身为”替换:

(9)

瑞典希望在欧盟扩大进程中加强自己作为欧洲中小国家代言人的角色,反对建立欧洲联邦体制。

*瑞典希望在欧盟扩大进程中加强身为欧洲中小国家代言人的角色,反对建立欧洲联邦体制。

“身为”有它特定的句法环境和语义内涵。在句法上,“身为”后接表示身份的名词性成分,主要做人名、人称代词等的定语,或者作为句首修饰语,用“,”与主语分开。这些特征使得它更趋近于介词的用法:

(10)

身为一个副团职军官,他是扛着行李步行来到郑州市热力公司的。

(11)5年后,身为校长的他考取了华东师范大学教育系。

以上两例的“身为”不宜分析为动词性结构,它已经词化且虚化成了一个介词。“身为”的用法和做介词用的“作为”一致。既然与之类同的“作为”被《现汉》第6版收录,“身为”也理应做类似处置。

五、结 语

本文基于国家语言资源监测语料库的高频词表,对词典的动词收录问题做了选择式的考察。相比2005年出版的第5版,第6版《现汉》有明显的进步与提高:新版词典共收条目6.9万余条,增收新词语和其他词语近3000条,在我们考察的高频词表中,“工业化、透过、趋于、增大、人性化、在家、前来、提高、进入”等35个第5版没有收录的高频动词,均被第6版收录。但相对于当前的语言实际,第6版在收录动词时仍然存在一些问题,最为突出的是收词标准不一。同是在高频使用和较少造成理解困难的条件下,一方面,按照词和短语的划分原则,有些动词性结构更像是短语,但其中的一部分被《现汉》第6版收录,另一部分却没有,这样的现象破坏了词典收词的系统性原则;另一方面,有些动词性结构具备了词的特征,但《现汉》第6版却未加收录,这样又违背了词典收词的通用性原则和词典对语言文字应用的指导功能。所以,在词典修订工作中,有必要关注这两类现象,并将考察的视野扩大到所有的词类,综合考虑词典规模和收词的通用性、平衡性、系统性,做出恰当的取舍。而且,这一工作有必要借助基于真实文本的大规模语料库来实现。

参考文献

1.陈蒲清.教学语法答疑.长沙:湖南人民出版社,1984.

2.国家语言资源监测与研究中心.中国语言生活状况报告(2008)·下编.北京:商务印书馆,2009.

3.韩敬体.增新删旧,调整平衡——谈《现代汉语词典》第5版的收词.中国语文,2006(2).

4.刘庆隆.现代汉语词典的收词原则.辞书研究,1982(1).

5.吕叔湘.汉语语法分析问题.北京:商务印书馆,1979.

6.张普.信息处理用语言知识动态更新的总体思考.语言文字应用,2000(2).

7.张普.关于控制论与动态语言知识更新的思考.语言文字应用,2001(4).

8.张普.动态语言知识更新研究.北京:商务印书馆,2009.

9.中国社会科学院语言研究所词典编辑室.现代汉语词典(第5、6版).北京:商务印书馆,2005,2012.

(湖南大学中国语言文学学院 长沙 410082)(责任编辑 李潇潇)endprint

猜你喜欢
现代汉语词典
《现代汉语词典》第六版新增词语研究
现代汉语中艺术类行业语泛化现象研究
《现代汉语词典》字母词收录与修订情况分析