《朝鲜后期汉语会话书辞典》词类标注研究

2020-11-09 01:09张程

成都大学学报（社会科学版） 2020年5期

张程

(成都大学文学与新闻传播学院，四川成都 610106)

一、绪论

明清时代，中国与朝鲜的交流极其频繁，因此当时朝鲜的译学机构——司译院非常重视汉语教育，在韵书和译学书编修方面留下了不少成果。该机构编纂的书籍可分为直解类、会话类、辞典类和韵书类。就会话教科书的发展而言，高丽末期便开始使用为朝鲜初学者所编订的课本《老乞大》和《朴通事》。随着汉语的变化，这些教材的内容也发生了相应的变化，如高宗二十年(1883年)，当时朝鲜半岛的汉语课本与中国汉语的实际脱节，为真实地反映当地汉语的实际情况，译官李应宪编纂了《华音启蒙》，此后其谚解本也刊行于世。

学界对官方正式刊行的《老乞大》《朴通事》做了很多具体的研究，但对民间个人所编写的汉语会话书却未加以重视。虽然这些书籍的编修者个人水平参差不齐，书中许多字以同音字或以谚文记音，但其内容均为当时日常口语的真实记录，并带有东北官话色彩，且以抄本形式保留了下来，反映了当时中朝边境贸易以及社会文化的交流，因此具有重要的研究价值。

朝鲜后期这部分由个人所编修的汉语会话书，有朝鲜翻译语或朝鲜词尾和助词，所以书中汉语部分有很多借音词，有些甚至无法识别，那么就可以借助朝鲜语的翻译准确地解释其含义。在此背景下，韩国鲜文大学校中语中国学科的朴在渊教授从朝鲜时代后期民间的汉语会话书中搜集了词目和例句①，编订了一本《朝鲜后期汉语会话书辞典》(下文简称为《辞典》)，包括正体字、异体字、俗字在内的词目6252条，于2010年4月在韩国学古房出版社出版。

在《辞典》的凡例中，朴在渊教授指出：对每一个词尽可能标注了词类或类别，如有两个或两个以上义项或词性的，实行分条释义，实词在前，虚词在后，语义和语法有显著差异的则用①②③等数码符号表示。本文结合已有的词类标注的研究成果，对《辞典》中词类标注方式、内容、词范畴的特点以及一些不足之处进行分析，发现《辞典》词类标注的成绩和问题并存。这些发现有利于域外汉语辞典编纂提高质量，也有利于丰富汉语史的知识，并对国内汉语词典的编纂提供有益的参考。

二、《朝鲜后期汉语会话书辞典》词类标注的整体概况

(一)标注方法

朴在渊教授在书中均以“<>”标注词类，对于不同的情况予以不同的标注方法，分为以下几类：

1.当一条词目只有一种词类时，根据其情况的不同，有以下三种词类标注方法。

(1)当一条词目仅有一种意义和一种用法时，就先给出词目，再给出韩文、汉语拼音、词类，最后展示例文条目。共有4033例。如：

(2)当一条词目只有一种词类，但语法或意义有显著差异时，也分别用序号①②等标注，顺序有三种。

第一,先给出数字，再标注词类。仅有1例。如：

从这个例子可以看到，韩国学者从语境义对词进行区分，前者对“套”是用于人的身上，后者的“套”是用于动物的身上。

第二，第一个先标注词类，再给出数字；第二个先给出数字，再标注词类。仅有2例。如：

第三，在第一个数字前面标注词类，后面的数字不标注。共有131例。

2.当一条词目有两种以上的词类时，分别用序号①②等数字标注，但顺序有两种。

(1)先给出数字，再标注词类。共有102例。如：

(2)第一个先标注词类，再给出数字；第二个先给出数字，再标注词类。仅有5例。如：

(3)当一条词目在不同语境下可能任意解读为两种以上的词类时，直接在词目后用“<><>”予以标注。仅有3例。如：

(4)当一条词目的部分义项有词类，而其他义项没有词类时，其标注方法是：在数字后标注词类，再添加例句；没有词类的不标注。共15例。如：

类型词类标注方式数量一条词目仅有一种词类时仅有一种意义和用法时词目+<名>+例文4033语法或意义有显著差异时①<動>②<動>1<動>①②<動>2<數量> ①②131一条词目有两种以上的词类时①<名>②<動>102<形>①②<動>5一条词目可以任意解读为两种以上的词类时<動><形>3一条词目的部分义项有词类,而其他义项没有词类时①②<助>①<動>②①<名>②<動>③<動>④15

《现代汉语词典》(以下简称《现汉》)(第七版)如果一条词目只有一种词类，它适用于多义项，则标在义项①之前，如果只适用于个别义项，则标在相应义项号码之后。[1]再反观《辞典》的排版方法，绝大部分是和《现汉》一样，只有一种词类，且适用于多义项，则标在①之前的词条数量为131，占比为97.7%；只适用于个别义项，则标在相应义项号码后面的词条数量为102，占比95.3%；这说明《辞典》的词类标注方法基本符合规范，但也有一些不完善的例子。

(二)《辞典》中词类的构成情况

《辞典》的词类总共分为18项：名词、动词、形容词、介词、代词、量词、连词、区别词、状语词、助词、副词、声词、叹词、数量、熟语、谚语、成语、词尾。从这些分类中，我们可以看到，只有前边14种属于词，后面都属于语或者属于语素，如：熟语“唇櫛不下槽、一手招錢”等属于“语”，词尾“们”属于“语素”。而其他没有标注的条目，我们则把它归为不成词语素或词组。

值得注意的是，《辞典》中的有些词类在《现代汉语词典》第5、6、7版中没有，以“数量词”为例，在《现汉》中未作为一个词类引入，而是用文字说明的形式。如：

八成bā chéng①数量词。十分之八：～新任务完成～了啦。(八成儿)[副]多半；大概：看样子八成儿他补来了。(《现汉》第7版)

郭锐(2002)认为作为词的数量词有三种类型：第一，“数+量”凝固成单词，如：千金、百年；第二，“数+量”语音合并成合音词，如：俩、仨；第三，具有数量意义，功能相当于数量词组的单词，在《现汉》中被归入形容词、代词等词类。[2]如：

一切yī qiè[指示代词]①全部；各种：调动～积极因素。②全部的事物：人民的利益高于～|夜深了，田野的～都是那么静。(《现汉》第5版)

在《现汉》中第一类均用文字解释为数量词，第二类不作为数量词被收纳实在让人难以接受，第三类的词也符合数量词的特征，处理为数量词更合适。

《现汉》之所以有上述困境在于对数量词的定位没有区分词与词组造成的，反观《辞典》在词类系统中增加了“数量词”，给了它一个合法的词类地位，这正是《现汉》应当从海外汉学研究中汲取的有益成分。

本文把《辞典》中完全标注了词类的条目称为“A”类条目，把部分义项标注了词类条目的称为“B”类条目，把完全未标注的词类条目称为“C”类条目。

根据统计结果，“A类条目”占84%，“B类条目”占0.6%，“C类条目”占15%。详见表1。

表1 《辞典》词类标注对象统计总表

我们又对这三类词的内部构成进行统计，如表2所示，在“A类条目”中，双音节所占的比例最高(68%)，三音节(18.6%)和单音节(11%)次之，四音节以上的条目所占比例最低(2.2%)。在“B类条目”中，双音节所占的比例也最高(73.6%)，单音节次之(36.5%)，三音节及其以上的条目不存在。“C类条目”中，双音节所占的比例也最高(48%)，三音节(31%)和四音节(11%)次之，单音节和(五—十二)音节所占的比例分别为4.8%。

表2 《辞典》三类条目内部构成统计表

从条目内部构成看，可以发现音节的数量与条目类型(即成词与否)有一定的关系，再次统计分析，能够清晰地看到这一点，如表3所示：随着音节的增加，A类呈递减的趋势，表中的五种类型分别为：96.2%、94.7%、89%、72.5%、25%；C类条目呈现递增的趋势，表中的五种类型分别为：3%、5%、11%、27.5%、75%。这可以看出《辞典》编纂者对汉语词的认知和音节的长短有关系，音节越短，越有可能成词，音节越长，成词的概率越低。

表3 《辞典》音节字数与条目类型关联统计表

《辞典》所收录各级各类语法单位情况,如表4所示：成词项目占辞典语法总条目的86%，名词词项占词类条目的59%，动词词项占词类条目的28%，形容词词项占词类条目的5.6%，副词词项占词类条目的3.2%，其他的词类词项占比都非常小。

表4 《辞典》中各类语法单位的数量及比例统计表

《辞典》共收录144个兼类条目，仅占条目总数的2.4%，通过表5可以看到，词的音节数量与兼类成反比，即一个词的音节数量越多，兼类条目所占的比例就越低，这个统计结果和王仁强(2011)对《现汉》(第5版)的统计结果相似。这是因为单音节词比双音节和三音节词经历了更长的历史发展，其多义现象和语法功能多样的现象自然更为普遍。

表5 《辞典》词的音节数量与兼类的统计表

三、《辞典》中词类范畴特点

范畴是人类理性思维的逻辑形式，用以反映事物本质属性和普遍联系的基本概念，范畴化是人类对事物分类的过程，是一种认知活动。我们人类社会总是尝试寻找纷繁复杂的社会和自然现象的相似性，并以此为根据进行分类再形成概念。当有了对各种现实现象加以范畴化的能力，我们才能对经验进行处理、构造、存储，以及和他人交流自己已有的经验。基于此，认知语言学一直以语言的范畴化研究为焦点，主要从认知和功能的角度探讨范畴化问题。

Lakoff(1987)将亚里士多德对本质属性和非本质属性的形而上学的区分称为范畴化的“经典理论”，它认为概念的类来源于客观世界里既定的范畴，与主体无关，而范畴的归属是由概念的本质属性决定的。[3]Taylor(1995)总结了经典理论的基本假设：(1)范畴是由一组充分必要特征合取定义的；(2)特征是二元的；(3)范畴有明确的界限；(4)范畴中的所有成员地位相等。[4]在这种理论的指导下的范畴是绝对的、离散的。自亚里士多德以来，人们一直以为范畴问题得到了很好的解决，但到了20世纪末期，随着认知科学的进步，发现“经典理论”不能概括的概念范畴和语言范畴越来越多了，从而迫切地要求一种新的范畴理论。

对“经典范畴”理论首先发起挑战的是语言哲学和认知心理学，维特根斯坦(1953)通过“游戏(games)”一例提出了著名的“家族相似性”理论，并论证了范畴边界的模糊性、中心与边缘的区别以及隶属度的差异。20世纪70年代以来，包括Rosch在内的认知心理学家和Lakoff在内的语言学家通过实证研究，发现范畴化的关键是“原型(prototype)”,从而建立了全新的范畴理论——原型理论。它和经典范畴理论的观点截然相反，Geeraerts总结了原型结构的四个特点：(1)并非所有的成员都具有同样的代表性，呈现出典型的程度差异；(2)呈现出家族相似性结构；(3)边缘模糊；(4)无法根据一组单纯的必要充分条件进行释义。

在原型理论的影响下，近年来各语言学家反思了词类问题，认为：词类范畴是非离散的原型范畴，有核心与边缘之分，词类范畴之间没有截然的分界线，词类划分具有相对性。[5]袁毓林(2000)指出：汉语词类是一种原型范畴，是人们根据词与词之间在语法性质(或语法分布)上的家族相似性聚集成类的。[6]

本文通过对《辞典》的统计，发现《辞典》所认可的词范畴具有原型效应。

(1)《辞典》中收录的语素、词到词组的各级语法单位构成一个连续统一体，词和非词都不是一刀切，如：单音节条目中，既包括96.2%的A类条目(所有义项都是词)，又包括0.6%的B类条目(一些义项是词，一些义项不是词)，还包括0.3%的C类条目(所有义项都不是词)；双音节条目中，既包括94.7%的A类条目，又包括0.3%的B类条目，还包括5%的C类条目；三音节条目中，有11%属于C类条目，为词组而非词；四音节中有27.5%是词组；五音节以上的条目中，只有25%属于A类条目，75%属于C类条目。这种共时平面上兼属两个语法级阶的新旧形式和用法共存的情况源于语言的渐变性质。[7]

(2)《辞典》中最典型的词是双音节词，占比68%，其次是三音节词和单音节词，占比18.6%和11%，而四音节及其以上的词为词范畴的非典型成员。双音节不仅在整部辞典中的成词比例最高(占比为68%)，而且自身成词比例也高(占比94%)；单音节和三音节虽然在整部辞典中的成词比例虽仅为11%和18.6%，但它们自身成词比例高，分别为96.2%和89%；四音节在整部辞典中成词比例为2.1%，其自身成词比例为72.5%；五音节在整部辞典中但成词比例为0.1%，其自身成词比例为25%。从表6可以看出，《辞典》中各音节的词在整部辞典中所占的比例大致呈现出以双音节为波峰的正态分布；自身成词比例，大致以单音节逐渐下降的分布。而《现代汉语词典》(第5版)中单音节的自身成词比例比双音节少很多，经分析发现其原因是：在朝鲜时代的汉语会话书中，单音节词还受到了古汉语的影响，因为在古汉语中，单音节语素绝大部分都可独立成词，也收录了很多异体字，而这些异体字在现代汉语中基本不再使用了，如：幇(帮)。

表6 各类音节成词情况示意图

(3)一个条目可以包含两个以上的语法词或语法单位项目。一方面，部分义项是词、部分义项是语素的B类条目共有15条；另一方面，兼类条目多达150条。

从上面三点分析可以看出，《辞典》的词类范畴并非是离散的，而是以原型为中心延展开的，具有连续性。

四、《辞典》词类标注的不足之处

(一)词类标注体系

《辞典》在正文中总共使用了名词、动词、形容词、介词、代词、量词、连词、区别词、状语词、助词、副词、声词、叹词、数量、熟语、谚语、成语、词尾18个汉语词类。可以看出，这些词类清单中，绝大部分都是从语法功能的角度对汉语词的条目进行的分类，如名词、动词、形容词等；有完全从功能的角度命名的，如“状语词”；有从造词的角度进行归类的，如“声词”；有从“语”的角度进行归类的，如熟语、谚语、成语、数量；还有从构形角度归类的，如“词尾”。

《辞典》作者在对“符号”进行说明的时候，指出“<>”为词目的词类，所以作者是没有完全理解“词类”的性质和含义，混淆了词的各种区分方法。Haspelmath(2001)指出词可以从不同的角度进行分类，从语音的角度可分为单音节和双音节，从社会因素的角度可区分为一般词汇和专门术语……，但当“词类”作为一个术语时，则专指源于希腊罗马传统而对词从语法功能角度进行的分类。[8]反观《辞典》对词的分类，则没有严格从狭义的角度进行分类。

纵观我国词类划分的历史，新中国建立前，以马建忠的《马氏文通》为代表，主要以“意义”为标准。1949年至1978年前，主要以“形态”为标准。从20世纪80年代至今，以词的句法功能作为词类划分的标准已经成为主流。朱德熙(1982)认为：汉语不像印欧语那样有丰富的形态，给汉语的词语分类就不能根据形态，只能根据语法功能。[9]胡裕树也持此观点，他在《现代汉语》中指出：语法上区分词类的目的是为了指明词的外部结构，说明语言的组织规律，因此，分类的基本根据是词的语法功能。[10]

进入21世纪后，随着研究理论和方法的进步，词类划分标准主要集中在两个方面，一是以大型语料库为基础，对词类的分布位置和组成位置先进行大数据分析，再进行词类划分。以徐艳华和郭锐为代表。二是基于家族相似性的功能标准进行划分，以袁毓林为代表。

在《辞典》的体系中有些“词类”设置不妥当，如“声词”和“词尾”。王仁强(2012)认为“声词”在语法学界承认其词类地位主要是始于《中学教学语法系统提要》。受此影响，很多词典和汉外词典都承认拟声词的独立地位，但它是从造词法的角度分类的，而非语法上的分类，其他语言则归入名词或动词，如英语的“chirp”。[11]在普通语言学里，词头、词尾和前缀、后缀属于不同的概念，前者用来构形，不能改变词干的意义，我们以英语为例来进行说明。如：

(1)work(原形)-worked(过去式)、finish(原形)-finished(过去式)

(2)work(工作)-worker(工人)、teach(教书)-teacher(教师)

上面的例(1)在词干后加上“ed”，单词就具有过去式的意义；单词加上“词尾”后，语法意义和词的形态都有了变化，但词的意义没有变化,“ed”属于词尾。上面的例(2)在词干后加上“er”，单词意义发生了变化，由动词变为名词，“er”属于词缀。词尾和词缀是不同的语言成分，不能看成一样。《辞典》把“们”归入<尾>这一类，而《现汉》(第5版)把“们”归入词缀这一类中。我们认为后者的归类符合现代汉语的特点，因为词“尾”在英语体系里，它加在词干后面不改变词的意义，只改变词的语法属性，但在汉语体系里，“词缀”却要改变词意。

根据认知心理学家Miller(1956)的研究表明：为了读者在查询词典时，不至于为过多的词类和内涵干扰，一种语言的词类划分最多不要超过9类，因为这样才与读者的认知水平和短时记忆的先天容量相适应。[12]《辞典》总共15个词类项目(排除熟语、谚语、成语)，也远远超过了9个，所以它的词类数量还需精简。

(二)词类标注对象

根据上文，我们对《辞典》中词类条目的统计，单音节的成词比例非常高，占到了96.2%，并且四音节的成词比例也非常高，占比为72.5%。根据王仁强(2011)的统计，《现汉》(第5版)单音节的成词占比仅为27.71%，四音节的成词占比仅为6.08%；根据表7可以看出，双音节和三音节在两本词典中的占比都差不多，但《辞典》中的单音节的成词比例是《现汉》的4倍多，《辞典》中四音节的成词比例是《现汉》的2.6倍左右，这很有可能是编著者的词范畴观出现了偏误，很多非词的单音节就没有收录进《辞典》，或者不少非词条目被错误地标注了词类。

表7 《辞典》和《现汉》(第5版)词类条目与音节数对比

逐条分析《辞典》中的单音节条目的词类标注，发现存在以下问题：

(1)有些意义和词性明显不一样的词项，未作区分。如“别”。

【別】<副>“～怪我吧。”(漢談動靜30a)“～那樣說吧。”(漢談動靜30b)“咱休～了兄長之言，定體已後，不得改～。”(飜樸上25b)

从上面“别”后的例句可以看出，前两个例句的“别”属于副词词性，但第3个例句“别”的意义应该是“改变”，其词性应该属于动词，但《辞典》却未作任何说明。

(2)未标词类，如“臭”“冻”“多”就属于这种情况。

【臭】“講主是一百斤貨算丁稱，叩下八十斤正稱，價銀子一百丁銀叩下八十兩紋銀打算呢。若說是海參行事(市)～，沒有人要咧。”(華撮 52a)

【凍】“～脚”“～面皮都打破了不中。”(朴中 30a)

【多】“～好”(漢談動靜 33a)“走一個～月才到這北京來咧。”(華啟下 1b)“有一年～的工夫。”(華啟上 27a)

从上面词项的例句可以看到，“臭”和“冻”都应该标注为形容词词性，“多”在“多好”的例子中词性为副词，在“一個多月”“一年多的工夫”的例子中词性为数词。

(3)对词项的词类进行了错误的标注。如“差”“吊”“管”“混”“苦”“懒”“化”等就属于这种情况。

【差】<形>“不～什麼”(漢談不字 53b)“你們那邊像咱們中國不～甚麼，只是穿帶的衣服兩路，從那朝那代就是這樣麼？”(華啟下 7b)

【吊】①<動>掉下、跌落。各載咧天上～下來吊二八女佳人。(華啟下 4b)②<名>“每一個雞一～五百錢，有幾個算幾個，你們要不要罷？你們若不要咧，咱們好拿回去啊。”(騎著一匹 44a)

从上面词项的例句可以看出，“差”应该是动词词性，“吊”的第②项应该算作量词词性。

(4)错把非词语素当作词进行了标注。如“管”。

【管】<动>“若是办不出这一件事来，别的一万八千的买卖是更不用～着咧。”(中华濯足 25b)“不过是走着一年一塘京，一远本地就清天家全不～甚嗎事。”(中华濯足 42a)

“管”在前一个例句中作动词词性，但在第二个例句中，“管”却仅是一个构词语素，“不管”整体作连词。

五、结语

综上所述，通过对《辞典》词类标注的仔细分析，发现《辞典》所标注词的范畴具有原型效应；通过对《辞典》词类进行统计整理，发现《辞典》在词类标注方法、兼类词的处理上都很规范，但也存在一些问题。只有正视这些问题，才能提高域外汉语辞典的编纂质量，并对国内汉语词典的编纂提供有益的参考。

注释：

①从《朝鲜后期汉语会话书辞典》的序言中可看到，朴在渊教授所参考的语料：19世纪汉语会话书《华音启蒙谚解》，中韩翻译文献研究所藏《学清》，阿川文库藏《中华正音》，濯足文库藏《中华正音》(骑着一匹)，小仓文库藏《华音撮要》《关话畧抄》，藏书阁藏《你呢贵姓》《中华正音》《骑着一匹》、顺天大学藏《中华正音》，词汇集《华语类抄》《汉谈官话》等。