基于计量的百年中国人名用字性别特征研究

2022-03-10 01:25杜冰洁刘鹏远田永胜
中文信息学报 2022年1期
关键词:用字汉字

杜冰洁,刘鹏远,田永胜

(北京语言大学 信息科学学院 国家语言资源监测与研究平面媒体中心,北京 100083)

0 引言

人名是不同个体为区分彼此而创造出的指称符号。人名既特殊又普遍,其特殊性表现在,人名属于词汇系统中专有名词的一种,具有指称的唯一性和确定性;其普遍性表现在人名在社会生活中出现的频率极高,在社会系统的正常运作中扮演着十分重要的角色,我们需要“说”名字,也需要“写”名字。与字母文字不同的是,汉字具有表意的功能。因此中国人名不仅具有读音上的特殊性,在字形、字义上也具有特殊性,对于人名用字的研究也就显得十分重要。

本文建立了一个大规模中国名人人名数据库,从汉字本体的角度做了跨度长达百年的人名用字分析,同时从性别的角度展开,探究人名中汉字的性别差异。本文发现两性人名在长度、难易度、丰富度、变化趋势等方面都存在显著差异。

本文贡献在于: ①建立了目前已知最大规模的真人人名数据库; ②分别从汉字本体及计量语言学两种研究视角进行了人名用字研究,这些研究方法应用到人名中被证明具有一定价值; ③得到了百年两性人名用字特征的差异与演变规律。

1 相关工作

对人名的语言学研究侧重于语音、语义等,部分文献对于人名中的汉字有所体提及。苏培成[1]、吴继章[2],邱莉芹和鞠泓[3],张书岩[4-5]探讨了人名中出现的生僻字、多音字、异体字等问题,提倡入名汉字应该规范化。何晓明[6]、赵越[7]提出中国人取名对合体字、独体字等不同字形的讲究,遗憾的是作者并没有针对这一问题进行深入阐述。谢玉娥[8]、Jia J和Zhao Q[9]认为人名中的部分汉字具有性别偏向,但其讨论的主要是汉字意义上的偏向问题,且没有做详细的定量统计和分析,也未从汉字本体的角度进行考察。关于汉字与性别之间的关系,韩燕、邱江、张庆林[10]采用事件相关电位 (ERP) 技术证明汉语人名具有性别刻板印象。王玉新[11]、潘世松[12]从汉字的偏旁结构和发展规律论述了汉字结构本身的性别歧视现象。

以上关于人名的研究多是基于几百上千条人名,样本数量较小。从研究方法来看,多是共时研究,或者两个时间段的对比研究。关于人名的历时研究时间跨度较小,难以宏观反映人名在一段时间范围内的变化。人名中的汉字研究较为单一,多是从汉字意象的角度进行解释,汉字本身特征的研究几乎没有。而有关认知科学的实验又证明人名具有一定刻板印象,因此关于人名汉字的性别倾向研究可进一步探讨汉字性别偏见的现象。同时,目前缺乏一个公开的、可支持人名共时历时研究的中国人名数据库。

2 数据

2.1 人名数据库构建

本文基于知识图谱信息建立中国名人人名数据库。选择名人来建设人名数据库的原因有二: 第一,可最大程度上保证人名及相关信息的真实性;第二,本文假设是否能成为名人与其姓名不相关,因此该语料库也可以支持对中国人名的其他研究。人名数据库构建过程主要如下:

(1) 抽取从百科人物知识图谱(1)http://openbase.openkg.cn/抽取了名人相关信息,这样可较好地保证人名信息的真实、准确性。抽取的条目具体为: 姓,名,性别,出生日期,出生地。

(2) 筛选原百科人物知识图谱中的名人信息分布混杂,并且有大量国外名人信息。为了最大化地获得人名数据并且保证数据包含所需的几个维度,在抽取过程中我们主要通过姓名长度、出生地等筛选中国名人姓名。中国人姓名的主流格式(2)本文仅考虑常规两个字和三个字的姓名。对于传统的复姓,因样本相对较少,故不在研究范围内。近些年出现例如“王张”的双姓,本文当作单姓处理。有: 姓+单名、姓+双名,因此我们将姓名长度限定为两个字和三个字。在出生地方面,我们将关键词限定为中国所有省市,并添加了“中国”“村”等不同粒度的关键词。考虑到有些名人信息不包含出生地信息,我们又添加了“民族”这一判断规则。

(3) 信息补充为丰富对中国人名的研究,我们为每个名人条目补充了拼音、笔画、偏旁等信息。该信息来源于开源中华新华字典数据库(3)https://github.com/HelloDreamen/chinese-xinhua共收录了16 142个汉字的相关信息。对于部分不在字典数据库的汉字,我们利用人工的方法补充字典信息再进行匹配。

最终建成的中国名人人名数据库(4)https://github.com/HelloDreamen/Chinese-Celebrities-Names共有111 564个条目,每个条目包含姓、名、性别、出生地以及人名用字的拼音、笔画、偏旁等信息,其中,有男性人名条目83 706条,女性人名条目27 858条。在这些条目中有54 264条包含出生日期,时间跨度从古代至今,主要以近现代人名为主。该语料库可为中国人名多维度研究提供数据支持。

2.2 研究对象

从上述人名数据库中抽取1919年至今等性别比例的人名作为研究对象。所选时间段中的人名中共出现了2 342个字种,男性人名中的字种有1 800个,女性人名中的字种有1 807个。之所以选择这一时间段是因为本文希望对近现代近百年的人名从汉字的角度做定量分析,而1919年作为近代史开端,自然成为本次研究的时间起点。本文对数据做两种划分,详见表1。

表1 研究对象的历时划分

1) 按照自然年份划分。本文希望能以时间均匀的角度观察人名变化的规律。每二十年一个阶段划分,共五个阶段。

2) 按照重要历史事件为时间点进行划分。本文假设重大政治经济事件对人们起名的影响较大。这个方式主要用于对自然年份划分的对比和说明。

基于中国百年人名数据库及表1的划分,文本希望能揭开百年来中国人名变化趋势的一角,并试图回答以下问题:

1) 人名在长度上是否有性别差异?百年来人名长度变化情况及其原因。

2) 在用字难易度上是否有性别差异?百年来人名用字难度变化情况及其原因。

3) 在用字丰富度上是否有性别差异?百年来人名用字丰富度的变化情况及其原因。

4) 具体用字是否在时间维度上有显著差异?百年来人名具体用字变化情况及其原因。

3 人名用字性别差异及历时分析

3.1 名字长度

文字同语言一样是一种信息交流的工具,人名中的汉字是记录人名内涵的书写符号。很多汉字都能独立表达一定含义,人名的内涵可以通过每个汉字的排序、人名汉字的多少(即名字长度)等传达。本文将只有一个字的名字称为单名(如: 杜甫),两个字的名字称为双名(如,周树人)。

我们计算了两性人名的平均长度,其中女性人名长度均值2.88,男性人名长度均值2.91。随后做了皮尔逊卡方检验(5)本文所有统计检验均采用SPSS Statistics 25.0.0软件计算得出。,结果表明: 男女人名中的单名和双名分布存在统计学意义上的差异。具体统计结果见表2。

表2 性别与人名长度卡方检验

为了解各个阶段单双名的具体分布情况,图1以自然年份划分观察近百年来中国人名长度的变化。

图1 自然年份中两性人名单双名的变化趋势

由图1可知: ①女性人名中的单名比例一直高于男性,但是两性人名中的单双名差异随着时间的发展不断缩小; ②总体而言,人名中单双名的比例呈现一定波动,但是双名占据绝对优势; ③1979-1998年间单名比例是一个峰值,但是进入21世纪,单名比例又有所降低。

双名是魏晋门阀制度盛行,强调宗族家谱以后才逐渐占据主流的。由于族谱的存在,在取名时中间一个字需要固定,因此中国人名大多数是双名,而家谱和宗法制度有着密切的联系,宗法制度强调与家族中男性长辈的血缘亲疏,这就对家族中男性晚辈身份造成约束。所以男性的双名比例始终高于女性,反之女性单名比例高于男性。即使除去按字辈取名的习俗,双名中由两个汉字承载的信息量也大于单名,增加名字内涵的同时避免了重名的概率,所以总体上双名一直占据主流地位。但是随着近现代中国各种思想解放运动展开,一定程度上打破了传统的宗法制度,按照字辈取名的习俗也逐渐减少。原本按照字辈取名的双名,实际上只添加了名字末尾的一个新信息,如今中间的字没有了,依然只需要添加一个新信息,所以单名的比例就呈现增高的趋势。在改革开放初期,随着思想观念的进一步解放,以及追求个性的心理特征,单名比例不断增长,在1979-1998年到达高峰。但是进入21世纪,随着人口的增多,姓名规范意识的增强,单名比例又开始下降,双名逐渐增多。

3.2 用字难易度

本文的难易度仅指书写难易程度或认读的难易程度。采用汉字常用等级这一指标衡量人名汉字的难易度,并以国家语言文字工作委员会1988年1月发布的《现代汉语3 500常用字表》作为标准。该字表中的字主要满足基础教育和文化普及的基本用字需要,因此人名中的汉字若是来自于该字表,则用字在认读或书写上相对简单。该表中的汉字有一级常用字和二级常用字之分,不在字表中的字统称为非常用字,即用字相对复杂。

按照性别分组,采用卡方检验验证用字难度是否存在统计学意义上的差异,结果表明,男女人名用字的难度具有统计学意义上的差异。具体统计结果如表3所示。

表3 性别与用字难度卡方检验

由于单名在编码长度上比双名短一位,大大增加了重名的可能。取名人为了降低重名的概率,会在选字入名时有意选择一些复杂的、不常用的字。女性的单名比例高于男性,为排除名字长度的影响,本文将单名和双名分离,分别研究两性人名用字的难易程度。图2是按自然年份划分的单名用字难易程度的分布。

图2 自然年份中用字难易程度的性别差异(单名)

由图2可知: ①单名用字以一级常用字为主,其次是非常用字,最后才是二级常用字。二级常用字比较稳定,非常用字最不稳定; ②女性单名用字较之男性更复杂,但是两性人名的非常用字总体呈现出下降的趋势。男性用字难易度波幅较大,较女性更加不稳定; ③对比图3后发现,人名的非常用字出现过两次低谷阶段,第一次低谷时期是1939-1958年附近,第二次则是1999年至今。在1966-1979年附近,非常用字出现过一次激增阶段。

图3 重大历史事件中用字难易程度的性别差异(单名)

人名的主要功能是区分彼此并且满足社会成员之间的互动,所以名字要便于辨认,常用字总体占比会更多。但同时人名也是个人身份的标签,为了体现个性或者表达某些特殊含意,也会出现特殊的字,非常用字也会占据一定比例。而正是出于这些特殊的情感表达,会在某些特定时间段内出现较大变化,于是就会出现图2、图3中所看到的起伏。值得注意的是,男性人名的非常用字波幅大于女性,男性非常用字的激增阶段对应的是1966-1978年这一时期,其名字更容易与特定事件和时段挂钩。人名非常用字的两次低谷对应的原因可能有所不同。第一次非常用字的低谷伴随的是一级常用字的增长,而第二次则伴随的是二级常用字的增长。我们的猜想是第一次低谷相应时期的新生儿父母多经历了多年战争,受教育机会少,文化程度低,在取名的时候受到文化程度等因素的限制,用字相对比其他时期更加简单。而第二次低谷则更可能是新时期语言文字工作者和有关政府对于姓名规范的呼吁。

图4是按自然年份划分的双名用字难易程度的分布。

图4 自然年份中用字难易程度的性别差异(双名)

由图4可知: ①与单名类似,双名的一级常用字占据绝对优势,二级常用字最稳定; ②女性双名的整体用字仍然难于男性,两性人名用字在1978年后都发生了显著变化,一级常用字减少,非常用字呈现上升趋势; ③改革开放后人名用字与前三个阶段有明显区别,而这期间又分为两个时期,21世纪后的两性用字的难易程度差异变大,女性非常用字增幅比男性更显著。

虽然双名难易度的三个等级分布与单名类似,但是整体上双名用字比单名简单,这印证了本节开头的假设即用字的难易度与名字长度有一定关联。与单名逐渐变得更简单所不同的是,双名逐渐变得复杂,这与二者的基数有关。

3.3 人名用字丰富度

在计量语言学中测量词汇丰富度常用的指标是型例比(TTR,type-token ratio),该指标计算的是文本中不同词语在所有词语中所占的比例,TTR值越大,说明文本使用的词汇越丰富。但是TTR的值受到语料库大小的影响,因此本文使用“吉罗指数”[13-14],它是TTR的变体,可减少文本大小对于丰富度的影响,如式(1)所示。

(1)

其中,Types是型符,Tokens是类符。我们将词汇丰富度这一指标应用到人名用字中,计算人名用字的丰富度,计算得到历时百年的人名用字总体丰富度为11.45。以施建刚和邵斌[15]计算的“兰卡斯特现代汉语语料库”传记和散文子库中的吉罗指数参照,该语料库的吉罗指数为43.93,远高于人名用字的吉罗指数,这说明相对于普通汉语书面语,人名用字的丰富度较低,用字比较集中。

为探究不同年代用字丰富度的变化以及两性人名用字丰富度的差异,我们分别按照自然年代的划分计算男性和女性人名用字的吉罗指数,如表4所示。

表4 两性人名用字丰富度的吉罗指数

从表4中可以看到,从1919年至今,人名用字的丰富度总体呈现降低的趋势,也就是人名用字逐渐单一化,进入人名的汉字越来越集中。人名作为专有名词的一种,其专有性和独特性越来越突出。同时对比两性人名用字的吉罗指数发现,1998年以前,男性人名用字比女性人名用字丰富。

3.4 百年人名高频字及用字性别偏度

对近百年来两性人名中出现的汉字进行统计,取高频字的前15个字。两性人名用字的总体差异见表5。在这些高频字中只有“华”字是重叠的,其在现代汉语词典[16]中的解释主要有“中国、繁华、精英、美丽”等,这些代表了中国人名最常包含的意义。

表5 百年来两性人名高频字

在我们感性认知中,男女人名在用字上有所不同。但是哪些汉字具有明显的倾向,这些具有倾向的汉字本身有怎样的特征呢?本文设计了人名用字的性别偏度这一指标,从定量上对人名与性别的关联进行考察,如式(2)所示。

(2)

Cbias为汉字的性别偏度分数,其中fmale为该字在男性人名中出现的频次,ffemale为该字在女性人名中出现的频次,ftotal为该字在所有人名中出现的频次。当Cbias> 0 ,该字偏向于男性用字;当Cbias< 0 ,该字偏向于女性用字;当Cbias=0,该字在男女人名中的分布均衡,为中性字;当Cbias≈±1 时,该汉字仅出现在一种性别之中,称之为极男/女字。取总字频为前1 000 的所有汉字中的性别偏度,最终得出百年人名性别极性字表,如表6所示。

表6 百年高频人名用字性别极性字表

在高频字中,极女字较极男字更多,也就是在取名系统中女性人名的专用字较多。我们对表6中比较集中的几个意象做了简要归纳,结果如表7所示。

表7 两性用字意象归纳

3.5 人名用字历时变化趋势

我们分性别将所有年份的用字进行统计,得出不同年份的高频字表,如表8、表9所示。

表8 自然年份中两性人名高频字分布

表9 重大历史事件中两性人名高频字分布

按照总体高频字表中每个字对应的排序,对历时层面的前15个高频字进行编码。前人的研究认为,人名用字与历史事件有关[4],因此在划分人名阶段的时候采用了重大历史事件作为节点。所以我们首先选择表9的内容,采用独立样本Kruskal-Wallis检验。检验结果表明,男性用字的分布不具有统计学意义上的差别,而女性用字具有统计学意义上的差异。具体统计检验结果如图5所示。

因为女性用字分布存在差异,我们进一步对女性用字做了成对比较,探究不同阶段之间的差异。如图6所示,图中不同时段用节点表示,每个节点显示样本的平均秩,彼此之前的关系用实线连接。可以看到,女性用字差异主要来源于第四个阶段,即改革开放以后,女性用字在改革开放后发生了显著变化。

图5 人名用字的Kruskal-Wallis检验 检验总计量为60。男性人名均值为6.704,双侧渐近显著性为0.082,女性人名均值为15.627,双侧渐近显著性为0.001。

图6 女性用字分布与年代的成对比较 每行会检验零假设;样本1和样本2分布相同。显示渐近显著性(双侧检验)。显著性水平为0.05。 Bonferroni校正已针对多个检验调整显著性值。

鉴于差异主要分为两个大的阶段,即1979年前后(改革开放前后),因此我们对这一时期前后两性人名高频字变化的主要特点做出归纳,结果如表10所示。

表10 改革开放前后高频字意象主要变化

从表中可以看到,1979年以前男性人名部分与历史事件有关联,两性人名对于政治历史事件的敏感度是不一样的,相比之下男性人名与政治历史事件联系更加紧密,从不同阶段的男性高频字可以看出时代特点。在中华人民共和国成立前强调传统“修身治国平天下”的理想,男性高频用字更多反映个人品德修养。从表8中可以看到,在第一阶段“德”“良”等字都在前15个高频字中;在第二阶段,男性人名反映伟大志向、建设祖国的心愿,如“建”“志”等;第三阶段则反映出革命与建设的潮流,如“军”“伟”。男性人名用字分布虽然总体没有显著差异,但每个阶段都随着时代特征而体现出不同的侧重,高频字的排序随之发生变化。

不过变化是缓慢且滞后的,可以通过两种时间划分方式的重叠部分来推测不同时间段内部的变化,以“德”“建”二字为例,从“德”字在表8、表9中的排序变化可以看出,该字在中华人民共和国成立前使用非常频繁,中华人民共和国成立后使用频率并没有迅速降低,甚至在早期使用依然较多,随着时间的发展逐渐变得不那么常用。类似地,1950-1958年间“建”的使用不如1959-1965年多。与其他历时阶段比,“建”字在建国初期呈现小高峰。而在这一阶段内部再比较,该字的使用又呈现出了逐渐上升的趋势。因此人名的变化虽然受时代的影响,但其变化具有渐进性和滞后性。

为了更清晰地显示人名高频用字的变化,我们分性别总结了各个阶段排名均在前50的字,取前10个,归为稳定且常用;取各阶段在前50,并且呈现上升趋势的前20个(字)归为上升快且当前常用(Max(Rank1,Rank2,Rank3)-Rank4);取前三个阶段中任意阶段曾在前50,但在第四个阶段下降的前20个字归为下降快且曾经常(Rank4-Min(Rank1,Rank2,Rank3))。最终得到表11。

表11 用字变化趋势

续表

4 结语

本文构建了一个中国名人人名数据库,共11万余条,每个条目含有人名、性别、出生地等社会文化标签,同时含有拼音、笔画、偏旁等文字信息标签。该数据库可以支持对人名的地域、历时、性别等多个维度的研究。

在人名数据库的支持下,本文选取1919年至今的人名作为研究对象,从人名长度、用字难易度、丰富度等角度进行探究。研究发现男性人名比女性长,但两性人名长度的差异随着时间而不断缩小。建国以来单名比例不断增加,但是进入21世纪后又逐渐减小。单名用字比双名难,女性人名用字比男性难,男性用字难易程度波动较大。人名中的二级常用字最为稳定,其次是一级常用字。在用字的丰富度上,随着时间的发展,人名用字越来越体现出其专有性的特征,丰富度逐渐降低。男性人名用字总体上比女性用字丰富。通过计算人名的性别偏度指标后发现女性人名专用字更多。改革开放对人名用字格局产生了重要影响,女性用字变化显著。男性人名与历史阶段联系更加紧密,用字的变化虽受历史事件的影响,但其变化具有渐进性和滞后性。

这些发现可以帮助我们进一步了解人名的发展变化规律,探究汉字中的性别差异。当然,本文还存在一些不足,例如,在自然年份中1919年至今这一时段的人名较少,对数据的分析产生一定影响。未来工作中,我们将持续补充新增名人人名数据及相关信息,并从偏旁、地域等维度进行深入研究。

猜你喜欢
用字汉字
容易混淆的词语
《汉语大字典》“人名用字”考误举隅
科技论文表格的编排要求(五):用线和用字
论高级用字阶段汉字系统选择字符的几个原则
译经用字与译经词语新释
汉字这样记
汉字这样记
汉字这样记
汉字这样记
谈书法作品的完整性与用字的准确性