汉语基本复合名词短语语义关系知识库构建与识别

2019-12-30 02:36张文敏李华勇邵艳秋
中文信息学报 2019年12期
关键词:知识库语料短语

张文敏,李华勇,邵艳秋

(北京语言大学 信息科学学院,北京 100083)

0 引言

复合名词短语在日常生活中应用广泛,在语言使用中占有较大比重。据Leonard[1]统计,近两个世纪以来,在小说体散文中使用复合名词短语的次数呈现稳定持续增长的态势,同时复合名词短语的种类也有显著的增长,且其语法结构较为独特,语义关系较为复杂,因此在语言分析中扮演着非常重要的角色。通过对它的定界识别和语义分类,可以有效改善句子语义分析的质量,进行信息的准确抽取。

对于复合名词短语的研究,国外很早就有相关的语义关系体系的建设研究,关于短语的边界识别和语义分析,也相对于国内而言较为成熟,详见文献[2-9]。

国内以往对汉语基本名词短语的研究,主要是基于边界识别和自动释义,而针对短语内部构成成分之间的语义关系体系建设却相对较少,目前较完整的是刘鹏远等[10]针对名名复合形式短语语义知识库的构建,但该文只是单纯从语言学角度进行了语义分类,做了一些初步的统计分析,并没有将包含动词的复合名词短语纳入研究范围,且抽取得到的复合名词短语脱离语境,缺少句子级别的信息。目前也没有在句子中进行复合名词短语自动定界和语义关系分类的研究工作。

针对国内对于复合名词短语语义知识库构建相对薄弱的特点,我们参照北京大学《现代汉语语义词典》的语义类别标签并结合语料的实际情况建立一个语义关系体系,标注构建了一个包含句子信息的复合名词短语语义关系知识库,短语的构成成分包括名词和动词。基于知识库,对语义关系类型的分布情况和词性分布的特点做了统计分析。最后基于此知识库,我们构建了相应的数据集,采用BERT+Bi-LSTM+CRF模型做了定界识别和语义关系分类的实验。针对实验结果进行了分析总结,并讨论了未来可能的改进方向。

本文后续内容组织如下: 第1节对以往相关研究工作进行综述;第2节解释语义关系体系内容;第3节介绍知识库的基本情况,包括语料的来源、标注过程、统计分析等;第4节介绍实验模型的相关情况;最后一节对全文进行总结。

1 相关研究

1.1 复合名词短语语义关系体系研究和知识库建设现状

国内外关于复合名词短语语义关系的研究主要采用两种方法,一种是通过整理总结复合名词短语内部各成分之间的语义关系类来定义其语义关系,另一种是基于谓词语义类来确定复合名词短语内部成分的语义关系。

国外研究中,Downing[11]针对英语复合名词短语提出了12类语义关系;Levi[12-13]通过删除谓词,提出了12类名名复合名词短语成分之间的语义关系;Warren[14]认为复合名词短语的语义关系由4个层级组成,最顶层有6类粗粒度语义关系,各个粗粒度关系下又分为其他细粒度的关系类型;2010年SemEval[15]组织了一项评测“Classification of Sematic Relations between Nominals”,定义了7种语义关系。

Tratz和Hovy[16]建立了目前最大的英语复合名词短语语义关系知识库,含17 509条短语,12类语义关系,每一类关系下又分了小类,并做了关系标注。

汉语方面,马洪海[17]考察“名+名”组合,偏正结构分为7类语义关系,复指结构分为8类语义关系;魏雪等[18]针对汉语复合名词短语归纳出26种语义组合关系;Jinglei Zhao等[19]参考动词的语义角色为300个名词短语标注了4种粗粒度语义关系;刘鹏远等[10]为名名组合的复合名词短语定义了14种语义关系。

关于知识库的构建,目前有魏雪和袁毓林[18,20]以识别隐含谓词和自动释义为目的而建立的名名搭配知识库,但是该知识库目前尚未开源。刘鹏远等[10]对18 281条名名复合名词短语进行标注而形成了一个知识库,该知识库不仅标注了两个名词之间的语义关系,同时也标注了两个名词各自的语义类,但语义类组合和语义关系呈现多对多的情况,严重影响了数据分析。若要解决此问题,又需进一步进行更细的名词语义分类,这对后续工作增加了更大的难度和人力投入。

1.2 复合名词短语定界识别研究现状

早期国内对于名词性短语的边界识别研究经常与语法分析联系在一起,多使用基于统计的方法。赵军等[21]将表示baseNP内部句法组成结构模板,与体现上下文约束条件的N元模型结合起来,形成一个新的模型,识别结果准确性明显优于单纯基于词性标注的N元模型,但不足之处是对上下文句法特征不明显的baseNP识别精确率较低;孟迎等[22]从语料库中自动抽取基本名词短语的词性模板及其相应的上下文信息,并采用算法形成相应的决策树来识别汉语名词短语。但以上实验都着重于名词性短语句法结构的研究,对短语内部语义关系没有作深入的探讨,且研究对象基本未包含动词在内。

祝慧佳[23]采用三种方法对长度在2~10不等的复合名词短语进行边界识别,所研究的短语对象虽包含了动词,但只是针对动词采取词性细分类标注来提高识别准确率;孙玉祥[24]提出一种融合统计机器学习与后处理规则的识别策略,但后续的处理规则同样未涉及短语内部成分之间的语义特征。其他相关研究主要采用统计和规则两种方法进行边界识别,并没有将语义关系应用于边界识别的任务当中来。

2 语义关系体系

2.1 基本复合名词短语具体概念分析

在汉语词汇研究中,赵军等[21]从限定性定语出发对汉语基本名词短语(BNP)进行了形式化的定义:

Base NP → Base NP+Base NP

Base NP → Base NP +名词|名动词

Base NP →限定性定语+Base NP

Base NP →限定性定语+名词|名动词

限定性定语 → 形容词|区别词|动词|名词|处所词|西文字串|(数词+量词)

以往针对汉语名词性短语的研究工作大都基于此概念,另外还有孙玉祥[24]基于基本名词短语和最长名词短语提出的简单名词短语(SNP),SNP按其结构特点分为7类,内部不仅包含复杂的并列或嵌套结构,还包含动宾和专有名词性结构,粒度大于BNP,因此我们选择以赵军定义的基本名词短语为准。

由于汉语属于意合语言,名词短语在构成上较为灵活,构成成分通过简单的组合就可以构成短语序列,不需要助词等连接成分,如“医疗设备、国际经济政治”;且动词作为复合名词短语的构成成分时没有变形信息,它既可充当名词的功能作短语的核心词,如“工作接洽、多边会谈”,又可以动词的成分作短语的修饰语或修饰语的一部分,如“行军路线、安全管理办法”。本文的研究对象为由动词和名词参与构成的长度为2的基本复合名词短语,主要基于以下考虑: 首先,两个实词构成的基本复合名词短语在整个名词性短语中的占比较大,在语言使用中出现频率较高;其次,在句子语义依存分析中,依存分析的基本单位是分析标注两个词之间的语义关系,针对长度更大的短语分析也都是建立在两个词关系分类基础上的;最后形容词参与构成基本复合名词短语时其语义功能和语法组合类型都较为单一,语义分类和边界识别的任务相对来说简单。

关于“V+N”中“V”是否可以被划分为名动词,陆俭明[25]认为能直接作定语的动词只是动词的一个小类,叫名动词;邵敬敏[26]认为如果将直接修饰N的V认定是名动词,那么名动词的范围会无限扩大,需要限制其范围;尹世超[27]以动词是否能直接作定语,将动词分为可定动词和不可定动词。虽然语言学家各有论断,但是都认为动词处于修饰语位置上时其本身的性质有所变化,有必要划分出名动词的类别,所以,在本文以下表示中,我们将处于限定词位置上的动词标明为名动词,而将被修饰的动词还是标明为动词。

基于赵军等的基本名词短语定义,我们将本文所研究的基本复合名词短语形式化表示为:

基本复合名词短语 = 限定词+核心词

限定词 → 名词|名动词

核心词 → 名词|动词

其中可能出现的组合形式有: 名词+名词、名词+动词、名动词+名词三大类,其中名词包含有普通名词、专有名词(人名、地名、机构名、品牌名)、时间名词、处所名词等。

2.2 基本复合名词短语的语义关系类型

本文采用的语义关系标注规范参考北京大学的《现代汉语语义词典》中的语义分类标签,并结合本文具体任务做了一些调整,最后确定10种语义关系,即时间、处所、领域、名称、材料、并列、式样、用途、内容、一般修饰。

由于基本复合名词短语的构成成分有名词和动词,且二者排列次序不等,所以在此我们以“词1+词2”的形式表示短语。

(1) 时间

词1是时间名词,表明词2所处的时间状态或具有的时间属性。

例1他们的谈话,若能记录下来,一定是历史学家极感兴趣的中国近代城乡的变迁史料。

说明: 在近代形成的城乡

例2一个成年男子看着一个小孩在小溪里玩耍。

说明: 处于成年时段的男子

(2) 处所

词1是处所名词,表明词2所处的空间地理位置。

例1四名年轻女子围在厨房柜台前,面前摆着一盘布朗尼蛋糕。

说明: 摆放在厨房的柜台

例2古代亚历山大的事件预计会对港口活动产生重大影响。

说明: 在港口举办的活动

(3) 名称

词1是专有名词,包括人名、地名、国名、品牌名、机构名等,处于限定语的位置,交代了词2的国别、品牌、称谓等信息。

例1我感觉卡文迪许太太把它藏起来了。

例2一个穿着红色阿迪达斯运动衫,戴着红色太阳镜,戴着红色帽子的男人穿过小镇。

(4) 式样

词1表示词2的款式、颜色、形状、架构等外部特征或表面形态。

例1一个穿着条纹衬衫的男孩牵着一条小狗。

说明: 衬衫的表面图案呈条纹状

例2一个女人在小亭子上装饰着杯形蛋糕,旁边的人仔细地观察着这个技巧。

说明: 外观形状像杯子状的蛋糕

例3旁观者从露天看台观看时,一匹马在竞技场上抢走了它的骑手。

说明: 看台的建筑架构是露天无顶的

(5) 材料

词1是构成词2的原材料,词2一般表示人工制成品。

例1如果粗糙的纺织品不吸引人,那么你也可以找到漂亮的刺绣品,比如棉布、亚麻桌布和餐巾。

说明: 用亚麻编织成的桌布

例2一个穿牛仔夹克的男人走过一个华丽的石头拱门。

说明: 由石头堆砌成的拱形门

(6) 并列

词1和词2的语义信息平行,语法地位等同,组合构成并列。

例1一个金发碧眼的女人在俱乐部唱歌。

例2街坊邻居现在最常一起做的娱乐就是到俱乐部来运动。

(7) 用途

词1表示词2产生的目的,即作何用处。

例1印第安纳州正在研究文件汇编软件,伊利诺伊州正在研究音频视频会议与文件汇编的结合。

说明: 用来对文件进行汇编的软件

例2一个拿着购物袋的女人从地铁旁走过。

说明: 购物时使用的专用袋子

(8) 领域

词2通常是较为抽象或概括性较强的词语,词1表示词2领域范围中的一类或对词2的具体化解释说明。

例1一群足球运动员正在踢足球。

说明: 运动项目是踢足球的运动员

例2四名男性建筑工人站在一起,其中三名身穿黄色衬衫。

说明: 从事建筑行业的工人

(9) 内容

一般词2具有容载性,而词1表示词2的内容或词2所包含传达的信息。

例195%的当地新闻报道犯罪和灾难画面,5%是可爱的动物片段。

说明: 呈现内容是灾难场景的画面

例2她后来的表现打破了传统党外女性的参政经验,一改鲜明的受难者家属形象,展现了女性政治人物的主体性。

说明: 有关于参政的经验

(10) 一般修饰

这一语义关系类别包括以上语义关系类型之外的其他所有可能类型,但主要是词1表示词2的属性、类型或领属,但也包含其他类别。

例如:

① 属性:

例1畜牧业的过度发展还使大片草原变成沙漠。

说明: 大片的草原

例2审核员应使用他们的专业判断,来确定沟通的形式和内容。

说明: 专业的判断

② 类型:

例1两名男子玩电子游戏。

说明: 电子类的游戏

例2最近国际发布了全球三十八个国家的国中生自然科学和数学成绩报告。

说明: 数学科目的成绩

③ 领属:

例1不但如此,肉食吃多了,动物脂肪会使血管渐渐失去弹性,久而久之极易引起动脉硬化,从而诱发高血压和心脏病。

说明: 动物体内的脂肪

例2每个人用左手按住饭盆或菜盆的边儿,用右手手指抓自己面前的饭和菜,放入口中。

说明: 右手包括手指

④ 其他:

例1世平觉得单身女子需要这样的设备。

说明: 处于单身状态的女子

例2与其称之为乐团,不如将她们看做美少女偶像团体。

说明: 走偶像路线的团体组合

3 知识库建设

基于2.2节中定义的语义关系体系,我们建立了一个语义关系知识库。不同于现有知识库,我们的知识库同时提供句子和句子中复合名词短语的边界以及语义关系信息。构建知识库需要先收集大量的多领域句子,再经过数据清洗和预筛选,得到待标注数据,然后借助标注平台,由标注员进行标注。标注员首先需要标识出基本复合名词短语在句子中的位置,然后对其做语义关系分类。与此同时我们借助标注平台对标注的质量和一致性进行监督。整个知识库的构建过程可以分为: (1)生语料收集和预筛选;(2)组织标注;(3)语料统计分析。

3.1 生语料收集和预筛选

为了使最后的知识库在有限数据量的情况下尽可能包含各种自然语言现象,同时体现语义关系的真实占比,我们收集了多个不同领域的无标注数据,分别来自新闻、论坛、现代小说、现代散文、剧本、中小学语文课本等6个不同领域。基于标点符号,对所有文本进行句子切分,筛除长度过长(超过100个字)和过短(不足10个字)的句子,最后得到约10万句生语料。

由于生语料的规模比较大,为了提高知识库建设的速度,减轻标注员的工作量,我们需要对生语料做预筛选,尽可能排除不包含复合名词短语的语料。根据本文定义的基本复合名词短语,限定词和核心词在语义依存分析结果中应当存在依存弧,又因为限定词和核心词主要为名词和动词,因此我们可以基于词性标签和依存弧对文本做进一步筛选过滤,最终我们筛选得到了约4.5万句待标注的句子。

3.2 组织标注

复合名词短语知识库的标注过程分为两个子任务: 一是在句中确定有无基本复合名词短语,如果有则需要标识出基本复合名词短语的边界,如果没有则标“无NP”;二是对标识出的基本复合名词短语做语义关系分类。

为了方便标注过程,我们开发了一个Web标注工具,同时组织5名语言学专业的硕士研究生进行标注工作。在正式标注前,对标注员进行了为期两天的培训,每个标注员试标500句,然后根据标注结果再进行统一修正。

标注过程如图1所示。首先,将每一句待标注文本分别发送给A、B、C 3位标注员,3位标注员独立完成所有标注后系统会自动计算结果的一致性。如果一致性大于或等于85%,则认为标注结果可靠,此时会随机抽取一个人的标注结果作为最终标注结果,保存进知识库。如果一致性小于85%,系统会将该文本自动发送给D、E两位标注员,同时舍弃A、B、C的标注结果,由D、E做第二轮标注,然后系统计算第二轮的标注一致性,如果一致性大于90%,则认为标注可靠,此时会随机抽取一个人的标注结果作为最终结果,存入知识库。如果第二轮的标注一致性小于90%,则舍弃该文本。

在整个标注过程中,标注平台会自动为标注员动态分配标注身份,标注员不知道自己处在第几轮标注中,也无法看到其他标注员的标注结果,这样就保证标注过程互不干扰,同时确保了标注一致性的可信度。

最终,我们得到了27 007条有效标注句子,整体复合名词边界一致性为96%,复合名词语义关系一致性为87%。

3.3 语料统计分析

标注完成之后,我们对知识库进行了基本的统计分析。语料来源的分布情况如图2所示。

图2 基本复合名词短语语料来源分布

图3 基本复合名词短语语义关系分布

语义关系分布如图3所示,排名靠前的语义关系分别有: 一般修饰、内容、名称。一方面是因为我们的语料一半以上来源于新闻领域,新闻用语较为正式规范,构成名词短语的两个成分呈领属关系的可能性较大,而领属关系包含在我们所定义的一般修饰关系当中,另一方面是因为一般修饰关系下关系类型较为错综复杂,构成成分比较多,因此构成复合名词的两个词之间呈一般修饰关系较为普遍;其次占比较多的是“内容”关系类型,这说明名词短语的第二个词表抽象概括性的居多,而第一个词起缩小第二个词范围的作用,或代表第二个词所指事物的领域;名词的属性就是具有指称性,所有表名称义的词基本都是名词,包括人名、地名、品牌名、行政单位名称等,所以复合名词短语的语义关系中表名称语义关系的占比自然也是排在前位的。

我们对所有基本复合名词短语的词性组合分布进行了统计,如表1所示,数据结果和语义关系的分布占比结果具有一致性,两个普通名词进行组合的数量最多,大部分情况下构成了“一般修饰”关系;名称名词和基本名词组合构成“名称”语义关系,排第三位。

表1 基本复合名词短语的词性组合统计

由上可以初步推断、“内容”语义关系的基本复合名词短语的构成成分多包含动词,因此我们进一步统计了名动词和动词在各个语义关系中的出现频次,如图4和图5所示。动词在一般修饰关系中出现最多,说明名词位于动词之前主要就是起修饰限定的作用,比如“国民储蓄、常规表演、商务旅行”等,语法上这些组合中的第二个词都是动词,语义上属于一般修饰关系中的被修饰成分;排第二位是“领域”,是因为动词“比赛”在领域关系标签中出现次数较多;动词在“内容”语义关系中的出现频次也就较多,说明对于部分名词性“N+V”短语,N是V的受事、对象。因此,当名词位于动词之前构成一个名词性短语时,名词对动词的语义特征主要有修饰限定、领域分类、受事对象。

名动词的动作性较弱,具有名词的某些特点,一般叙述的是某一类事物,可以被解释为“关于V的N”,因此基本表示的是关于名词的某些内容,其次还有部分名动词表示事物稳固的功能属性,例如“实验设备、分析方法”等,因此在用途语义关系中也有出现。

图4 动词在语义关系中的分布情况

图5 名动词在语义关系中的分布情况

4 自动定界和语义分类研究

为了进一步研究该知识库对自然语言处理任务的帮助,我们初步尝试了基于知识库对基本复合名词短语进行自动定界和自动语义分类的任务。由于该知识库中不同语义关系的数据量差异较大,同时复合名词的语义分类需要较多的语言学知识,因此自动定界和语义分类任务具有一定的挑战性。

4.1 任务定义与数据集划分

我们将基本复合名词短语的定界和语义分类建模为一个序列标注任务[28]。对于输入句子X=x1,x2,x3,…,xn,模型需要为序列中的每个词(或者字)预测出对应的标签Y=y1,y2,y3,…,yn,其中yi∈{B,I,O}。BI标签同时带有语义关系分类标签。这样,我们就将复合名词定界与语义关系分类组合为一个序列标注任务。同时,我们将标注后的知识库导出为序列标注格式文件,采用BIO标注体系。然后随机打乱顺序,划分为训练集、验证集和测试集。整个数据集的统计结果如表2所示。

表2 数据集基本信息

4.2 基线模型

我们选择基于上下文语境词向量BERT+双向LSTM+CRF[29]的模型作为实验的强基线模型,如图6所示,整个模型包含三个部分: BERT编码层、双向LSTM表示层、CRF解码层。

图6 基线模型网络示意图

我们使用Google开源的中文字符级预训练BERT模型,使其首先在超大规模的语料上进行预训练,得到良好的语义表示能力之后再将其接入到下游任务中充当表示层或者编码层。不同于传统的Word2Vec或者GloVe词向量模型,BERT输出的词(字)向量考虑了句子的语境,能够更好地表示词(字)的多义现象和语境信息。

之后我们连接一层双向LSTM作为深度表示层,通过复合名词定界和语义分类任务的训练,表示层能够从BERT的丰富语义中有效抽取对我们任务真正有效的信息,同时舍弃不必要的干扰信息。最后我们接入一层CRF解码层,CRF能够建模条件概率P(y|x),在解码时,CRF利用上下文信息作为特征,同时执行全局归一化,能够更好地预测标签序列。

4.3 实验结果与分析

从表3可以看出,我们的模型整体识别能力仍有很大提升空间,大部分类别的F1得分都较低,最高值为“式样”语义关系,最低值为“并列”语义关系。从召回率和精准率上看,大部分语义关系的召回率都明显低于精准率,说明模型在识别正例的时候过于严格。根据数据集的特点,我们认为现有模型的问题主要有:

(1) 在一层CRF中同时解码复合名词的边界和语义关系,难度较大;

(2) 对于不同语义关系的区分,缺少背景知识,由模型直接做10分类难度很大;

(3) 数据集分布不平衡,部分语义关系的数据较少,模型难以学习到差别。

表3 实验结果

基于强基线模型的结果和错误分析,我们认为,复合名词短语的定界和语义分类是一项具有一定挑战性的任务,未来的模型尝试可以考虑如下几个方向:

(1) 拆分定界任务和语义关系识别任务,采用多任务模型联合学习;

(2) 引入语言学背景知识,提升模型的语义分类能力;

(3) 基于伪数据增强的方式,缓解数据集的不平衡问题;

(4) 基于few-shot学习的方式,缓解少样本下的学习困难问题。

5 结语

本文从来自多个领域的句子中标识包含动词的基本复合名词短语,基于北京大学《现代汉语语义词典》的语义类并作修改建立了基本复合名词短语的语义关系体系,对标识出的短语进行语义关系标注,构建一个语义知识库。基于该知识库做了词性和语义类型的统计分析,并用BERT和双向LSTM+CRF的强基线模型对基本复合名词短语进行定界和语义分类,希望为以后复合名词短语语义关系的研究提供语言资源方面的支持,为今后对复合名词短语的定界识别和自动语义分类提供帮助。

语义关系体系中,一般修饰的包含成分较为复杂多样,导致不同语义关系类的数据差异性明显,直接影响了后期的模型试验结果,所以其下位关系还需进一步探讨研究。此外,动词作为复合名词短语的构成成分,其自身的语义特征对短语内部成分的语义关系具有非常重要的意义,我们还需尽量多地收集包含动词的名词性短语,逐步完善各种组合形式的复合名词短语研究。下一步工作的重点是对一般修饰类的语义关系进行进一步的梳理切分,逐步完善语义关系类别,对语料来源再扩大范围,尽量使知识库中的复合名词短语更具代表性。

猜你喜欢
知识库语料短语
汉语近义词辨析知识库构建研究
基于归一化点向互信息的低资源平行语料过滤方法*
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
濒危语言与汉语平行语料库动态构建技术研究
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
《健民短语》一则
卫星状态智能诊断知识库设计方法
国内外语用学实证研究比较:语料类型与收集方法
位置与方向测试题