中文短文本实体识别和链接探讨

2021-01-04 01:47
科学与信息化 2021年1期
关键词:知识库命名短文

苏州大学计算机科学与技术学院 江苏 苏州 215000

引言

自进入信息时代以来,互联网技术蓬勃发展,需要处理的文本信息逐渐增多,为了进一步强化对文本内容的理解,需要相关研究人员结合命名实体进行深入探索。而所谓命名实体,主要指以人名、地名为主的名称,或以时间、日期为主的表达式等一系列具有明确语义信息文本、字词或短语。通过对文本中的实体进行识别,能够为人们进一步了解文本奠定基础,为机器更加深入的处理文本实体和含义提供保障[1]。

1 中文命名实体识别的相关介绍

中文命名实体识别是研究和处理自然语言的关键方向,也是分词系统、实体连接系统以及文本摘要系统中不可或缺的组成部分。近年来,随着网络进程的不断深入,网络文本与日俱增,在一定程度上增加了文本信息处理的工作量,使得人们对文本自动化处理产生了迫切需求。

以上提到,命名实体是指具有明确语义的专有名词,其中包括称呼、表达式以及数量词语等。在研究特定的命名实体过程中,需要结合实际场景确定其具体含义。

1.1 人名识别

人名作为明明实体中的重要组成之一,是一个较为特殊的类别,相对于其他专有名词而言,在识别方面具有一定难度。中文人名在识别中存在的难点具体可以体现在以下几个方面:第一,外国人名在识别过程中可以将首字母大写作为标志,而中文人名识别则没有。第二,人名具有不可列举特征。当前,只有极少部分的中文人名或昵称可以在字典中找到,而大部分人名都需要专门识别。第三,中文姓名具有多样化特征,格式无法统一,并且其中涉及大量音译外国人名,在一定程度上增加了识别难度。第四,中文人名具有结构复杂特征,其中包括人名本身是一个词语词或其中一部分是一个词语,在识别过程中容易产生歧义。例如:黎明、汪洋等本身成词的人名,或王国维等部分成词的人名。

1.2 组织机构识别

组织机构名称也是出现频率较为频繁,并且对文本含义起到重要影响的专有名词之一。在中文短文本实体识别中,组织机构名称识别难度较大。具体来说,由于组织机构名称长短不一,并且存在嵌套或者缩写等情况。因此,在组织名称较长的文本识别过程中,可以通过先局部、在合并的方式进行识别,而后结合中文短文本中的前后关系,提取组织机构名称的识别方法。

1.3 地名识别

地名识别相对于人名识别和组织机构识别而言相对简单。地名一般具有显著特征,并且绝大多数地名都被收录到字典中,并且与其他专有名词相比,新增地名的可能性相对较低。

2 中文命名实体连接的相关介绍

在研究命名实体识别过程中,虽然通过标记专有名词,能够进一步解专有名词在文本中的类型及相关位置,但是无法为人们深入掌握名词提供依据,对于中文短文本识别而言,理解和解释专有名词,才是识别命名实体的重要内容。

通过实体连接,可以用某个百科全书或知识库文章中的条目,对专有名词进行标记。由此可见,实体连接具备简洁性和抽象性特征,通过给定一组查询名词或者相关背景,能够使人们从已有知识库中找到与文本识别向匹配的实体项,从而对专有名词做出标记[2]。如果知识库中没有与文本相对应的实体向,则返回NIL。在此过程中需要注意,实体连接虽然是一种较为便捷的专有名词解释方法,但是更加适用于被复杂任务的自然语言处理系统。

另外,并非百科全书就一定具有全面性,其中也并非收录所有实体。例如:在谋篇中文短文本中出现“李白”这一人名后,大多数人都会自然而然联想到唐代诗人李白,在知识库中虽然有唐代诗人李白的相关条目,但是文本中所指的“李白”,也可能知识普通人群中的一员,此时,需要将这一专有名词标记为NIL,表示知识库中没有对这一实体进行描述的内容。

3 中文短文本实体识别和链接之间的关联性

想要进一步解决实体识别与实体链接问题,研究人员广泛应用了管道体系。具体来说,研究人员利用一个命名实体识别系统,对专用名词的具体位置和类型进行标示。而后用实体链接系统深入研究专有名词的位置和类型,从而对专用名词在中文短文本中的意义进行揭示。与其他管道体系弊端相同,这种方式也存在一定的不足之处,即在实体识别系统中存在的错误,会持续传递到实体链接系统中[3]。具体体现在以下三点:第一,一旦实体识别存在错误,并且传递到练习系统,则导致错误无法恢复和弥补。第二,中文短文本实体识别,无法利用实体连接系统中使用的相关信息。第三,实体识别系统与实体链接系统产生的输出不一致。也就是说,实体链接系统标记的专有名词与实体识别系统给出的类别标记不一致。

曾有专业研究人员明确提出,在中文短文本处理过程中,将系统的F1精度设置到0.64~0.67之间。如果实体识别结果正确,此时实体连接系统精度也相对较高。本文在此基础上提出一种新型模型,用于命名实体识别处理和链接任务中[4]。另外,如果中文短文本具有短小、缺乏完整性、句法结构异常等缺陷,首先需要考虑知识库中的信息,并对实体进行深入分析。

4 结束语

综上所述,自然语言处理具有一定困难性和挑战性,其主要原因在于自然语言表达具有多言行特点。简单来说就是同一实体存在多种表达方式,并且多种表达方式的意思又具有一致性。因此,本文结合中文短文本实体识别和实体连接的相关介绍进行分析,通过对实体识别的位置和类型进行标示,利用实体连接在知识库中找到相应条目,从而确定文本实体的含义,为人和机器进一步掌握词义奠定基础。

猜你喜欢
知识库命名短文
汉语近义词辨析知识库构建研究
命名——助力有机化学的学习
KEYS
Keys
有一种男人以“暖”命名
为一条河命名——在白河源
机构知识库建设的动力研究
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
短文改错
短文改错