基于注意力机制和深度学习模型的外来海洋生物命名实体识别

2021-06-21 09:03贺琳张雨巴韩飞
大连海洋大学学报 2021年3期
关键词:海洋生物特征向量命名

贺琳,张雨,巴韩飞

(大连海事大学 航运经济与管理学院,辽宁 大连 116026)

外来海洋生物入侵是全球生物多样性丧失的主要原因之一。中国海岸线绵长,整个海域跨越温带、亚热带和热带3个气候带,生态系统类型较多,这些自然特征使中国更易受到外来海洋生物入侵的危害[1]。目前,针对外来海洋生物数据还未有一个完善的数据库可供使用和研究,因此,无法对外来海洋生物的来源地、现存地、生存环境和物种特性等进行深入研究分析。互联网中存在大量的外来海洋生物的文本信息,但其较为分散且大多都是非结构化的,而知识图谱作为显示科学知识发展进程与结构关系的可视化工具可以较好地解决这一问题。面对目前已有的分散杂乱的外来海洋生物文本信息,通过实体识别、关系识别、实体对齐等知识图谱构建流程,整合互联网上的文本信息,构建外来海洋生物知识图谱并将其可视化,有利于外来海洋生物信息的检索和获取;通过对知识图谱的深入分析,还可以充分发掘外来海洋生物之间的关联信息,有利于海关相关管理部门及研究机构对外来海洋生物进行统一的风险识别及监督管理。命名实体识别属于知识图谱的构建流程中最关键的部分,外来海洋生物命名实体识别的质量直接决定了知识图谱的优劣。因此,对互联网上的外来海洋生物信息进行命名实体识别研究具有重要的意义。

命名实体识别研究目前主要集中在两个方面,即通用领域文本识别和特定领域文本识别。通用领域文本识别的方法主要包括基于规则的实体识别方法、基于条件随机场的识别方法和基于深度学习的方法。何炎祥等[2]提出使用条件随机场(conditional random field,CRF)和规则相结合的方法进行地理命名实体识别,最终的地名实体识别结果的F1值达到了91.61%。王世昆等[3]从命名实体识别的方法出发,对比了CRF与支持向量机、最大熵模型等常见的命名实体识别方法,指出了CRF在该任务上的有效性。随着深度学习技术的发展,该技术已经广泛应用于命名实体识别中,Chen等[4]提出使用循环神经网络(recurrent neural network,RNN)作为文本建模工具,首次将双向长短时记忆神经网络模型(bidirectional long short-term memory neural network,BiLSTM)结合CRF网络模型用于命名实体识别任务中。面对海量互联网文本数据,长短时记忆神经网络的实体识别效果较传统方法有了较大提升,但是其网络模型结构复杂,存在运行时间较长等问题。基于此,相关学者提出门控神经网络概念并应用于文本识别中,李一斌等[5]提出使用双向门控循环单元网络与条件随机场算法相结合进行中文包装产品的命名实体识别,识别结果的F1值较BiLSTM+CRF网络模型识别结果的F1值提高了6%。通用领域实体相对简单,且大多有可以参考的领域数据库或已标注文本数据,因此,往往不需要对文本特征进行深层次挖掘就能取得较好的效果,目前,通用领域命名实体识别的主流识别方法为门控循环神经单元(gated recurrent unit,GRU)网络和条件随机场相结合进行实体的识别,实体识别的效果较好。相比于通用领域文本实体识别,特定领域具有实体结构更为复杂且实体识别中可供使用的标注语料和资源较少等特点,因此,仅依靠构造词向量进行特定领域实体识别往往效果不佳,需要充分挖掘文本中的特征才能有效提高实体抽取的准确率。仇瑜等[6]根据财经领域的实体特征,使用一种基于字、词特征相结合的深度神经网络模型进行实体识别,最终证明较传统方法命名实体识别效果有显著提升。马建红等[7]面向新能源汽车专利领域文本提出了一种基于注意力(attention)机制的双向长短时记忆神经网络(BiLSTM)与CRF相结合的领域术语抽取网络模型,利用BiLSTM网络模型,可以解决目前机器学习中过度依赖领域知识及人工定义特征问题,实现了端到端的命名实体识别模式。顾溢[8]在进行复杂中文命名实体识别的过程中,使用改进的中文字符级特征表示替代基础Word2vec训练出的字向量,网络模型的识别效果有显著提升。通过添加人工特征的方法能在一定程度上提高特定领域命名实体识别的准确率,但是网络模型实现比较复杂,消耗成本较多,而大多数难以达到满意的效果,因此,目前并没有一种通用的适合于特定领域的命名实体识别网络模型。

外来海洋生物领域命名实体识别属于特定领域的命名实体识别问题,具有如下特点:

1) 实体名称长且复杂。外来海洋生物名称有多个独立词组合而成,而且生僻字词较多。例如,“细鳞大麻哈鱼”由“细”“鳞”“大”“马哈鱼”多个字词组合形成,在实体识别的过程中如果仅仅使用构造字向量作为门控神经网络的输入,较难准确识别出其中的实体,甚至出现错误识别。

2) 实体名称相互嵌套。即一个实体中包含另外一个实体的现象,如外来海洋生物文本中的“南非毛皮海狮 ”这一单个生物实体就包含“南非”和“毛皮海狮”两个实体,所以在实体识别过程中极易误检。

外来海洋生物文本数据实体复杂且实体识别过程中无相关的语料库可供参考,因此,在实体识别过程中网络模型需要强化文本的特征提取。双向门控循环单元网络(bidirectional gated cyclic neural unit network,BiGRU)能够对文本句子层级的信息进行学习和表示,能够较好地考虑文本的上下文信息,但是无法解决外来海洋生物文本中出现的长距离依赖问题,其对细粒度的字词特征抽取也较差[9]。使用注意力机制在提取特征时可以强化与外来海洋生物实体相关的语义特征权重,进而提升特征提取的效果。卷积神经网络能够充分利用多层感知器的结构,具备较好的学习复杂、高维和非线性映射关系的能力,因此,逐渐被应用到自然语言处理领域。Denil等[10]提出把CNN应用于自然语言处理,并设计了一个动态卷积神经网络模型,以处理不同长度的文本。在命名实体识别过程中,卷积神经网络能够较好地提取出文本中较细粒度的字词的前后缀特征,对文本的字词层级的信息进行学习和表示。为此,本研究中,提出了基于CNN-BiGRU-CRF网络模型,用于外来海洋生物命名实体识别,旨在为提高外来海洋生物领域命名实体识别的效果。

1 CNN-BiGRU-CRF网络模型构建

针对外来海洋生物领域实体文本结构的数据特点,本研究中提出融合多特征向量的CNN-BiGRU-CRF网络模型,该网络模型首先将外来海洋生物文本数据进行分词、人工标注等处理工作,然后将词向量、词性、词长等特征向量与卷积神经网络获取的字的前后缀特征向量进行拼接,将组合向量输入到BiGRU层提取文本中的上下文特征,再将BiGRU层获取的特征向量输入注意力机制层分配不同的注意力权重,最终通过条件随机场解码,获取外来海洋生物的预测标签序列。本文中提出的命名实体识别网络模型流程如图1所示,输入层的文本数据如“巨藻生长于美国”,经数据预处理、CNN层后获得该文本联合特征向量,特征向量经过BiGRU层获取文本的上下文特征,然后通过注意力机制层进行注意力权重的分配,最终通过CRF层解码获得该文本的预测标签序列。

图1 CNN-BiGRU-CRF网络模型实体识别流程

1.1 卷积神经网络

卷积神经网络(CNN)主要由卷积层、池化层和激活层等组成,通过对网络模型的输入进行加工、变化,最终在连接层实现输入与输出间的映射,卷积神经网络用于识别较细粒度的特征,目前主要应用于图像识别领域[11]。卷积神经网络的结构如图1所示,其主要过程包括字向量生成、卷积、池化和字符特征向量获取。在数据的预处理中使用Word2vec将文本中的每个字都转化为字向量,然后通过卷积层中的滤波器对句子进行卷积操作,提取句子的局部特征,由于卷积核存在权值共享的特点,所以CNN一般会使用多核卷积,每个卷积核都能学习到不同的特征,以此完善特征提取效果。对卷积操作得到的局部特征采用最大池化的方法提取值最大的特征以代替整个局部特征,通过池化操作可以大幅降低特征向量的大小。最终将池化得到的所有特征在全连接层进行组合输出字符特征向量。输出的字符特征向量通过输入softmax分类器进行分类,卷积神经网络通过分类的标签使用反向传播算法进行参数的优化。目前,在自然语言处理领域,卷积神经网络已有较多的应用。

1.2 门控循环单元网络

门控循环单元(GRU)是一种常用的门控循环神经网络,能够更好地捕捉序列中时间步距离较大的依赖关系,其简化了长短时记忆神经网络(LSTM)的结构,使运算加快,同时也能实现长期记忆[12]。门控循环单元网络通过使用重置门和更新门两个门结构控制记忆存储器,GRU的结构如图2所示,其中,zt为更新门,用来控制当前状态中前序记忆与候选记忆所占的比例,而rt为重置门,用以控制当前内容是否被记忆。GRU中的门控单元能够通过偏置和相关参数来实时灵活的调整激活函数的输入,从而控制门的开启和关闭,保存和更新有用信息,因此,门控神经网络与一般神经网络相比,收敛速度快且不易发生梯度消失的情况,使得门控神经网络具有高效的性能。

图2 门控循环单元结构

GRU网络前向传播权重参数更新公式为

从图1数据可得出,48.84%的学生是进校学习一段时间后才发现自己不适合这个专业想转专业,这从侧面也反映出了学生对专业本身不了解,因此高校需要做的是如何在学生填报志愿前让学生真正了解这个专业。竟然有半数的学生是在收到录取通知书以及刚进校时产生了转专业的念头,出乎意料,但仔细研究可能还是专业的问题,有可能是被调剂的专业,有可能是看到的专业与实际的差距等。

zt=σ(wxzxt+whzht-1+bz),

(1)

rt=σ(wxrxt+whrht-1+br),

(2)

(3)

(4)

在句子中命名实体识别过程中,实体的上下文对预测标签都很重要,如果能够获取文本中过去和将来的上下文信息,对命名实体识别任务很有帮助。然而GRU的隐藏状态ht仅从过去获取信息,不能获取未来的信息,因此,命名实体识别采用双向门控循环单元网络(BiGRU)进行。在双向门控循环单元网络中,输入会同时提供给两个方向相反的 GRU,而输出则由这两个单向 GRU 共同决定。使用双向的门控神经网络不仅能通过正向的GRU考虑文本的前序信息,还可通过反向的GRU同时提取到文本中后续信息的特征,有效提高命名实体识别的效果。

1.3 注意力机制

注意力机制(attention mechanism)是一种受人类视觉神经系统启发的信息处理机制。注意力最早出现在计算机视觉领域,其主要原理是将有限的注意力选择性地分配给更重要的信息,近年来,注意力机制已经广泛应用于命名实体识别、关系抽取、文本分类等自然语言处理任务中[13]。注意力机制在实体识别中作为组件,主要用于文本关键信息的筛选,从输入信息中选取相关的信息。通过使用注意力机制可以动态地生成不同连接的权重,并将输出序列进行加权计算后得到标注分数值,从而强化与外来海洋生物实体有关的语义特征权重,获取文本的整体特征。

注意力机制的计算步骤如下[14]:定义{x1,x2,…,xM}为BiGRU网络输入的联合特征向量序列,S={s1,s2,…,sw}为BiGRU神经网络输出的联合向量序列,αmw为归一化的权重,βmj为注意力贡献矩阵,即注意力机制给特征向量赋予的权重,且

(5)

(6)

其中:c、w、u为权重矩阵;vm-1为上一时刻注意力机制的状态。

注意力机制最后的输出状态为

(7)

1.4 条件随机场

条件随机场(CRF)是在一组输入随机变量给定的条件下输出另外一组随机变量的条件概率分布网络模型[15]。条件随机场是一种判别式的概率无向图网络模型,常用在自然语言处理和图像处理领域,在自然语言处理中,CRF是用于标注和划分序列数据的概率化网络模型,相对序列就是给定观测序列X和输出序列Y,通过定义条件概率P(Y|X)来描述网络模型。目前,常见的条件随机场网络模型是指定义在线性链上的特殊的条件随机场,被称为线性链条件随机场[16]。

2 外来海洋生物领域命名实体识别试验

2.1 试验数据、字词特征和评价指标

2.1.1 数据预处理 本研究中,将从百度百科、知网、海洋生物学网站等爬取的1 500条外来海洋生物相关文本数据作为试验的数据集,获取的数据集包含字数共计12万字符。首先,对爬取的数据使用正则表达式进行格式转换和数据清洗工作,去除文本中包含的空格、表情符号等无关的内容,将来源不同的数据转化为统一的格式。然后收集海洋生物及地域海域实体信息,构建外来海洋生物名称实体和地名实体识别分词语料库,该语料库的构建可使得实体识别的分词、词性标注等过程更加准确。

2.1.2 特征提取 选取外来海洋生物文本的词特征、词性特征、词长、词的前后缀特征、上下文特征作为外来海洋生物文本的特征进行实体识别。

1) 词特征。词特征是自然语言处理领域最基础的特征,它是指词本身具有的特征,词特征的表达形式是词向量。本研究中词向量使用Word2vec软件进行训练,词向量使用矩阵形式表示。

2) 词性特征。中文汉字的词性包括动词、名词、介词、形容词、副词、量词、代词等12类[17],如外来海洋生物文本中关于海洋生物实体和地名实体的相关文本中经常会出现“带来”、“引进”等动词,根据词性特征可有效辅助外来海洋生物文本中海洋生物名称实体和地名实体的识别。本研究中的词性选择使用jieba分词后的词性,词性特征维度设置为12维,如名词的词性特征向量表示为[1,0,0,0,0,0,0,0,0,0,0,0]。

3) 词的长度。外来海洋生物实体名称长度较长,如“眼点拟微绿藻”就是由6个字组成,通过将词长作为特征可较好区分外来海洋生物实体。本研究中将词长作为特征进行实体识别,词长特征维度设置为8维,如“眼点拟微绿藻”的词长向量表示为[0,0,0,0,0,1,0,0]。

4) 词的前后缀特征。在英文实体识别领域,应用词的前后缀特征进行实体识别的案例较多,且识别效果较好,但在中文命名实体识别中应用较少,对特殊领域的实体而言,其实体的前后缀往往具有较明显的特征,因此,特殊领域实体可以通过构建实体前后缀特征增强识别效果。外来海洋生物领域词的前后缀特征主要指外来海洋生物实体和地名实体的前后缀特征,如生物实体的后缀往往包含藻、鲍、虾等后缀词,地名实体的后缀往往具有海、洲等后缀词。CNN 对于每个词将使用一个卷积层和一个池化层完成特征的抽取。根据 CNN 窗口的大小,每个词会有不同个数的填充向量[18]。此处,CNN 的超参数包括窗口尺寸的大小和输出向量的大小。本研究中使用随机初始化值,设置维度为30。

5) 上下文特征。上下文特征是指文本的语境信息表示,本研究中使用BiGRU网络进行文本中上下文特征的抽取,使用BiGRU能对句子中此词之前及之后的信息进行特征的抽取。

在正式训练网络模型之前,首先对外来海洋生物文本数据进行实体类型标注,数据集采用BIO格式规范标注,得到的部分训练结果如表1所示,其中B表示实体词首,I表示实体词中或词尾,O表示外来海洋生物实体名、时间名、地名以外的其他词。

表1 实体识别试验数据集标注格式(部分)

对标注好的数据进行实体个数统计,结果如表2所示,本研究中共标注实体数目3 528个,其中,外来海洋生物名称实体1 562个,时间实体个数879个,地名实体个数为1 087个。

表2 外来海洋生物文本标注实体数量统计

2.1.3 网络模型评估指标及参数设置

1) 网络模型的评估指标。网络模型的评估指标使用识别结果的准确率、召回率和F1值进行评估,各指标的计算公式[19]为

准确率(P)=识别结果中正确的实体数量/识别出的总实体数量×100%,

(8)

召回率(R)=识别结果中正确的实体数量/实际总的实体数量×100%,

(9)

F1=2×P×R/(P+R)×100%。

(10)

2) 网络模型的参数设置。对于已经预处理好的数据集,将70%的数据集作为训练集,30%的数据集作为测试集,将处理好的数据导入 Tensorflow 库。为了寻找网络模型的最优参数设置,首先,通过固定一个参数而不断修改其他参数的方法对数据集进行参数最优搜索。通过对训练集上的数据进行参数训练,从而得到网络模型的最优参数,即词向量维度为100,词长特征向量维度为8,词性特征向量维度为12,每层GPU维度为150,Drop Out值为0.5,一次网络读入的数据大小(Batch-size)为30,学习率为0.001,优化算法使用Adam算法。

2.2 网络模型运行结果及讨论

使用训练集训练好的参数作为验证集数据的网络模型参数,本研究中主要进行了以下两个试验:1) 对比CRF、BiLSTM -CRF、BiGRU-CRF等传统命名实体识别方法与本研究中提出的CNN-BiGRU-Attention-CRF网络模型在外来海洋生物文本数据上的识别结果; 2) 通过引入词向量、词性特征等特征模板与CNN处理过的字符向量结合,作为CNN-BiGRU-Attention-CRF网络模型的输入向量模型,对不同网络模型下的训练结果进行评估。各个网络模型实体识别的准确率、召回率、F1值结果如表3、表4和表5所示。

本研究中提出的使用CNN-BiGRU-Attention-CRF网络模型进行外来海洋生物命名实体识别的平均F1值达到了81.67%,识别结果较BiGRU-CRF网络模型平均F1值提升了4.25%,准确率和召回率均具有较大提升(表3~表5),这证明在命名实体识别过程中引入CNN和注意力机制能够较好地提取字符前后缀特征,解决文本的长距离依赖问题,从而提升了外来海洋生物命名实体识别的效果。

表3 各个网络模型对外来海洋生物命名实体识别结果的准确率(P)

表4 各个网络模型对外来海洋生物命名实体识别结果的召回率(R)

表5 各个网络模型对外来海洋生物命名实体识别结果的F1值

各个网络模型的命名实体识别结果中,外来海洋生物名称实体识别的准确率相比时间实体和地名实体较低(表3),这是因为外来海洋生物名称长度较长且结构复杂,且同一生物往往具有不同的表述名称,在进行实体识别时较为复杂,因此,外来海洋生物名称实体相比时间和地点实体识别结果的准确率和召回率偏低。

将文本中的词长和词性特征等特征向量加入CNN-BiGRU-Attention-CRF网络模型中,多特征组合下的CNN-BiGRU-Attention-CRF网络模型对各类实体识别结果中平均F1值达到了90.05%,相比单一CNN-BiGRU-Attention-CRF网络模型的识别结果提高了8.38%,这表明通过引入人工构造特征模板可以有效提升实体识别的效果,尤其是对于外来海洋生物实体名称这一较为复杂的实体而言,通过构造词长、词性等特征可以较好地解决外来海洋生物实体存在的复杂嵌套等问题,提升实体识别的准确率。

3 结论

1)面对外来海洋生物领域信息分散且透明度较低,外来海洋生物领域实体构造较长且存在嵌套等问题,本研究中提出使用多特征组合下的CNN-BiGRU-Attention-CRF网络模型进行外来海洋生物文本的命名实体识别,网络模型将文本中的词性特征、词长特征等特征向量与卷积神经网络提取出的字的前后缀特征向量组合作为门控神经网络的输入,可以充分提取文本的全部特征,试验证明在外来海洋生物数据集上的识别效果较好。

2)本研究中提出的融合多特征向量的CNN-BiGRU-Attention-CRF网络模型构建较为烦琐复杂,且需要人工构造特征模板,因此,在未来研究中可以就特定领域命名实体识别过程如何构建通用的特征模板,以及如何减少构建特征向量时的工作量进行深入研究。

3)本研究中提出的外来海洋生物命名实体识别网络模型可为其他特定领域的命名实体识别提供借鉴和参考,网络模型识别出的实体信息可以为外来海洋生物的分析研究提供有效的数据支撑。

猜你喜欢
海洋生物特征向量命名
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
神奇的海洋生物
海洋生物动起来
克罗内克积的特征向量
命名——助力有机化学的学习
什么样的海洋生物会发光
海洋生物
一类特殊矩阵特征向量的求法
有一种男人以“暖”命名
为一条河命名——在白河源