融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别

2021-09-02 12:55刘巨升杨惠宁孙哲涛张思佳刘明剑
农业工程学报 2021年10期
关键词:定量渔业命名

任 媛,于 红,杨 鹤,刘巨升,杨惠宁,孙哲涛,张思佳,刘明剑,孙 华

融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别

任 媛,于 红※,杨 鹤,刘巨升,杨惠宁,孙哲涛,张思佳,刘明剑,孙 华

(1. 大连海洋大学信息工程学院,大连 116023;2. 设施渔业教育部重点实验室,大连 116023;3. 辽宁省海洋信息技术重点实验室,大连 116023)

在渔业标准文本中,定量指标识别对标准内容服务具有重要的意义,针对目前常用的命名实体识别方法对渔业标准定量指标识别准确率不高的问题,该研究提出了融合注意力机制与BERT+BiLSTM+CRF(Bidirectional Encoder Representations from Transformers + Bi-directional Long Short-Term Memory + Conditional Random Field,来自转换器的双向编码器表征量+双向长短时记忆网络+条件随机场)模型的渔业标准定量指标识别方法,该方法将渔业标准中定量指标拆分为指标名、指标值、单位、限制词4类实体,通过分析渔业标准语料的特点发现位置信息对指标名等实体识别效果具有重要影响,首先利用BERT模型中位置向量信息提高指标名等实体的识别效果,其次采用BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)模型学习渔业标准文本定量指标中长序列语义特征,然后再将注意力机制与BERT+BiLSTM模型进行融合以解决长序列语义稀释问题,最后利用CRF(Conditional Random Field,条件随机场)层得到预测序列标签。试验结果表明,融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别准确率为94.51%、召回率为96.37%、1值为95.43%,研究表明,该方法解决了渔业标准定量指标识别准确率不高的问题,可以比较准确地识别由指标名、指标值、单位、限制词组成的渔业标准定量指标,是一种有效的渔业标准定量指标识别方法,可为农业、医学、生物等其他领域定量指标命名实体识别提供新思路。

渔业;标准;模型;定量指标;BERT;注意力机制;BiLSTM;命名实体识别

0 引 言

渔业标准信息服务是实现渔业标准化生产的基础,基于标准内容服务的渔业标准精准服务是提高渔业生产效益、提升渔业管理能力和决策水平的有效手段[1-3]。但目前渔业标准服务主要通过关键字匹配方式进行,无法实现基于内容的标准服务,因此不能满足精准服务需求。基于知识图谱的领域信息服务是领域知识精准服务的主流方法,在农业、医学等领域得到了广泛应用[4-6]。要实现渔业标准信息精准服务,需要构建渔业标准知识图谱,渔业标准命名实体识别是渔业标准知识图谱构建的基础[7]。渔业标准指标是渔业标准命名实体的重要组成部分,定量指标是其中最重要内容之一,定量指标识别的准确性直接影响渔业标准命名实体的识别效果,进而影响渔业标准知识图谱的构建质量。因此,需要研究有效的渔业标准定量指标识别算法,以实现渔业标准定量指标的自动提取,为基于标准内容服务的标准信息精准服务提供数据支撑。

早期命名实体识别主要是基于规则和词典的方法,王冲等利用敏感词规则方法对用户的真实对话意图进行识别,解决了分词结果不准确带来的错误传导问题,取得较好的效果[8]。该类方法主要依赖于专家制定规则,对语料库要求较高,对词典和规则依赖性较强,对词典中存在的或规则中涵盖的实体识别效果较好,但不能识别复杂实体。为解决复杂实体识别效果不好的问题,向晓雯等采用统计与规则结合的方法进行实体识别,利用隐马尔可夫模型进行实体识别,效果有明显提升,但无法有效解决实体歧义问题[9]。深度学习具有自主学习特征的能力,自2006年被提出以来,已被广泛应用于命名实体识别[10]。Majtner等采用深度学习方法对医学领域的黑色肿瘤类别实体进行识别,解决了人工提取特征效率不高的问题,取得了较好的识别效果,但是该方法无法有效解决复杂实体识别和实体嵌套问题[11];贺琳等提出使用CNN+BiGRU+CRF(Convolutional Neural Network+ Bi- directional Gated Recurrent Unit+Conditional Random Field,卷积神经网络+双向门控循环网络+条件随机场)模型对外来海洋生物实体进行识别,解决了外来海洋生物领域实体复杂且实体间存在嵌套导致实体识别效果较差的问题[12];BERT(Bidirectional Encoder Representations from Transformers,来自转换器的双向编码器表征量)模型被提出之后[13],杜琳等利用BERT与BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)融合注意力机制对中医药文本进行识别,解决了中医文本利用率低、识别有效信息效果差的问题[14]。文献[11-14]中的方法对实体类别数量较少情况的效果较好,但是渔业领域实体类别较多,不能直接上述方法使用。

为解决渔业领域命名实体识别问题,孙娟娟等提出基于深度学习的渔业领域命名实体识别方法,在渔业领域命名实体识别任务中取得了较好的效果,但该方法主要针对较宽范围的渔业领域命名实体识别,没考虑渔业标准命名实体存在的实体特征不明显、语义序列较长等问题[15]。程名等提出了融合注意力机制和BiLSTM+CRF渔业标准命名实体识别方法,该方法对渔业标准号和渔业标准定性指标识别取得了较好的效果[7]。但对具有特殊结构的定量指标识别效果不够好,存在准确率和召回率偏低的问题。因此,需要在研究渔业标准定量指标命名实体结构特点的基础上,研究有效的渔业标准定量指标实体识别方法。

针对以上问题,本研究在分析渔业标准定量指标结构特性的基础上,研究渔业标准定量指标实体分解方法和语料标注方法,将渔业标准定量指标分解为指标名、指标值、单位、限制词等4类实体,提出了融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别方法,并进行试验验证,以实现对渔业标准定量指标有效识别。

1 材料和方法

1.1 数据来源与特点分析

1.1.1 数据来源

试验数据来源于渔业领域真实生产中采用的标准,从“大连市渔业标准体系化服务与决策系统平台”渔业标准数据库中下载了300余篇涵盖国标、行标、地标的水产养殖种质、育苗、养殖等渔业标准,语料库约36万余字符。

1.1.2 渔业标准定量指标结构特性分析

1)渔业标准定量指标的组成元素及分布特性

对300多篇渔业标准进行分析发现,在渔业标准中,存在很多定量描述内容,例如:“温度不高于18 ℃”、“孔径40 mm-80 mm”等,通过对这些定量描述分析发现:渔业标准定量指标不是由单一实体构成,而是由几个不同类别实体构成,主要包括指标名、指标值、单位、限制词4个部分,例如上例中“温度”是指标名、“不高于”是限制词、“18”是指标值、“℃”是单位,因为定量指标中既包含文字又包含数字和单位,并且组合方式也不同,很难找到固定模式,将渔业标准定量指标作为一个整体进行识别准确率和召回率较低,因此需要将渔业标准定量指标进行拆分。

通过对36余万字符的渔业标准语料库数据进行统计分析发现,渔业标准定量指标的基础实体包含指标名、指标值、限制词和单位4个类别,其中每一类基础实体在渔业标准文本中出现的频率都较高,上述4类实体字符占文本总量约10.7%,其中各类别实体数量及分布如表1所示。

表1 实体数据分布

从以上统计结果可以看出,虽然不能将渔业标准定量指标作为一个整体进行实体识别,但是只要能识别出其中的基础实体以及基础实体之间的位置关系,就可以把这一个定量指标实体识别出来。因此,将渔业标准定量指标分解为指标名、指标值、单位、限制词4类基础实体,然后分别把这4类实体作为单独的实体进行识别,这样每一类标签都有明显特征,可以提高每一类实体的识别准确率,进而提高定量指标的识别准确率。

2)渔业标准定量指标的结构形态

虽然渔业标准定量指标主要由指标名、指标值、限制词和单位等4种基础实体构成,但是它们的结构形态存在差异,要想准确识别每一类实体,需要了解它们的结构形态,通过对36余万字符渔业标准语料库数据进行分析发现,渔业标准定量指标的结构形态主要包括5种典型的形态,具体形态如表2所示。每一类形态中,这4类实体都具有固定的位置关系,因此,位置信息对渔业标准定量指标实体识别具有重要的作用。

表2 实体结构特征实例

1.1.3 渔业标准定量指标标注方法

语料标注是命名实体识别的重要步骤,不同特点的语料需要采用不同的标注方法。命名实体识别一般采用BIO(Begin Inside Other,开始中间其他)方法进行语料标注[16],但渔业标准定量指标由4部分组成,基本的BIO方法无法表达渔业标准定量指标,因此需要根据定量指标命名实体的结构特点设计一种有效的标注方法。本研究借鉴并扩展了BIO标注方法的基本思想[17],在BIO基础上扩展类别信息,与其他标注类别不同的是根据渔业标准定量指标的组成元素和结构形态给出了标签类别定义。标签类别定义如表3所示。指标名、指标值、单位、限制词的表现形式分别用NAM、FIG、UUU、LIM表示。

表3 标签类别定义

1.2 融合注意力机制与BERT+BiLSTM+CRF的渔业标准定量指标识别模型

1.2.1 模型总体架构设计

由1.1.2的渔业标准定量指标命名实体具有结构差异性和形态多样性等特点,如果将定量指标作为整体进行识别,可能会因为由多个部分组合起来的定量指标在语料中出现频率较低导致识别效果不好,因此,提出将定量指标进行拆分识别的方法。由于渔业标准定量指标中各类实体出现的位置有一定的规律性,因此位置信息对拆分后的实体识别至关重要;此外,由于与渔业标准定量指标识别相关的字符序列较长,因此实体识别时需要进行长序列语义特征学习;而长序列语义特征学习可能会带来语义稀释问题,因此需要采用有效的方法解决该问题;没有规范性约束的实体标签中可能由于不规范标签的存在导致识别效果不好,因此需要进行标签规范性约束。综合上述分析,在设计渔业标准定量指标识别模型时需综合考虑位置信息利用、长序列语义特征学习、语义稀释问题解决、标签规范性约束等因素。

对常用的深度学习模型进行综合研究发现,BERT模型具有预测推断位置向量和结构信息的能力;BiLSTM在确保短序列语义学习效果的基础上增加了学习长序列语义的能力;注意力机制增强特征词的权重,可以解决特征词语义稀释问题;CRF具备对标签进行约束的能力。因此设计了融合注意力机制与BERT+BiLSTM+CRF的渔业标准定量指标识别模型。

模型总体架构如图1所示。共分为4层网络模型,从表 2可以看出,实体组合方式不同,存在指标名在指标值前,和指标名在指标值后的情况,需要学习表示实体之间相互关系的位置向量,为后面的语义理解打下基础,因此将BERT层作为第一层,先利用预训练的BERT模型对语料进行初始化,然后将BERT层与BiLSTM结合,将BERT模型输出位置和结构信息向量作为双向长短时记忆神经网络各个时间点的输入,送入BiLSTM模型中,为了强化位置信息作用,同时将位置向量和字向量输入BiLSTM模型,经过双向处理后,输出结果同时具备长时记忆和短时记忆。此时,由于长时记忆和短时记忆权重不同,可能引起长序列语义稀释问题,用注意力层处理BiLSTM模型的输出结果可以提升重点词语在句子中的权重,使模型将注意力集中在目标实体上,降低其他无关词作用。CRF层计算注意力层的输出得到最优结果,转化成序列标签得到最终预测结果。

1.2.2 BERT层

BERT是一个预训练模型[18-21],具有预测上下文信息、提供位置信息的作用。在渔业标准定量指标命名实体识别任务中,位置和语义信息起到关键作用,而一般的语言模型不能很好理解句子之间的关系,渔业标准定量指标需要模型学习上下文信息和结构特征,所以采用BERT模型进行渔业标准定量指标识别。

BERT能够计算词语之间的相互联系,利用计算到的权重提取出文本关键特征,并且利用自注意力机制进行预训练,相比于其他预训练模型,可以深层次理解上下文信息,捕捉到文本的结构特点。

BERT模型输入的是字向量和位置向量的总和[22]。字向量可以表示模型中关于字的主要信息,因为自注意力机制不能记住时序信息,所以加入位置向量可以提升识别的准确性。BERT模型输入实例如图2所示,输入向量由字向量与位置向量的和构成。

1.2.3 BiLSTM模型

通过对渔业标准定量指标分析发现,渔业标准定量指标中指标名实体长短不一,最长实体可达8个字符,上下文存在较强的依赖关系,基于循环神经网络的LSTM可以把长依赖转化成短依赖并且计算出依赖的概率[23],可以有效利用上一时刻特征判断下一时刻特征,所以LSTM网络实现了渔业标准定量指标识别任务的长序列记忆功能。在渔业标准定量指标中,例如“大肠杆菌含量小于230 MPN/100 g”其中“大肠杆菌含量”是指标名,“小于”是限制词,“230”是指标值,“MPN/100 g”是单位,此时指标名字符较长,而LSTM网络可以解决长序列的问题。

但后一时刻词权重大于当前时刻词权重是LSTM网络存在的问题[24]。所以采取双向长短时记忆网络BiLSTM(正向LSTM与反向LSTM结合)对渔业标准定量指标进行识别,不仅可以解决长期依赖问题,还可以解决后一时刻权重大于当前时刻权重问题。

1.2.4 注意力机制

注意力机制的灵感来源于人类观察事物时的状态,当人观察事物时,会将注意力集中在某些具有特殊特征事物上,忽略特殊特征外的其他事物。注意力机制利用这一原理可以精准、快速地学习渔业标准文本信息,BiLSTM模型存在长序列前端语义稀释问题,输出的特征向量信息不够准确,导致识别的实体标签信息错误。

注意力机制本质是权重分配,通过计算词与词之间的关联程度,获取词语结构信息。在渔业标准定量指标识别模型中引入注意力机制,可以生成不断变化的语义向量使模型关注重点词,抑制无用词,可以有效解决BiLSTM网络生成固定的语义向量导致长序列前端语义稀释的问题。

注意力层用来获取句子级别信息[25],可以提取长距离依赖信息,并对编码层信息进行整合。注意力层主要计算注意力权重向量r,其定义如式(1)所示。

式中y表示BiLSTM 层输出的特征序列,b表示文档中词语之间的相关性概率分布,其定义如式(2)所示。

式中ww表示文档中的第个词和第个词,是文档中词的个数,( ww)表示采用词w与词w 的相似性得分,( ww)表示词w与文档中任意词w的相似性得分。

例如:想要判断“池塘的面积”中的指标名实体,需要根据公式计算注意力权重向量,假设模型计算结果为:“池塘”权重为0.2,“的”权重为0.1,“面积”权重为0.7,选择最大权重实体,因此“面积”被选为指标名实体。

通过注意力层处理BiLSTM层输出的特征序列,得到当前词与序列中其他词的相关性,获取全局特征表示,然后将加入注意力机制的特征序列送入CRF中进行标签的预测。

1.2.5 CRF层

经过BERT层、BiLSTM层以及注意力层处理后向量需要进行序列标注,无约束的标注可能给出错误的标签,为了解决这一问题,加入CRF层对标签进行约束。CRF层能从训练数据中获得约束性规则,可以为最后预测的标签添加约束,保证预测标签合法性[26]。在训练过程中,这些约束可以通过CRF层自动学习,具体约束有两点。

1)句子中第一个词总是以标签“B-”或“O”开始,而不是“I-”。

2)标签“B-L1 I-L2 I-L3 I-…”,其中L1、L2、L3实体标签类型是一样的。例如“B-LIM I-LIM I-LIM”是合法序列标签,“B-UUU I-FIG”就是不合法序列标签。定义这些约束条件,使预测不合法的序列标签出现概率降低,可以提升整体识别的准确率。

2 试验设计与结果分析

2.1 试验设计

1)试验环境

研究试验的硬件环境为intel xeon E5-2630 v3 2.4 GHZ处理器,6 GB内存,操作系统为 Ubuntu 16.04 LTS 64 bit,GPU为GTX2080Ti。搭建依赖环境为python3+tensorflow1.12。

2)试验数据

试验将36余万字符分为两部分,将试验数据80%作为训练集,20%的数据作为测试集进行试验。

3)试验方案

首先,BiLSTM+CRF模型是命名实体识别领域的基线(baseline)模型,一般的命名实体识别算法都与该模型进行比较,因此设计了与BiLSTM+CRF模型的比较试验;其次,此前程名等对渔业标准指标进行了识别,取得了一定效果,但是未能有效识别渔业标准定量指标[7],本研究是为了解决程名等提出的模型不能有效识别渔业标准定量指标这一问题而提出的,因此设计了与程名等提出的融合注意力与BiLSTM+CRF模型的比较试验;最后,为了比较注意力机制对识别结果的影响,分别设计了BERT+BiLSTM+CRF模型试验以及融合注意力与BERT+BiLSTM+CRF模型试验,因此总共设计了4个模型试验。此外,因为渔业标准定量指标中包括4类实体,每类实体具有不同特点,为了比较不同实体的识别效果,设计了不同类别实体识别效果比较试验。

4)试验结果评价方法

目前,在命名实体识别任务中,评价模型效果的指标主要包括准确率、召回率和1值[27],因为渔业标准命名实体识别任务的目标是自动识别文本中的命名实体,为知识图谱构建提供数据,命名实体识别的准确率、召回率将直接影响知识图谱的构建质量,因此选择准确率、召回率和1值作为渔业标准命名实体识别任务的性能评价指标。

2.2 试验步骤

在试验过程中,参数优化是关键步骤。需要依次改变模型中某个参数,其余参数固定不变,对测试集进行训练进行最优化探索,最终获得实体识别效果较好的模型参数。主要修改学习率、迭代次数(Epoch)、失活率(Dropout)、随机初始化向量和优化器。学习率越大,损失函数越大,识别效果越差,但学习率过小会使收敛速率降低,导致识别速率减慢;完成1次完整模型训练就是1次迭代,但是由于1次迭代并不能保证学习效果最好所以需要多次迭代,迭代次数表示模型学习效果最好的次数;失活率过大则导致模型不收敛,过小则导致模型收敛特别慢或者无法学习,因此需要设置合适的失活率;初始化向量就是将数据分为数据块,且固定大小的数据块;优化器用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值[28]。

通过对训练集的数据进行参数训练,得到最优训练参数如下:学习率为0.001,迭代次数为40,失活率为0.5,向量维为300,优化器为Adam。

2.3 试验结果与分析

2.3.1 模型综合性能比较试验

对BiLSTM+CRF模型、融合注意力+BiLSTM+CRF模型、BERT+BiLSTM+CRF模型和融合注意力与BERT+ BiLSTM+CRF模型进行了试验,所有模型试验的训练数据、测试数据均采用同一数据集,试验结果如表4所示。

表4 不同模型试验结果对比

从表4可以看出,无论是BiLSTM+CRF模型还是BERT+BiLSTM+CRF模型,加入注意力机制后,识别的准确率、召回率、1值分别为91.73%、89.64%、90.78%和94.51%、96.37%、95.43%,说明用注意力机制增加对渔业标准定量指标中各类实体的权重可以有效提升识别效果;在BiLSTM+CRF模型的基础上加入BERT模型后,识别效果显著提升,准确率、召回率、1值分别为92.89%、96.08%、94.46%,说明位置信息在渔业标准定量指标识别过程中具有重要作用,加入BERT预训练语言模型后,增加了表达位置的信息,使得识别效果提升幅度较大。提出的融合注意力机制与BERT+BiLSTM+CRF模型识别结果优于其他模型,与融合注意力+BiLSTM+CRF模型相比,准确率、召回率、1值分别提升2.78、6.73、4.65个百分点,与BERT+BiLSTM+CRF模型相比,准确率、召回率和1值分别提升1.62、0.25和0.97个百分点,说明位置信息和实体权重信息同样重要,在BiLSTM+CRF模型的基础上,加入注意力机制和BERT模型既提供实体自身权重,又突出了位置信息权重,使模型更准确地识别定量指标。

2.3.2 不同类别实体识别效果比较试验

为进一步评价各类定量指标实体的识别效果,将4组模型进行对比试验,分别对指标名、指标值、单位、限制词4类不同实体进行识别,试验结果如表5所示。

从试验结果可知,4类实体的识别结果中,指标值、单位、限制词的识别结果较好,而指标名的识别结果较差,因为这3类实体大多是由数字以及特殊符号构成,与上下文的文字相比,实体特征较为明显,结合位置信息进行识别,识别的准确率、召回率较高;而指标名完全由文字构成,与上下文的文字相似度较高,需要先进行与上下文之间的边界划分,再进行实体识别,边界划分导致的错误会传递给实体识别任务,进而降低识别的准确性,因此整体识别效果不好。

综合上述试验,融合注意力机制与BERT+ BiLSTM+CRF模型的识别效果优于其他3个模型,识别的准确率接近95%,召回率、1值均超过95%,与BERT+BiLSTM+CRF命名实体识别模型相比,采用注意力机制可以高效分配注意力资源,有选择地关注相关信息,更精准地学习特征信息,注意力机制通过计算时序向量进行加权,将权重作为特征向量的方法,解决了BiLSTM模型梯度消失问题,1值有明显提升。与程名等[7]采用融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别模型相比,提出的模型结合字向量、位置向量、句子特征进行识别,并使用BERT模型的自注意力机制进行预训练,BERT模型中的Transformer层采用双向编码器表示能够很好地增强文本上下文记忆[29],使准确率、召回率、1值均有提升,经试验证明,该模型在渔业标准定量指标命名实体识别结果有较大提升。

表5 不同模型类别结果对比

3 结 论

1)本研究针对渔业标准定量指标由多个基础实体组成且实体结构差异性大等问题,提出了实体拆分的方法,将定量指标拆分为指标名、指标值、单位、限制词4类基础实体进行识别,有效解决了渔业标准定量指标实体识别困难的问题。

2)针对渔业标准文本中定量指标识别准确率不高的问题,设计了融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别方法,与程名等提出的融合注意力机制和BiLSTM+CRF模型的渔业标准命名实体识别方法相比,提出的模型结合字向量、位置向量、句子特征进行识别,并使用BERT模型的自注意力机制进行预训练,采用双向编码器方式增强了文本上下文记忆,识别效果得到了明显提升,识别的准确率为94.51%、召回率为96.37%、1值为95.43%,解决了渔业标准定量指标识别准确率不高的问题,是一种有效的渔业标准定量指标识别方法,也为农业、医学、生物等其他领域的定量指标命名实体识别提供了新思路。

虽然本研究已经提升了渔业标准定量指标实体识别问题,但由于实体边界不清晰导致指标名类别实体的识别效果依然不够理想,下一步需要研究一种方法有效解决实体边界不清晰导致错误传递的问题。

[1] 任酉贵. 辽宁省海洋渔业综合管理数据服务平台建设概述[J]. 海洋信息,2019,34(2):57-61.

Ren Yougui. The construction of liaoning oceans and fisheries management data service platform based on big spatial data[J]. Ocean Information, 2019, 34(2): 57-61. (in Chinese with English abstract)

[2] 于红,冯艳红,李晗,等. 渔业标准体系化服务与决策系统研究[J]. 大连海洋大学学报,2019,34(2):260-266.

Yu Hong, Feng Yanhong, Li Han, et al. Establishment of a systematic service and assistant decision-making system for fishery standard[J]. Journal of Dalian Ocean University, 2019, 34(2): 260-266. (in Chinese with English abstract)

[3] 刘亚迪,余连祥,冷华南. 乡村振兴战略背景下现代渔业发展优势、问题及政策分析:以浙江省湖州市南浔区渔业发展为例[J]. 海洋湖沼通报,2020(5):155-163.

Liu Yadi, Yu Lianxiang, Leng Huanan. Analysis of advantages, problems and policies of modern fishery development in the context of rural revitalization strategy: Take Nanxun District, Huzhou, Zhejiang Province as an example[J]. Bulletin of Oceans and Lakes, 2020(5): 155-163. (in Chinese with English abstract)

[4] 吴赛赛,周爱莲,谢能付,等. 基于深度学习的作物病虫害可视化知识图谱构建[J]. 农业工程学报,2020,36(24):177-185.

Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visual knowledge graph of crop diseases and insect pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract)

[5] 张善文,王振,王祖良. 结合知识图谱与双向长短时记忆网络的小麦条锈病预测[J]. 农业工程学报,2020,36(12):172-178.

Zhang Shanwen, Wang Zhen, Wang Zuliang. Prediction of wheat srtipe rust disease by combining knowledge graph and bidirectional long short-term memory network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 172-178. (in Chinese with English abstract)

[6] 奥德玛,杨云飞,穗志方,等. 中文医学知识图谱 CMeKG构建初探[J]. 中文信息学报,2019,33(10):1-9.

Ao Dema, Yang Yunfei, Sui Zhifang, et al. Preliminary study on the construction of Chinese medical knowledge graph[J]. Journal of Chinese Information Processing, 2019, 33(10): 1-9. (in Chinese with English abstract)

[7] 程名,于红,冯艳红,等. 融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别[J]. 大连海洋大学学报,2020,35(2):296-301.

Cheng Ming, Yu Hong, Feng Yanhong, et al. Research on named entity labeling and recognition of fishery standards[J]. Journal of Dalian Ocean University, 2020, 35(2): 296-301. (in Chinese with English abstract)

[8] 王冲,张虎,王鑫,等. 融合敏感词规则和字符级RCNN模型的用户意图识别[J]. 计算机应用与软件,2020,37(3):160-165.

Wang Chong, Zhang Hu, Wang Xin, et al. User intention recognition based on sensitive word rules and character-level RCNN model[J]. Computer Applications and Software, 2020, 37(3): 160-165. (in Chinese with English abstract)

[9] 向晓雯,史晓东,曾华琳. 一个统计与规则相结合的中文命名实体识别系统[J]. 计算机应用,2005(10):2404-2406.

Xiang Xiaowen, Shi Xiaodong, Zeng Hualin. A Chinese named entity recognition system using statistics-based and rules-based method[J]. Computer Applications, 2005(10): 2404-2406. (in Chinese with English abstract)

[10] Li Lishuang, Jiang Yuxin. Integrating language model and reading control gate in BLSTM-CRF for biomedical named entity recognition[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, 17(3): 841-846.

[11] Majtner T, Yildirim-Yayilgan S, Hardeberg J Y . Combining deep learning and hand-crafted features for skin lesion classification[C]// 2016 Sixth International Conference on Image Processing Theory, Tools and Applications (IPTA). IEEE, 2017(10): 12-15.

[12] 贺琳,张雨,巴韩飞. 基于CNN-BiGRU-CRF模型的外来海洋生物实体识别[J]. 大连海洋大学学报,2020,194:1-10.

He Lin, Zhang Yu, Ba Hanfei. Recognition of alien marine organisms based on CNN-BiGRU-CRF model[J]. Journal of Dalian Ocean University, 2020, 194: 1-10. (in Chinese with English abstract)

[13] 毛明毅,吴晨,钟义信,等. 加入自注意力机制的BERT命名实体识别模型[J]. 智能系统学报,2020,84(4):146-153.

Mao Mingyi, Wu Chen, Zhong Yixin, et al. BERT named entity recognition model with self-attention mechanism[J]. Journal of Intelligent Systems, 2020, 84(4): 146-153. (in Chinese with English abstract)

[14] 杜琳,曹东,林树元,等. 基于BERT与Bi-LSTM融合注意力机制的中医病历文本的提取与自动分类[J]. 计算机科学,2020,47(S2):416-420.

Du Lin, Cao Dong, Lin Shuyuan, et al. Extraction and automatic classification of TCM medical records based on attention mechanism of BERT and Bi-LSTM[J]. Computer Science, 2020, 47(S2): 416-420. (in Chinese with English abstract)

[15] 孙娟娟,于红,冯艳红,等. 基于深度学习的渔业领域命名实体识别[J]. 大连海洋大学学报,2018,33(2):265-269.

Sun Juanjuan, Yu Hong, Feng Yanhong, et al. Recognition of nominated fishery domain entity based on deep learning architectures[J]. Journal of Dalian Ocean University, 2018, 33(2): 265-269. (in Chinese with English abstract)

[16] 秦颖,王小捷,钟义信. 级联中文组块识别[J]. 北京邮电大学学报,2008,31(1):14-17.

Qin Ying, Wang Xiaojie, Zhong Yixin. Cascaded Chinese chunk recognition[J]. Journal of Beijing University of Posts and Telecommunications, 2008. 31(1): 14-17. (in Chinese with English abstract)

[17] 计峰,邱锡鹏. 基于序列标注的中文依存句法分析方法[J]. 计算机应用与软件,2009,26(10):133-135.

Ji Feng, Qiu Xipeng. A new Chinese dependency analysis method based on sequence labeling model[J]. Computer Applications and Software, 2009, 26(10): 133-135. (in Chinese with English abstract)

[18] Francis S, Landeghem J V, Moens M F. Transfer learning for named entity recognition in financial and biomedical documents[J]. Information (Switzerland), 2019, 10(8): 248.

[19] 谢腾,杨俊安,刘辉. 基于BERT-BiLSTM-CRF模型的中文实体识别[J]. 计算机系统应用,2020(7):48-55.

Xie Teng, Yang Junan, Liu Hui. Chinese entity recognition based on BERT-BiLSTM-CRF model[J]. Computer Systems & Applications, 2020(7): 48-55. (in Chinese with English abstract)

[20] 赵平,孙连英,万莹,等. 基于BERT+BiLSTM+CRF的中文景点命名实体识别[J]. 计算机系统应用,2020,29(6):169-174.

Zhao Ping, Sun Lianying, Wan Ying, et al. Chinese scenic spots named entity recognition based on BERT+BiLSTM+CRF[J]. Computer Systems & Applications, 2020, 29(6): 169-174. (in Chinese with English abstract)

[21] 王月,王孟轩,张胜,等. 基于BERT的警情文本命名实体识别[J]. 计算机应用,2020,40(2):535-540.

Wang Yue, Wang Mengxuan, Zhang Sheng, et al. Alarm text named entity recognition based on BERT[J]. Journal of Computer Applications, 2020, 40(2): 535-540. (in Chinese with English abstract)

[22] Liu H, Perl Y, Geller J. Concept placement using BERT trained by transforming and summarizing biomedical ontology structure[J]. Journal of Biomedical Informatics, 2020, 112: 103607.

[23] Gers F, Schmidhuber J, Cummins F, et al. Learning to forget: Continual prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451-2471.

[24] Cho M, Ha J, Park C, et al. Combinatorial feature embedding based on CNN and LSTM for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2020, 103: 1532-1539

[25] Zhao B, Wu X, Feng J, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE Transactions on Multimedia, 2017(18): 149-157.

[26] Wegner J, Montoyazegarra J, Schindler K. A higher-order CRF model for road network extraction[J]. IEEE, 2013. 1: 1698-1705

[27] 宋枫溪,高林. 文本分类器性能评估指标[J]. 计算机工程,2004(13):107-109.

Song Fengxi, Gao Lin. Performance evaluation metric of text classifier[J]. Computer Engineering, 2004 (13): 107-109. (in Chinese with English abstract)

[28] 仝卫国,李敏霞,张一可. 深度学习优化算法研究[J]. 计算机科学, 2018, 45(2):155-159.

Tong Weiguo, Li Minxia, Zhang Yike. Research optimization algorithms of deep learning[J]. Computer Science, 2018, 45(2):155-159. (in Chinese with English abstract)

[29] Qin H, Wang Y. Enhancing named entity recognition from military news with bert[J]. Journal of Physics Conference Series, 2020, 1453:012132

Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model

Ren Yuan, Yu Hong※, Yang He, Liu Jusheng , Yang Huining, Sun Zhetao, Zhang Sijia, Liu Mingjian, Sun Hua

(1.,,116023,; 2.,,116023,; 3.,116023,)

Fishery information service is a vital component to realize data analysis, feature extraction, and fishing forecasting, particularly for a high comprehensive production capacity and modernized management in fishery. The commonly-used keyword matching without standard contents cannot meet the high demand for accurate service in the current information system of fishery. The standard quantitative indicators in fishery have become one of the most important tasks in the information service. Therefore, it is very necessary to accurately identify the effective standard quantitative indicators for the automatic extraction of fishery. Combining the attention mechanism and the BERT+BiLSTM+CRF (Bidirectional Encoder Representations from Transformers + Bi-directional Long Short-Term Memory + Conditional Random Field) model, this study aims to propose a highly accurate recognition method of standard quantitative indicators in fishery, further to replace the commonly-used entity recognition. The quantitative indicators were firstly divided into four types of entities: the indicator name, indicator value, unit, and qualified words for identification. This operation effectively dealt with the difficult identification of fishery standard quantitative indicator entities. It was found that the location information behaved a significant impact on the recognition of indicator names and other entities. Vector data was also utilized to improve the recognition of indicator names. Secondly, the BiLSTM model was used to learn the semantic features of long sequences in the fishery standard text quantitative indicators. The attention mechanism was then integrated to treat the long-sequence semantic dilution. Finally, all sequence tags were obtained through the CRF layer. The test results showed that the accuracy rate was 94.51%, the recall rate was 96.37%, and the1 value was 95.43% for the fusion attention mechanism and the BERT+BiLSTM+CRF model. Compared with the fusion attention + BiLSTM + CRF (named entity recognition model), the accuracy, recall rate, and F1 value increased by 2.78, 6.73, and 4.65 percentage points, respectively. The word vectors, position vectors, and sentence features were combined for better recognition in the model. The self-attention mechanism of the BERT model was pre-trained, where a bidirectional encoder was used for the transformer layer in the BERT model, indicating a better performance on the text context memory. Compared with the BERT+BiLSTM+CRF model, the accuracy, recall, and1 value increased by 1.62, 0.25, and 0.97 percentage points, respectively, indicating that the attention mechanism contributed to the greater weight of the target entity in the long- and short-term memory network. The features were then weighted to make the model more accurately identify quantitative indicators. The proposed model can be expected to more accurately identify the fishery standard quantitative indicators, especially the indicator names, indicator values, units, qualifiers. This investigation can provide promising data support to accurate information using standard content services. The effective fishery standard quantitative index can also offer new ideas for the identification of quantitative indicator named entities in agricultural, medical, and biological fields

fisheries; standards; models; quantitative index; BERT; attention mechanism; BiLSTM; named entity recognition

10.11975/j.issn.1002-6819.2021.10.016

TP391

A

1002-6819(2021)-10-0135-07

任媛,于红,杨鹤,等. 融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别[J]. 农业工程学报,2021,37(10):135-141.doi:10.11975/j.issn.1002-6819.2021.10.016 http://www.tcsae.org

Ren Yuan, Yu Hong, Yang He, et al. Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(10): 135-141. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.10.016 http://www.tcsae.org

2020-12-14

2021-04-14

设施渔业教育部重点实验室开放课题(2021-MOEKLECA-KF-05);辽宁省教育厅研究项目(JL201917);国家自然科学基金项目(61802046)

任媛,研究方向为自然语言处理。Email:971457354@qq.com

于红,博士,教授,研究方向为数据集成、渔业知识图谱等。Email:yuhong@dlou.edu.cn

猜你喜欢
定量渔业命名
湖南省2021年渔业经济形势
2022第十六届上海国际渔业博览会
有机物官能团的定量关系在解题中的应用
山西进行渔业养殖“三区”划分
多重荧光定量PCR法同时定量检测4种混合熟肉种源
命名——助力有机化学的学习
一图看懂贵州生态渔业发展
外汇风险敞口的定量刻画
有一种男人以“暖”命名
为一条河命名——在白河源