基于人工神经网络的信息抽取技术研究

2023-07-25 18:02周围

中国新通信 2023年9期

摘要：信息抽取技术作为建立知识图谱与智能问答系统的基础，也是自然语言处理的关键环节。随着深度学习算法的持续发展，各种新技术在信息抽取中得到了广泛化地使用。本文首先介绍了信息抽取技术及其主要任务，然后描述了信息抽取的发展历史，并介绍了不同类型的人工神经技术在信息抽取技术中的实践和应用。随后，对信息抽取技术现阶段面临的困境和基本研究方向进行了进一步探讨。

关键词：实体抽取；深度学习算法；信息抽取；人工神经网络

大数据和互联网带来了海量数据，人们需要识别相关信息并从中获取洞察力和关键信息。信息抽取技术就是在这样的背景下诞生了，其也作为建立知识图谱的基础。

本文通过文献综述的方法，系统地介绍了信息抽取技术的历史背景和发展路径。根据技术特征，它可以分为三个子任务：实体提取、关系提取和属性提取。其中，每个子任务根据其应用领域分为面向特定领域和面向开放领域，根据其数据源分为面向文本和面向网络。

首先，从深度学习角度探讨了进行信息提取的重要性；然后，通过三个国际学术会议（MUC、ACE和ICDM）的视角审视了信息提取的历史。对实体关系抽取、识别命名实体、属性抽取等方面进行了详细地阐述，并对基于人工神经网络的信息抽取技术发展进行了介绍。最后，对信息提取技术的发展趋势进行了一系列探究。

一、信息抽取技术的发展和应用

一般来说，信息抽取是指利用计算机技术对大量文本数据进行处理，从中提取出特定信息并将其存储在数据库中。这些信息可以是人名、地名、日期等各种类型的实体信息，也可以是事件、关系等复杂的语义信息。信息抽取技术不仅可以提高信息检索的效率，还可以帮助用户快速了解文本资料中所涉及的主题和内容。

关于信息抽取的研究可以追溯到20世纪60年代，当时耶鲁大学和纽约大学的FRUMP系统是一个著名的例子。随着自然语言处理技术的不断发展，信息抽取的研究也逐渐取得了突破性进展。在20世纪80年代后期，世界上召开了信息理解会议，这对信息抽取技术的研究起到了推动作用。会议的召开促进了信息抽取技术的发展，并使其逐渐步入一个新的发展阶段。此外，美国国家标准技术研究所（NIST）还举办了一场名为“自动内容提取（ACE）评估会议”的全球性会议，为信息抽取的研究带来了重要意义。与信息理解会议不同，ACE评估没有针对特定场景或领域，而是采用了一套基于假阳性和误报的评估系统。此外，ACE还评估了系统的跨文档信息抽取处理能力，使得信息抽取技术能够更好地应用于实际场景。

信息抽取包括关系提取、实体提取、子任务与属性提取等多种类型。而实体识别方法主要分为开放、特定领域两种。其中特定领域的识别方式主要通过部分经典模型，如隐马尔可夫模型、最大熵分类模型以及条件随机场模型等。在面向开放领域的信息抽取中，信息源不再是一个特定的知识领域，而是一个完整的信息网络和大量的Web語料库。例如，KnowItAll系统处理大规模和异构的Web语料库，如Twitter、Wikipedia等。由于传统统计模型需要大量的语料库注释和手动构建大量特征的局限性，出现了一些新的方法，如使用远程监督算法、半监督算法、自学习方式等，以解决开放实体提取等一系列问题。而在常识基础上的新型问答系统往往使用的实体提取方法，具有良好的实用性，其主要面向开放领域。

在面向开放领域的信息抽取中，信息来源更为广泛和复杂，因此需要新的方法来处理这些问题。一些新兴的技术，如远程监督算法、半监督算法和自学习方式等，已被应用于解决开放实体提取等问题。这些方法通过利用大规模和异构的Web语料库，避免了传统模型需要大量手动注释的缺陷。在知识图谱和智能问答系统中，实体识别也是一个关键的技术，它可以帮助用户快速获取所需信息。因此，在实际应用中，基于常识的新型问答系统使用的实体提取方法具有良好的实用性，其主要面向开放领域，将为用户提供更加便捷和高效的服务。

除了自然语言文本和Web文本之外，社交网络的数据也是一个丰富的数据源。拥有大量的社会网络结点，并拥有不同的联系，具有较强的网络效应。在2010年的国际万维网大会上，有研究者提出使用基于无监督方法的顺序联合聚类算法来提取包含多个节点的社交网络中的各种关系。

二、基于人工神经网络的信息抽取技术

（一）模糊神经网络模型

1.模糊神经网络模型的基本思想

在应用过程中，模糊逻辑系统和人工神经网络系统表现出了许多缺点，因此，在实际应用中，人们往往会将神经网络与模糊逻辑系统相结合，并通过网络学习功能的业务来解决具体问题。将效率与模糊逻辑设计相结合可以取得很好的效果，尤其是在工业领域。就目前而言，应用神经网络和模糊逻辑进行相关分析活动，特别是研究两者结合的应用和理论，已成为一个热点问题。将神经网络与模糊网络相结合，可以得到模糊神经网络。它的优势是可以集成学习、识别、自适应、模糊信息处理和关联等特点。

神经网络系统通常用作一般函数估计器，而模糊系统可以用作结构数字估计器。因此，它们具有一般的自适应模型无偏估计函数，同时在正态数学特征和状态空间上保持一致性。这表明神经网络可以通过模糊系统进行模糊逻辑推理，并完成神经网络结构的初始化。和传统的神经网络系统相比，模糊神经网络更具有学习效率和能力。同时，在模糊推理方法的帮助下，神经网络的结构表达能力与自学习能力都得到了较大地提高，使之成为一种新的发展和应用模式。模糊逻辑推理通常采用神经网络结构，这使得传统的神经网络失去了比较精确的物理意义，并且使得模糊逻辑推理中的神经网络参数拥有了实际的物理意义。

图1 人工神经网络模型

2.神经网络学习方法

模糊学习是一种基于模糊理论，利用模糊量来计算和度量学习过程的方法。输入和输出之间的映射关系也属于模糊集运算，通过连接权重作为参数。一般的模糊学习算法主要包括模糊规则提取方法和模糊学习算法。前者是指输入和输出的模糊数据的映射或关联，也可以看作一种数据挖掘任务。如果没有与模糊输入相关的模糊输出，则需要进行输入矢量模糊聚类或模糊输入空间。

目前的模糊神经网络虽然有各种各样的学习算法和结构，但它们有一个共同的特点。即可以有效地利用语言信息，提高学习能力和适应性。分析模糊神经网络模块的结构及其权重值具有重要的研究意义。在设计模糊网络结构时，分析问题的复杂性和精度，建立模糊神经网络模型，并结合先验知识。此外，基于先验知识，通过手动选择来初始化模糊神经网络权重。这样，大大提高了神经网络的学习速度，有效地防止了梯度优化算法引起的局部极值现象。

3.模糊神经网络理论中存在的问题

尽管模糊神经网络已经成功地应用于建模和系统控制，但由于它是一种新技术，在实际应用中仍存在许多问题。目前获取神经知识的方法比较狭窄。从已有的很多案例来看，仍然没有更有效的方法来获得反映其相关特征的模糊模型。模糊神经网络的模型结构还没有系统化的建立，模型推理层的节点数、模糊的层次、模糊网络的反模型和综合的推理算法等问题都还没有解决，理论界所包含的计算模型的研究也没有深入开展。

在神经网络中，存在模型的复杂性和冲突性。因此，在模糊神经网络的优化中，还存在一些需要进一步研究的问题。要将神经网络的功能模块与一般模式的分析模型有机地结合起来进行分析，需要人们去探究其中的实际情况。

4.模糊神经网络模型的发展方向和未来应用前景

在模糊神经网络模型的发展方向上，一方面，研究人员可以探索更加高效、精确的模糊神经网络模型设计和训练算法，以提高模型的性能和应用范围。例如，可以采用改进的模糊逻辑函数、改进的激活函数、改进的优化算法等。另一方面，模糊神经网络模型可以与其他机器学习算法和技术结合，如深度学习、强化学习等，扩展其应用范围和性能。

在未来应用前景方面，模糊神经网络模型将在各个领域得到广泛应用。例如，在医疗领域，模糊神经网络模型可以应用于医疗数据分析和诊断，帮助医生进行疾病预测和患者分类等任务；在交通领域，模糊神经网络模型可以应用于交通流量预测和交通信号控制，提高城市交通效率和安全性；在金融领域，模糊神经网络模型可以应用于风险管理和股票预测等任务，为投资决策提供参考。

（二）基于人工神经网络的信息抽取技术发展

1.信息抽取技术的发展

早期命名实体识别一般使用基于规则。一般来说，语言专家首先根据要识别的实体类型的特征，选择能够代表某种实体类型的各种特征，如姓名、职位等，建立一个有限的规则模板，并使用模式匹配提取命名实体[3]。这些系统大多依赖于语言专家的领域知识，这不仅费时费力，而且不可避免。

随着近年来机器学习的持续化发展，在统计基础上，机器学习也逐渐应用在信息提取领域。首先，该方法将文本中每个单词的各种特征（如词汇特征、词性标注、词义特征等）表示为一个特征向量。其次，对大量训练语料库进行了多种建模方法的训练。最后，利用该模型对实体进行识别。常见的模型有：Hmm（隐马尔可夫模型）、Me（最大熵）、SVM（支持向量机）和CRF（條件随机场）等[4]。

最近几年，由于词汇嵌入技术的出现，将深度学习技术应用于自然语言处理领域。而Wod2vec则是单词矢量的重要代表。其基本思想是使用同一维度的向量来表示模型中的每个单词。这不仅解决了高维向量空间带来的数据稀疏性问题，还将更多的语义特征融入其中。同时，异质文本可以用统一的维向量特征来表示。

2.与人工神经网络相结合的信息抽取技术

有学者首先利用卷积神经网络（CNN）进行特征的自动抽取。通过词性特点与向量对语句进行编码，并将其分为全连接层、卷积层和软映射层。与基于核的方法相比，它在ACE 2005数据集上的F1值提高了9%。Zeng等人使用预训练词向量和位置特征，以及CNN层后面的最大池层。Nguyen和Grishnian完全放弃了词性特征，让CNN自动学习，并使用多窗卷积来获得不同尺度的n-gram信息，通过端到端的神经网络以实现最佳效果。

与传统的机器学习方法相比，基于CNN的方法取得了良好的效果，但CNN提取时间序列特征的能力较弱。而RNN模型适合提取时间的序列特点。还有学者首次应用BRNN（Bidirectional RNN）实施关系提取。BRNN相当于整合了正向和反向的RNN，将句子中的单词按照正向和反向分别输入到两个RNN中，然后将两个RNN的隐含层叠加。

在2016年，有学者提出在最短依赖路径（SDP）基础上的双向递归卷积神经网络模型；深度学习关系提取模块。本文的主要思路是对两个实体之间的网络语法的SDP进行建模，利用双通LSTM（Long Short-Term Memory）对SDP的全局信息进行编码。在此基础上，我们使用CNN捕获了相关关联中的两个单词的局部特征，从而提高了它们之间的关联方向分类能力。

在2016年，Miwa等学者提出了一种基于神经网络的新的命名实体和基于实体关系的联合模型。该模型是以LSTM-RNN为基础的，实现端到端的执行。该模型由三个表示层组成。底层是词嵌入层，完成信息编码。在此嵌入层中有两个双向的LSTM-RNN。一个是基于词序的实体识别任务，另一个是基于依赖树结构的关系提取。这两部分共享编码信息并堆叠形成一个整体模型。作为后者结构的输入的一部分，前者的输出和隐藏层使实体识别和提取相互作用。

2017年，Katiyar等学者将注意力机理Attention和BiLSTM结合起来，对关系提取与命名实体识别进行了研究。该模型借鉴了Miwa等人的模型，并根据交叉序列、依赖树等改进了原模型的缺点。该模型有一个输入层，用一个嵌入的单词表示，有两个输出层，有一个实体用于输出识别，还有一个使用注意力模型的关系分类。

谷歌的Devlin等学者于2018年提出了BERT模型。BERT是一种预先训练的语言模型。预训练模型是指利用大量的自定义文本来预先训练该模型，使得该模型能够获取通用的语言知识，并在此基础上完成后续的Fine-tuning训练，该方法既能加快模型的学习速度，又能提高模型的解释性。使模型参数可以根据具体的任务要求和领域知识进行微调。BERT模式被普遍认为是一项重要的进展，因为BERT可以让任何人建立包括自然语言处理在内的机器学习模型，并且利用这个功能强大的工具，节省时间和资源。

圖2 基于BERT模型的实体关系抽取流程

近年来，随着GPT和BERT等数据预训练模式的出现，使问答任务成为信息抽取技术的一项良好的下游任务。简单地进行原始神经网络结构重建，并微调以达到良好的效果。王等人通过使用基于原始BERT的多段预测改进了他们在SQuAD数据集上的性能。Alberti和其他人改进了BERT和SQuAD，并将其应用于更困难的问答数据集NQ。

3.信息抽取技术发展展望

当前，深度学习技术在信息抽取中的应用已有很大的发展，但是还存在很多问题需要深入地研究。首先，深度学习模型擅长处理单句语义信息，但在实践中，许多实体关系是由多个语句共同表示的，这就要求模型全面理解、记忆和推断文档中的多个语句，并提取文档级关系。其次，当前关于信息抽取的研究多集中于预先设置的任务集，而今后的研究将会是面向开放域的信息提取。因此，有必要不断探索如何在开放域中自动发现新的实体关系及其事实。最后，当前的研究往往局限于单一语言文本信息，人类在接收信息时可以综合处理多种信息。因此，有必要探索如何综合利用多语言文本、声音和视频信息提取关系。

三、结束语

本文首先对基于知识图谱的信息抽取概念和相关构建技术框架进行了一系列的介绍。然后通过三次国际评估会议和信息抽取的三个发展阶段（基于规则的阶段、统计学习阶段、深度学习阶段）简要介绍了信息抽取的历史。随后，详细介绍了结合CNN、RNN、LSTM、BERT等深度学习算法的关键信息提取技术的最新发展和一系列案例。最后，对未来信息抽取需要解决的一系列问题及信息抽取技术的未来发展趋势进行了探讨。

作者单位：周围上海建工集团股份有限公司

参考文献

[1]刘迁，焦慧，贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究，2007，7（07）：6-9.

[2]Yi，L.，Mari，O.and Hannaneh，H.（2017）Scientific Information Extraction with Semi-Supervised Neural Tagging.Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing，Copenhagen，September 2017 2641-2651.

[3]SODERLANDS.Learning information extraction rules for semi-structured and Free Text[J].Machine Learning，1999，34（1-3）：233-272.

[4]ZHOU G D，SU J.Named entity recognition USing an HMM—based chunk tagger[C]//Proceedings of 40th Annual Meeting of the Association for Computatoional Linguistics.Philadelphia，PA，USA，2002：473-480.