关于自然语言处理技术的分析与研究

2020-06-19 08:20王丁
科技创新导报 2020年7期
关键词:卷积神经网络机器学习深度学习

王丁

摘   要:在大数据时代下,自然语言处理技术是高效获取数据的关键技术,也是人工智能领域的重要研究方向。自然语言处理涵盖学科领域较广,涉及数学、语言学、计算机等多学科知识,其实质是在计算机科学与人工智能融合发展背景下形成的一种信息处理技术。本文分析了自然语言处理技术体系的整体框架,以及自然语言处理技术的主流方法,并研究了自然语言处理技术的应用领域,期望对推进自然语言处理技术的发展与应用有所帮助。

关键词:自然语言处理技术  机器学习  深度学习  卷积神经网络

中图分类号:TP391.1                              文献标识码:A                        文章编号:1674-098X(2020)03(a)-0141-02

随着机器学习方法的不断发展,传统的机器学习与深度学习都对自然语言处理技术产生了深远影响。与传统的机器学习相比,基于深度学习的自然语言处理技术更具有应用优势,可通过运用卷积神经网络实现对语言特征的自动学习,适用于复杂的自然语言处理领域,使自然语言处理技术在信息检索、智能问答、机器翻译等方面发挥出更大的应用价值。

1  自然语言处理技术体系的整体框架

自然语言处理技术是让计算机学习、理解并生成人类语言的一种技术,以实现对人类语言的智能化处理,提高数据处理效率,辅助人们解决各种文本处理问题。自然语言处理的整体框架主要包括以下四个方面:(1)篇章级。包括适用于单文档分析的文档分类技术、文档主题抽取技术、文档结构分析技术、文档语义表示技术,以及适用于多文档分析的文档聚类技术、文本相似度技术、PLSA主题模型技术等。(2)短串级。包括是适用于短串变换的同义词替换技术、语义归一化技术、纠错技术、省略技术,适用于短串解析的结构分析技术、Term重要性技术,以及适用于短串语义表示的短串语义表示技术、短串主题分析技术等。(3)Term级。包括适用于词法分析的分词技术、未登录词识别技术、词性标注技术,适用于Term语义表示的属性、语义,以及适用于Term关系的antology构建技术、词汇关系计算技术、同义关系技术等。(4)数据。主要来源于底层资源、公共数据、知识库和词典。

2  自然语言处理技术的主流方法

2.1 基于传统机器学习的自然语言处理技术

自然语言处理可将处理任务进行分类,形成多个子任务,传统的机械学习方法可利用SVM(支持向量机模型)、Markov(马尔科夫模型)、CRF(条件随机场模型)等方法对自然语言中多个子任务进行处理,进一步提高处理结果的精度。但是,从实际应用效果上来看,仍存在着以下不足:(1)传统机器学习训练模型的性能过于依赖训练集的质量,需要人工标注训练集,降低了训练效率。(2)传统机器学习模型中的训练集在不同领域应用会出现差异较大的应用效果,削弱了训练的适用性,暴露出学习方法单一的弊端。若想让训练数据集适用于多个不同领域,则要耗费大量人力资源进行人工标注。(3)在处理更高阶、更抽象的自然语言时,机器学习无法人工标注出来这些自然语言特征,使得传统机器学习只能学习预先制定的规则,而不能学规则之外的复杂语言特征。

2.2 基于深度学习的自然语言处理技术

深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征。

以短文本情感分析为例,在基于传统机器学习的自然语言处理中,普遍存在着因多义词引起的歧义问题,以及上下文信息缺乏问题,降低了短文本情感分析結果的准确性。而基于卷积神经网络的自然语言处理技术,能够对传统基于单词层面的卷积神经网络模型进行优化,加入单词和句子方面的特征,构建起基于单词加句子的卷积神经网络模型,通过输入向量化后的句子矩阵,提取更高抽象度的特征,并对相应的分类函数和全连接层进行结果分类,从句子整体角度出发理解多义词的含义以及整句语义,以完成文本情感分析过程。由此可见,基于卷积神经网络的自然语言处理技术能够减少网络模型的工作量,提高对比分析的性能。

3  自然语言处理技术的应用领域

3.1 应用于检索领域

在检索领域中,自然语言处理技术的应用体现在提高检索结果精确度方面。常规的搜索引擎存在如下缺陷,即用户以关键词的方式进行检索时,会出现大量无关的信息,不但影响了检索效率,而且还会占用一定的资源。而自然语言处理技术的应用,能够使搜索引擎更好地理解用户需求,检索效率随之提升。通过自然语言处理技术能够使搜索引擎变得更加智能化。

3.2 应用于数据整合领域

在数据整合领域中,自然语言处理技术的应用体现在提高数据处理质量方面。通过建立语料库,可对不同类型的自然语言进行处理,在此基础上能够使出输出的指令得到优化,给IT技术的扩展应用创造有利条件。同时,依托自然语言处理技术搭建相关的平台,按照具体的交互需要,构建相应的处理系统,在深入研究语法、语义等技术的基础上,增强平台的实用性,由此可使数据处理质量得到大幅度提升,自然语言处理技术的应用优势在此得以显现。

3.3 应用于语音识别领域

在语音识别领域中,自然语言处理技术的应用主要体现在提高语音识别系统有效性方面,借助语音能够对智能设备进行操控。如在飞机的飞行控制系统中应用语音控制操纵桿系统后,飞行员只需要输入语音指令,便可对飞机的飞行进行操控。由于不同的飞行员具有不同的语音习惯,为对语音进行准确识别,系统能够在线学习,对相关的数据进行整合。该系统在飞机上的运用,为智能化飞行任务的完成提供了条件,彰显出自然语言处理技术的价值。

3.4 应用于医学领域

在医学领域中,自然语言处理技术的应用主要体现在医学影像报告的信息提取中。通过自然语言处理技术能够将报告中有利用价值的信息提取出来,并进行整合,从而发现报告与临床信息之间存在的联系,为医师分析影像报告提供帮助。在应用自然语言处理技术对影像报告中的信息进行提取时,计算机会先对词汇进行分割,并对词根进行判别,完成词汇概念的识别,通过分析词汇的语义,得到相应的医学概念;特征提取完毕后,计算机会对提取结果进行自动检索,看其中是否存在目标概念,并判断是否能够基于这一概念推导出临床结局;完成特征加工后,要为计算机提供标准数据进行训练,提高其稳定性和准确性。

4  结语

总而言之,自然语言处理技术是信息检索和人工智能研究领域中的关键技术。自然语言处理技术要基于深度学习方法进行不断改进,以期在自然语言处理任务上达到更好的处理效果,并确保自然语言处理技术能够广泛应用于信息检索、数据整合、语言识别和医学等领域,从而促进人工智能在更多领域得以成功应用。

参考文献

[1] 王凌燕.自然语言处理技术的重要性研究[J].信息通信,2019(11):102-103.

[2] 麦家健,朱凌峰,莫毅宇,等.基于自然语言处理技术的警务情报文本挖掘分析[J].中国安防,2019(9):142-143.

[3] 葛运东,陈洪梅,姚建民.自然语言处理的技术和产业应用现状与趋势分析[J].产业与科技论坛,2019(9):150-151.

[4] 许鑫.自然语言处理技术在电网预案生成中的应用[J].云南电力技术,2019(8):82-83.

[5] 邓金.基于自然语言处理技术的邮件检测系统[J].数字技术与应用,2019(6):24-25.

猜你喜欢
卷积神经网络机器学习深度学习
基于深度卷积神经网络的物体识别算法
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究