面向自然语言处理的深度学习

2018-02-25 14:27薛亚非
电子技术与软件工程 2018年12期
关键词:自然语言处理机器学习深度学习

薛亚非

摘要 近年来,在语音和图像处理领域中,对于深度学习的研究现已取得突出成就,但在自然语言处理领域中,还尚未取得重大突破。基于此,文章主要从学习定义、应用动机、基本框架等方面入手,对深度学习进行了全方位介绍,同时还对面向自然语言处理的深度学习进行了深入研究。

【关键词】自然语言处理 深度学习 自动编码器 神经网络 机器学习

所谓“深度学习”,即通过深层神经网络的建立,对人体大脑机制进行模拟,并分析文本、语音、图像等数据。在现阶段的机器学习研究中,深度学习是一个重点热议的话题。在传统机器学习工作中,其质量和效果与输入特征和人工设计数据息息相关,而机器学习的方法只是对学习权重加以优化,从而输出最优学习结果。而深度学习可自动完成特征提取和数据表示工作,并提倡通过学习来提取出不同维度和不同水平的有效表示,从而不断提升对数据的解释能力。从认知科学的角度分析,深度学习的思路与人们的学习机理十分契合,本文主要研究了面向自然语言处理的深度学习。

1 深度学习概述

1.1 深度结构

相比于以往的浅层学习,深度学习在具体实践的过程中,对模型的深度具有较高要求,基本上均要求具备3层以上隐层节点,甚至是可以达到10层,从而可形成多层非线性映射结构,为复杂函数的逼近提供了便利条件。另外,深度学习十分重视特征学习,通过非监督预训练的方式,改变原始样本的特征,形成一个全新的特征空间,这种新特征更加有助于预测和分类的实现。另外,生成性预训练,也可有效防止由于网络函数表达能力而导致的拟合问题。

在深度學习中,关于“深度”,其主要是来源于流图的属性表示,而流图可对输入、输出过程中涵盖的相关计算进行表示,经过节点计算,原始输入产生的结果,可被作为下一节点的输入,以此类推。

将深度结构作为一种因子分解,随机状态下选取的函数,通常很难通过网络结构进行表示,但相比于浅层结构。深度结构表示的有效性更高。相关人员预测,在这些不能用浅层结构表示而可以用深层次结构表示的函数中,极有可能存在某种结构,能够通过深层结构进行泛化表示。

1.2 应用动机

将待处理问题中的对象通过特征进行表示,是应用任务的首要工作。在对文本分类进行处理的过程中,人们经常会通过词结合特征对文档进行表示和描述,之后通过各种各样的分类算法完成分类。而在处理图像任务的过程中,最常见的便是通过像素集合特征的方式来表示图像,不同的特征对最后的结果也会产生不同的影响。因此,人们在解决实际问题的过程中,选择恰当、合理的特征至关重要。

在很多训练任务中,如本文、图像、语音等等,以图像识别为例,图像的像素是最初的原始输入,其他的相邻的像素可以一同构成线条,而由线条的结合又可形成纹理,最后形成图像。而通过局部的图像还能构成一个完整的物体。通过整个过程不难看出,浅层特征和原始输入之间的关联和很容易找到,在此前提下,借助中间层的相关特征,能够获得高层特征和原始输入之间的关系。

以往的机器学习方式,对于特征表示的依赖性较强,自动组织信息和抽取信息的能力较弱,通过人工选择,虽然能够借助人类的经验知识和智慧来弥补这一不足和缺陷,但若想达到深入理解问题的层次,相关研究人员仍需花费大量的时间和精力。而这也在很大程度上限制了机器学习向智能化学习的方向发展,因此,从能够观察到的感官数据中,解释或者是识别相关特征,逐渐摆脱选择人工特征的局限性,也逐渐成为了深度学习过程中的重要思想。从某种意义上来看,能够具备自动化学习功能的学习方式,均可被纳入深度学习范畴。

1.3 首要任务

对于深度学习而言,其首要任务是找寻一种简单、便捷的算法,能够对待解决问题进行分层表示,通过特征的变换.将原始样本的特征逐渐转变换到一个全新的特征空间,如此便可更加方便的借助特征,来完成预测和分类任务。由此也凸显了表示学习和特征学习的重要性,这一思想与传统的机器学习方式相一致,但差异在于,深度学习可自动的提取特征,但以往的机器学习,对于人工分析的依赖性较强。自动化程度较低。深度学习会学习数据的变换形式,在预测器或者分类器构建的过程中,更加容易获取价值信息。

2 面向自然语言处理的深度学习研究及其应用

在语音和图像领域中,对于深度学习的研究现己取得显著成就。但在自然语言处理领域中,还未取得重大进展,不同于图像,语言产生于人的大脑,经过一系列的加工和处理之后形成符号系统,在自然语言领域中,人工神经网络对人脑结构的模仿具有突出优势,但现实却并非如此。最近几十年来,自然语言的处理基本都是以统计模型为主,而人工神经网络作为一种传统的统计方式,却并未在自然语言处理领域中得到相应的重视。

2.1 深度学习的可用性研究

2.1.1 特征表示学习需求

在自然语言处理任务中,首要工作便是对对象的表现形式进行处理,为了能够更加精准的描述和表示对象,一般会选择一些特征,如在处理文本的过程中,经常会使用词集合对文档进行表示,结合传统手工方式的抽取特征,不仅浪费时间和精力,且整个过程也比较缺乏严谨性,完备性不足。另外,处理领域和处理任务的不同,特征提取也要重复的进行,难以实现共享。而深度学习主要就是为了解决上述问题而产生,即要实现自动化的从数据中获取特征的目标。

2.1.2 无监督特征和权重学习需求

目前,很多效果显著的自然语言处理任务和学习方式,均是比较依赖于标注数据,在此情况下,有监督学习方式和标志语料库逐渐成为重要的主流手段。但在实践应用过程中,若想从自然语言中大量存在的标注数据中获取或挖掘价值信息,就一定要提升对无监督方法的重视程度。而深度学习便是通过该方式完成了预训练任务,并提供出了恰当的训练模型。

2.1.3 学习多层分类表示需求

研究表明,大脑结构可辅助人们完成学习,其属于一种多层的皮质层,不同的皮质层,其所对应的学习表示结构各不相同。表示越抽象,便越能够交叉支持具体任务处理,因此,一定要充分的利用好学习模型,并要尽可能多的抽取其中的价值表示形式,通过深度学习能够很好的完成上述目标。

另外,人类的自然语言具有一定的递归属性。例如,自然语言中的句子,一般是由短语、字词等共同组成,而深度学习确可为其提供了一种较为便捷的递归操作,同时可充分满足自然语言递归组合的实际需求,如递归神经网络。

2.1.4 硬件及技术支撑平台

深度学习机构是由很多的神经网络节点共同构成,其在进行预训练的过程中,一般需要得到高性能计算机的辅助和支持。随着科学技术的不断发展,目前,能够提供高性能计算机的平台逐渐成熟,具体如图像处理单元、多核计算等等。提供算法支持技术也获得了快速发展,如Auto-encoders、RBM等等。与此同时,自然语言处理的预演算法和模型也得到了优化,其性能得到了显著改善。随着软硬件技术的不断发展,均为面向自然语言处理的深度学习研究提供了良好环境。

2.2 面向自然语言处理的深度学习研究模型

若想实现深度学习在自然语言处理领域中的有效应用,首先要解决以下问题,

(1)应用领域内的原始特征表示;

(2)要选择恰当、合理的深度学习算法。

前者隶属于数数据表示的范畴,而后者则是隶属于深度学习结构的范畴,即深度学习模型。例如,在处理图像的过程中,在选择原始特征表示时,一般会以图像像素矩阵为主。而在处理于语音任务的过程中,则通常会优先选择基本语音单位,最为典型的便是音素。同时,还应对深度学习框架加以明确。

结合上述可知,深度学习的主要任务是特征学习,而从本质上来看,这种学习模型实则是属于一种基于原始特征的输入,经过多层非线性处理,对复杂的特征表示方式进行学习。如果能够与特定的领域任务进行结合,则深度学习一般可借助自动学习的特征表示,对新型分类器进行构建,同时还可自动生成工具,从而完成更多领域的任务。例如,在逐层训练中,自动编码器构建属于最核心、最关键的部分,在构建深度学习模型的过程中,自动编码器发挥着神经网络的作用和功能。

2.2.1 无监督构建自动把编码器

在确定了原始输入之后,第一层为训练模型,在整个模型中扮演着认知结构的角色,可对原始输入进行编码,从而形成初级特征。为了对编码之后特征的等价抽象表示进行验证,并没有丢失过多信息,一般情况下会引入一个相对应的解码器,通过其实现与原始数据输入的比较验证,而验证之后的结果误差就是代价函数,可将其应用于解码器和编码器的训练中。在达到训练目标之后,所确定的参数神经网络编码器便是第一层模型,由此也可获取原始数据的抽象表示。完成上述操作之后,需将神经网络编码器参数进行固定,将抽象输入当做输入,重复上述操作,以此类推,便可获取第二、三层的模型,直到满足训练的要求为止。

2.2.2 有监督训练分类器

通过上述操作能够获得自动编码器,且原始输入信号也有很多表达特征,而这些特征便可用来表示原始输入信号。但目前,自动编码器,还不具备分类功能,为了弥补这一缺陷和不足,一般可在自动编码器的最高层增加分类器。调整参数的方式包括:对最高层分类器参数进行调整;结合标签样本,对所有自动编码器参数进行调整。深度学习模型的存在局部最优解,通过逐层初始化的方式,可对深层模型进行调整,使其达最佳优解位置,从而为最优效果提供保障。而浅层模型对于人工经验的依赖性较强,而这也是其局限所在,模型自身只是一种预测和分类工具。因此,在浅层模型系统中,模型的好坏并不能起到决定性的作用,选取特征的好坏才是重点。相关人员在对上述问题进行研究的过程中,不仅要全面深刻的了解任务领域的相关问题,同时还需要花费大量的时间和精力对实验进行反复探索。实质上,逐层初始化模型也是特征学习的过程中,借助隐蔽层,对原始输入进行抽象表示,并对数据结构进行学习,寻找有效特征,从而不断提升分类问题的精确性,在得到有效特征之后,也就完成了模型的整体训练

面向自然语言处理的深度学习研究,也应重点考虑上述相关问题,在应用领域内的原始特征表示问题上,包括此词向量空间、向量空间模型、词贷模型等表示方式。在深度学习算法的问题上,一般要结合语言的实际特征,来选择一种合理的深度学习模型。人类的自然语言具有一定的递归属性。例如,自然语言中的句子,一般是由短语、字词等共同组成,因此,这种递归属性也是自然语言所具备的特征。基于该特性的深度学习模型包括卷积神经网络模型、递归神经网络模型以及循环神经网络模型等等。

综合衡量了上述问题之后,在自然语言处理领域中的深度学习方式如下:

(1)在深度学习模型构建过程中,通过原始特征的应用,对端对端系统进行构建,从而逐步完成处理任务。

(2)在现有模型的基础上,将完成训练的原始特征作为辅助特征并进行实践应用。

在方法一中,较为奠定的代表是SENNA系统,以多层一维卷积神经网络和向量方法为基础和前提,逐步完成了命名实体识别、语块切分、词性标注等相关工作任务。类似的工作还包括Socher,即以递归神经网络为基础完成语法分析、情感分析等多项工作。在第二种方法中,较为典型的如Turian,即将词向量加入最优系统中,从而不断提升短语识别和命名实体识别的精准性和效率性。

3 结束语

综上所述,不同于图像处理,自然语言分层抽象并不突出,深度学习在自然语言处理领域中所选取的特征表示,目前以Wordembedding机制为主,实践过程中还存在着一定问题,但总而言之,深度学习为自然语言处理提供了全新的尝试,可行性较高,如此也使得语言和任务之间的泛化迁移变得更加容易。

参考文献

[1]林奕欧,雷航,李晓瑜等,自然语言处理中的深度学习:方法及应用[J].电子科技大学学报,2017,464: 45-963.

[2]昝红英,朱学锋,面向自然语言处理的汉语虚词研究与广义虚词知识庫构建[J].当代语言学,2014,4265:124-135.

[3]巩捷甫,面向语文作文自动评阅的修辞手法识别系统的设计与实现[J].哈尔滨工业大学,2016,45: 63-362.

[4]陈致鹏,面向小学生阅读理解题型的智能解题系统研究与实现[J]哈尔滨工业大学,2016,74-455.

[5]郭鹏.深度卷积神经网络及其在手写体汉字识别中的应用研究[J],四川师范大学,20164,45: 88-654.

猜你喜欢
自然语言处理机器学习深度学习
基于组合分类算法的源代码注释质量评估方法
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究