浅谈声音识别模型发展趋势

2021-11-21 14:04卢林王东
汽车实用技术 2021年12期
关键词:神经网络深度算法

卢林,王东

(1.黄冈职业技术学院,湖北 黄冈 438002;2.中汽研(天津)汽车工程研究院有限公司,天津 300300)

引言

声音识别技术中主要包含语音识别和环境声音识别,语音识别的出现让人类和机器的交流变得更加智能和便捷。环境声音识别同样也在各领域取得了广泛的应用。如基于机器声音识别的故障诊断、基于道路交通声音识别的辅助驾驶等。目前实现声音识别的准备工作分别为特征参数的提取和构建识别模型。近年来,为提高声音识别准确率、识别速度,各种识别模型被提出,这项智能技术在不断地更新进步。

1 识别模型的发展

1.1 动态时间规整

在声音识别领域,早期采用的是语音识别中孤立词识别的方法,其原理是对一段输入信号进行逐帧单独识别,针对识别信号的长度各有不同的情况。上世纪60年代,日本学者Itakura首次动态时间规整(Dynamic Time Warping,DTW)算法应用到语音识别领域[1]。在识别过程中,不能简单的将输入的声音与模板直接比较,即使是同一种声音,其信号在时间长度上也不会完全相同,直接比较会降低识别率,因此可对声音信号进行时间规整,将待测声音信号伸长或缩短,直到与参考模板的长度一致。DTW算法基于动态规划(Dyna-mic Programming,DP)的思想,能够将输入信号的时长与模板的时长进行动态匹配,它也是声音识别技术中出现较早的一种算法[2]。

实验结果证明,将DTW算法应用到语音识别领域在对孤立词识别方面确实有着较好的识别效果,但其最明显的缺点在于这种方法实现需要对大量路径及这些路径中的所有节点进行匹配计算,从而导致计算量极大,随着声音样本量及样本长度的增大,其识别时间甚至将达到难以接受的程度,因此,无法直接应用于大、中样本量声音识别。同时,根据其优缺点,这种方法主要是应用于孤立词的识别上,对大词汇量的连续声音识别上其效果不太理想,所以,HMM/GMM等混合高速模型应运而生。

1.2 隐马尔科夫模型

隐马尔科夫模型(Hidden Markov Model,HMM)是目前声音识别中使用最普遍的统计模型之一。它对时间序列结构有着较强的建模能力,它不仅能描述不平稳声音信号的瞬态特征,还可以跟踪隐含在观测序列中的动态特征。HMM是一个双内嵌式随机过程,一个随机过程用来表示隐含状态链之间的转移,另一个随机过程用来表示隐含状态链和可见状态链对应的统计关系[3]。

HMM声音识别的步骤是先对输入的声音信号应用Baum-Welch算法训练其特征参数,从而使观测序列对HMM模型的输出概率最大化。同时应用这种算法还可以为每个输入的声音信号建立HMM模型参数,将所有声音的HMM模型参数组合起来,得到系统HMM模板库。然后使用Viterbi算法,将待测的声音和模板库进行模式匹配,搜索最优状态序列,并以最大后验概率为准则获得识别结果。

但是HMM模型更多的反应类别间的相似性,忽略了类别的差异性,因此具有较弱的分类能力和决策能力,同时其自适应性和抗噪性也较差。

1.3 高斯混合模型

高斯混合模型(Gaussian Mixture Model,GMM)使用高斯分布作为参数模型,精确地量化事物,它是一种将事物分解为若干的基于高斯概率密度函数形成的模型[4]。GMM用M个高斯分布的线性组合来刻画矢量的特征数据分布。

在建模过程中,首先要初始化GMM算法,即初始化GMM模型中的协方差矩阵、均值矢量和权重,得到一个不准确的初始化高斯模型,然后通过运行迭代算法的次数来不断缩小它的范围,更新模型的参数值,直到收敛,最终训练出模型的参数。GMM训练中使用的迭代算法为最大期望算法(Expectation-Maximization algorithm,EM),EM算法可通过非完备数据集合来估计模型参数,包含E-Step和MStep。其中,E-Step的功能是初始化模型,并根据给定的参数获得似然度;M-Step的功能是重估参数,利用最大似然准则使得似然度最大。重复迭代两个步骤直到收敛,训练出模型的参数。

GMM的优点是仅使用少量参数就能较好地描述对象的特征,声学模型较小,容易移植到嵌入式平台。但GMM的局限是计算量较大,收敛速度较慢。对异常点较为敏感,如果其中一个数据不服从正态分布,聚类算法会出现偏差,同时对训练数据量的要求较高。

1.4 支持向量机

支持向量机(Support Vector Machine,SVM)是一种基于统计原理开发的常用作分类器的浅层机器学习方法之一。在声音识别中,它可以看作是一种分类器,可以将两种或多种样本准确地分开,并使经验风险和真实风险都尽可能地小。

SVM算法的基本思想是在不同类的数据集上寻找一个最优决策超平面将不同类的样本分开,并使其距离不同类的分类边缘(平行超平面并过距离超平面最近的数据点)最大。当数据集线性可分或近似线性可分时,直接寻找最佳超平面,并使得错分点最少。当数据集线性不可分时,SVM将样本从原始空间映射到高维空间,使其在此空间内线性可分,然后寻找最佳超平面将样本集在此空间内区分开[5]。基于这种方法,其在解决小样本、非线性及高维模式识别中表现出许多特有的优势。

SVM在中小样本量训练集分类问题上能够得到比其它算法更优的效果,且可以解决样本维数很高的问题。但当特征数据为非线性问题时,SVM算法并没有固定的解决方案,遇到这种情况时往往采用网格交叉验证的思路来选择最优的核函数和其中的参数数值。此外在对大样本数据进行训练时其学习速度慢也是它的一个不足之处。

1.5 人工神经网络

人工神经网络(Artificial Neural Network,ANN)是自上世纪80年代以来人工智能领域兴起的研究热点,并迅速应用在声音识别、图像识别、文本识别等领域。它的原理是基于生物学中神经网络,在理解和抽象人脑神经系统结构和人脑神经系统对外界信息反馈机制后,以网络拓扑知识为理论基础,模拟人脑神经网络对外界信息处理机制的数学模型。ANN内部模仿人脑神经系统,它由大量神经元(节点)组成,每个节点表示一种特定的输出函数(激活函数),然后通过节点之间不同方式的连接组成不同的网络,并对信息进行分布式并行处理,从而复现大脑神经系统处理外部信号的功能。

基于ANN的声音识别系统内部除了包含神经元,还具有训练算法以及网络结构两大要素。ANN采用了多种现代信息技术成果,如并行处理机制、非线性信息处理机制和信息分布存贮机制等,从而达到高效率处理数据和自适应调节的功能,其中自适应调节功能主要表现在训练过程中可以不断调整自身的参数权值和拓扑结构,以适应环境和系统性能优化的需求[6]。在声音识别中使用的传统神经网络有BP神经网络、基于RBF神经网络等。

神经网络方法具有联想记忆功能和良好的容错性、高并行性、良好的自适应和自学习能力。然而,传统神经网络也存在许多缺点,例如难以准确分析神经网络的各个指标、不适合解决必须得到正确答案的问题、体系结构通用性差等问题。

2 深度学习在声音识别中的应用

HMM、GMM、SVM与浅层神经网络等,归根结底都是属于浅层机器学习模型,这些浅层结构在处理内部结构不复杂,在解决约束不强的数据时通过提取相应特征进行训练可取得较好的效果,但是在声音识别中若遇到信号本身结构复杂的数据时,基于这些方法得到的训练模型会存在数据表征能力不强的现象,最终的识别效果也会有所欠缺,这促使了深度学习(Deep-Learning)的诞生和其在声音识别领域的快速发展。

深度学习的概念是由神经网络大师Hinton和其学生于2006年正式提出,基于深度学习的方法在ImageNet 图像识别大赛中屡建战功。不仅在图像识别上,后来也被延伸应用到声音识别领域,现已成为国际研究的新热点。从本质上讲,深度学习是建立一个具有多个隐藏层的机器学习架构模型,通过大规模的数据训练,提取更具代表性的特征。与传统神经网络限制网络的层数不同,深度神经网络可根据设计者的要求,选择任意的层数。

目前,在基于深度学习方法的声音识别中,逐渐开发出循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)和深度置信网络(Deep Belief Network,DBN)双向长短期记忆(Bidirectional Long-Short Term Memory,LSTM)等。

深度神经网络根据其运行原理可以接受比传统神经网络大很多的输入数据维度,并且它可以自动学习数据的特征,在声音识别中显著缩短了特征提取的时间,同时伴随着计算机GPU的发展,深度神经网络的训练时间也不断减少,极大地提高了声音识别的效率。

3 声音识别模型未来发展趋势

深度神经网络是传统神经网络技术的极大突破,同时在大数据时代也为声音识别模型提供了一个新的发展方向。未来声音识别模型主要以深度神经网络声学模型为基础进行更深入地研究与改进。

首先是对更深更复杂的深度神经网络的开发研究,虽然以目前的计算能力,在实际声音识别中还不能取得很好的应用,但这是推动深度神经网络进一步发展的必然趋势。Deep-CNN是目前声音识别模型领域最主要研究的一种模型,微软、百度、IBM公司相继推出了自己的Deep-CNN模型,推动着神经网络向更深层发展。

其次是混合模型的使用和改进,将不同模型结合使用,取长补短,达到更好的识别效果。已被应用的混合模型有传统的GMM-HMM模型,随着ANN的提出,80年代晚期Morgan提出了基于ANN-HMM的混合模型。随着近年来深度神经网络的飞速发展,基于DNN-HMM的混合模型成为了主流的算法。

最后是粗粒度建模技术的出现和发展,这是近期出现的一种新的声学模型技术,粗粒度建模技术可以极大加快声音识别的解码速度,解码速度的提升使得应用更深和更复杂的神经网络建立声学模型成为可能,这是提高识别速度的尖端技术之一。

4 结语

识别模型的建立是开展声音识别工作中至关重要的一步,它直接关系到最终目标识别效率。识别模型从开始的动态时间规整,到隐马尔科夫模型、高斯混合模型、人工神经网络等浅层模型的转变,再到将深度神经网络强大的特征提取与分类能力应用到声音识别中。目前,基于深度神经网络的模型已经成为了声学建模的主流,并随着计算机技术的发展而不断进步。

猜你喜欢
神经网络深度算法
基于神经网络的船舶电力系统故障诊断方法
基于人工智能LSTM循环神经网络的学习成绩预测
四增四减 深度推进
深度思考之不等式
MIV-PSO-BP神经网络用户热负荷预测
Travellng thg World Full—time for Rree
简约教学 深度学习
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
学习算法的“三种境界”
算法框图的补全