基于深度学习的环境声音识别

2018-10-20 11:01史秋莹郑铁然
智能计算机与应用 2018年5期
关键词:浅层神经网络音频

史秋莹 郑铁然

Abstract: Environment Sound Recognition(ESR) is an efficient way to perceive surrounding scenes, which is widely used in many application scenarios like robotic navigation, mobile robots, audio retrieval, audio forensics and other wearable, context-aware applications. Classifiers used in most ESR problems is too simple to express features and classify the environment sounds accurately. Deep Neural Network(DNN) is a multilayer, efficient neural network, which also can provide a better way for describing features and solving pattern recognition problems. In this paper, deep learning is used in ESR problem, and for sufficient using audio features, different audio features are fusioned by feature-fusion method. Based on the above, the paper classifies the environment sound by training the Deep Belief Network(DBN). Experimental results show that DBN and feature-fusion method could achieve better performance.

引言

第一次以文学形式记载下来的环境声音识别的研究出现在1997年,具体是由来自麻省理工学院(Massachusetts Institute of Technology, MIT)的Sawhney和Maes首度提出并创建问世[1],该研究的数据库使用包括人群、地铁、交通、人声和其它5种语料,而且利用循环神经网络(Recurrent Neural Network, RNN) 和K-近邻(K-Nearest Neighbor, KNN) 方法分别进行5种环境声音的分类,最终使用频带特征和RNN 分类器获得68%的准确率。1998年,同样来自MIT的研究者通过在去往超市途中和在超市内佩戴麦克风的方式获取连续的语音流,并对获取的语音流加以分割,得到不同的特征地点如街道、房间、超市等总共10类场景,为了进行环境场景的分类,研究选用了隐马尔科夫(Hidden Markov Model, HMM)[2]。同时,实验心理学领域的研究者着重研究人们理解和感知声音场景的过程,Ballas 发现识别音频场景的速度和准确率與自然声音的刺激、发生频率等因素直接密切相关[3]。Peltonen等人则发现人们识别音频场景是受特定的声音事件的效果影响的,如人类说话声、汽车引擎轰鸣声等,同时还在识别25类声音场景中获得70%的准确率,平均响应时间为20 s[4]。在心理声学相关研究以及MIT研究者[1-2]的影响下,环境声音识别受到了广泛的关注。

目前在环境声音识别问题中,已推出了一些成熟解决方法,如GMM、HMM、KNN 等,这些都属于常用的机器学习方法。但是这些架构都是浅层结构,可以对简单问题或者完全约束问题取得良好的效果。但是当处理复杂的自然信号如环境声音、自然语言时,由于缺少对复杂信号的表达能力和建模能力,浅层模型往往无法满足识别性能的要求。而从浅层学习到深度学习的过程则可以视作为机器学习的一条清晰发展脉络。

1962年,由Rosenblatt 第一次引入感知器, 从此感知器作为神经网络中的一个分支概念[5] 而进入学界视野。在此基础上,Raudys提出单层感知器[6],其中只包含输入层和输出层,且两者直接相连,而单层感知器也是一种最简单的神经网络。1989年提出的多层感知器[7],组成结构即是在单层感知器的设计上加入了一层隐藏层,多层感知器是最早具备深层结构的神经网络。在1986年,由Rumelhart等人提出误差反向传播算法(Error Back Propagation, BP)[8],给基于统计模型的机器学习带来了发展契机,但是BP 算法并不适用于多个隐藏层的网络,所以在20世纪80年代末期,虽然找到了求解神经网络权值的有效方法,但却只能继续应用在多层感知器上,并不能从本质上脱离浅层网络。由于受到这一现实问题阻隔,神经网络的研究曾一度搁置,转而研究支持向量机(Support Vector Machine, SVM) 和条件随机场(Conditional Random Field, CRF) 理论等其它浅层机器学习方法,而这些浅层网络及相关理论的研究为深度学习的研究提供了良好的理论依据和经验基础。

玻尔兹曼机(Boltzmann Machine, BM) 由Hinton 和 Sejnowski 在1986年成功构建推出的[8],且是一种基于统计力学的随机神经网络。同年,Sejnowski又进一步提出了RBM[9]。RBM 是包含有一个可见层、一个隐藏层的层间全连接、层内无连接的网络,并具有许多优良的性质,其中的重要成果即是文献[10],从理论上证明了只要隐藏单元足够多,RBM 可以拟合任意离散分布。而2002年提出的对比散度算法(Contrastive Divergence, CD)[11],也由此而吸引了研究者对RBM 以及CD 算法的研究瞩目。直到2006年,深度学习才正式亮相,在学术领域占据一席之地。另外,Hinton的研究表明训练一个全连接的深层网络是完全可行的[12]。从2006年开始,深度学习作为一个新的机器学习领域受到了更多学者的青睐,也已开始陆续应用在语音处理、图像处理等众多研究领域中,而且均已取得了丰硕成果。

综上研究可知,深度学习已经具有完整的理论框架和丰厚的经验基础,将其应用在环境声音识别中即已成为呈现利好应用前景的研究尝试。本文拟对此展开如下研究论述。

1说话人识别基本框架

基于深度学习的环境声音识别流程如图1所示。流程中包括音频输入、前端处理、DBN分类和分类结果4个部分。文中重点论述了前端处理和DBN分类这2部分内容。其中,前端处理包括梅尔倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)和能量谱密度(Power Spectral Density, PSD)的提取,并在提取后进行特征拼接。研究过程详见如下。

1.1前端处理

声音信号是带有声波频率、幅度变化等信息的载体,声音信号的前端处理过程主要是对音频信号进行特征提取。声音信号除了根本性的基频、谐波、幅度等特征外,当特定对应于不同问题,也需要提取一些符合具体问题背景的音频特征。特征提取的目的是为了去掉原始音频数据中的冗余信息,减少实验数据量,而在进行音频特征提取时,往往可以从时域和频域2个方面分别考虑。音频信号在时域上的变化较为快速,不易观察,而在频域上通常可以假设音频信号在一个较短时间内具有稳定性,所以音频信号的前端处理过程往往选择在频域上获得实现。

在环境声音识别问题中,MFCC 特征较其它音频特征常常更显研究优势,本文在MFCC 特征的基础上,尝试加入其它音频特征以提升识别性能。在本文中即选择使用了能量谱密度(Power Spectral Density, PSD) 特征与MFCC 特征融合。为此,在本节中将首先给出MFCC 特征和PSD 特征的研究阐释,然后对音频特征的拼接方法提供完整的设计表述与分析。

1.1.1梅尔倒谱系数

20世纪40年代,Stevens 和 Volkmann 的研究表明,人类对于不同频率的声音反应有不同的听觉灵敏度。在1 KHz以下,听觉系统所感知的声音频率(Mel)与该声音的物理频率(Hz)逼近于线性关系;而在1 KHz以上,声音频率与物理频率不再遵循线性关系,而是接近于对数关系,且声音频率越高,人耳的听觉灵敏度越差[13]。基于这一理论事实,1980年,文献[14]全新提出了MFCC 特征,重点用于刻画声音在Mel 刻度频率上提取得出的倒谱系数,此外,MFCC 还可以对卷积信道产生的失真生成良好的补偿能力。总地来说,MFCC就是将人耳的听觉感知特性和语音的产生机制二者相结合。由此可知,人耳对于高频率声音的听觉灵敏度较差,故而,在实际应用中,往往只保留低频MFCC 特征,而舍棄高频MFCC 特征。MFCC的提取过程如图2所示。本文设计的主要流程包括6个部分,分别为:音频预处理、快速傅里叶变换(Fast Fourier Transform, FFT)、取模平方、通过Mel 滤波器组、取对数能量和离散余弦变换(Discrete Consine Transform, DCT)。

猜你喜欢
浅层神经网络音频
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
2004—2017年瓦房店浅层地温变化特征分析
基于自适应神经网络的电网稳定性预测
YL区块某探井浅层气危害评估
车载电子系统中多路音频控制的研究与实现
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
近30年陈巴尔虎旗地区40厘米浅层地温场变化特征
“摇一摇”你摇对了吗?
使用EDIUS 5 iZotope VST插件去除录音噪音