单通道语音增强技术的研究现状与发展趋势

2020-11-26 03:58许春冬徐琅周滨凌贤鹏
江西理工大学学报 2020年5期
关键词:语音噪声神经网络

许春冬,徐琅,周滨,凌贤鹏

(江西理工大学信息工程学院,江西 赣州 341000)

0 引 言

语音是带有特定信息的模拟信号,能够传递信息与沟通感情,是一种有效的直接的沟通方法。但在实际环境中,语音信号在产生和通信过程中往往包含环境的噪声、传输媒介的噪声以及设备噪声等。这些噪声在语音传播过程中会对信号产生较大影响,造成语音质量和可懂度降低,因此研究通信系统中的语音增强具有重要的意义[1]。

语音增强是在环境噪声中提取有用的语音信号,通过一定的方法来降低噪声的干扰,以提升增强后的语音质量和可懂度。实际生活中,可根据不同的噪音环境,使用不同的语音增强方法,以得到最好的增强效果[2]。

语音增强技术作为信息学科领域的核心技术之一,主要用于增强被噪声污染的语音的清晰度和可懂度。近年来,计算机技术的快速发展和趋向成熟,语音增强的实时处理成为可能,还普遍应用于无线电话会议、手机、娱乐游戏、多媒体应用、智能家电、场景录音和军事窃听等领域[3]。实际应用中,一般在语音处理系统进行语音增强预处理,用来提升系统抗干扰能力。例如,在公共场合的电话通信中,通过在接收端口使用估计噪声干扰模型来滤除噪声,达到增强语音的效果并保证语音质量;电子耳蜗设备利用基音估计和耳蜗滤波仿真模型降低噪声,能提供较高质量的语音信息;医疗设备中使用语音增强器来降低噪声的影响,以达到更好的治疗效果;军事探测中,使用语音增强模型更好地接收语音信息,更准确地破解信息。

语音增强并非是一个简单的对纯净语音的恢复过程,其中涉及的理论算法和技术操作是复杂而广泛的。传统的语音信号处理方法研究语音增强存在一些前提假设条件,研究的泛化性不够。近几年兴起的深度学习方法语音增强信号,显著提升语音信号的质量和可懂度。语音增强的研究取得了大量的研究成果,但复杂噪声环境下的单通道语音增强仍然是一个挑战性的问题。

本文主要从单通道语音增强技术发展进程来进行论述,详细介绍语音增强基础知识以及语音增强算法的发展历程,包括传统单通道语音增强算法和有监督的语音增强算法,最后提出对语音增强技术的展望。

1 语音增强

1.1 模型描述

语音增强可以看成是一个将带噪语音信号恢复成纯净语音信号的过程。其目的是找到稳健的语音特征和基于模型参数适应化的噪声补偿方法,以抑制背景干扰噪声并得到尽可能的纯净语音信号[4]。其系统模型框图如图1所示。设带噪语音信号、纯净语音信号和噪音信号分别为 y(t)、x(t)、n(t),则带噪语音 y(t)表达式如下:

对式(1)进行傅里叶变换处理,得:

其中,w为角频率。经过语音增强处理系统得到增强后的语音 x(nˆ)。

1.2 噪声类型

噪声是指在实际生活中对人们产生干扰的声音,在不同的应用场景中,不同噪声对语音干扰也不同,噪声可以有多种不同的分类方法。①按干扰方式分为加性噪声和乘性噪声。加性噪声是指噪音对语音造成干扰的形式是以时域内相加的方式存在,乘性噪声是指噪音对语音造成干扰的形式是以频域内相乘的方式存在,时域以卷积的方式存在,也可称之为卷积噪声。②按照噪声统计随时间变化的特性来分类,可分成周期噪声、脉冲噪声、缓变噪声和平稳噪声。周期噪声一般来源于发动机周期性运转的机械、电气干扰,一般可采用自适应滤波的方法来识别和区分;脉冲噪声一般来源于爆炸、撞击、放电及突发性干扰,一般采用时域相关的方法来消除;缓变噪声是常见的噪声,其噪声相关特性会随时间变化很慢;平稳噪声具有稳定噪声特性,不会随时间变化[5]。

1.3 语音质量评价标准

图1 语音增强系统模型框图

评价增强后的语音信号的质量,包括两方面的内容:清晰度和可懂度。清晰度是比较语音中字、单词和句的清晰程度,而可懂度则是对听者的辨识水平。传统的语音系统选择信噪比 (Signal-Noise Ratio,SNR)和分段信噪比(Segmental SNR,SSNR)参数来权衡语音质量的好坏。信噪比表示语音设备的输出信号电压与同时输出的噪音电压之比。信噪比越高表明系统产生的杂音越少,混在信号中的噪声越小,声音的音质越高,否则相反。由于噪声混在有用信号中难以分开和完全消除,仅利用信噪比来评价语音质量是不全面的。因此,引入语音通信质量评价方法来全面综合地评价语音质量。语音质量评价方法可分为主观评价和客观评价两大类[6]。

1)主观评价

主观评价是通过等级评价标准来划分音质,选择试听者判断比较纯净语音和增强后的语音。主要包括听觉判断法和频谱视图分析法比较。听觉判断是利用人耳听觉系统直接对原始信号与增强信号进行相似程度评估。频谱视图分析法是直接比较纯净信号与增强信号的语谱图,进而得到其在静音段和帧间的反馈信息。

主观评价方法的感知主体是人,所以此评价准则只体现了人对语音质量的感知,但存在缺点是易受外界条件的影响,且不利于对通信网络和通信设备进行评价。最广泛的主观评价方法是分级判断方法,使用5分制度对测试信号的质量进行评估,最终测试信号的质量是计算对所有试听者的评分的均值。该平均意见得分(MOS)的测试方法能够比较准确地反映听觉感知,但太费时费力,并且测试效果受测试环境和试听者的主观感受有关。

2)客观评价

客观评价是通过比较纯净语音和处理后的语音之间的“距离”来量化语音的质量。使用客观评价方法主要有信噪比(SNR),分段信噪比(SSNR),对数谱失真(Log-Spectral Distortion,LSD),语音质量的听觉评估 (Perceptual Evaluation of Speech Quality,PESQ)[7],短时客 观可 懂 度 (Short Time Objective Intelligibility,STOI),基于线性预测编码的谱距离测度(Linear Predictive Coding,LPC),加权谱斜率(Weighted Spectral Slope,WSS)距离测度。

客观评价系统的设计一般是以主观评价为基础,并借鉴了主观评价主体的感知功能和智能特性[8]。对语音增强系统质量的评价是将主观评价和客观评价结合来判断分析。通过指标比较来判断增强算法的性能,进一步比较出各种增强算法的优劣。

2 传统单通道语音增强技术发展

在传统单通道语音增强方法中,为解决通信过程中叠加的噪音,可从时域和频域进行分析[9]。其中传统单通道语音增强系统的框图如图2所示。

从时域上来看,语音增强方法分为基于参数与模型的方法和子空间法。基于参数与模型的统计方法是利用语音和噪声的统计特性,一般先要建立模型库,通过训练获得初始统计参数[10]。这种方法要求数据库足够大,才能得到比较准确的统计参数值。且在低信噪比的时候,难以对模型的参数进行正确估计。子空间方法是在假设纯净语音信号和噪声信号的子空间是正交的,通过去除噪声子空间的信号分量以增强带噪信号的语音质量,然后估计出高质量的语音信号。但这种基于子空间正交的假设下,并且在短时的情况下是非常不够精确的。从信号子空间中估计纯净信号,对带有音乐噪声的语音信号的增强效果并不显著[11-14]。

图2 单通道语音增强系统模型框图

从频域上分析,语音增强方法可分为谱减法、维纳滤波法以及自适应滤波法等。谱减法是从带噪语音的功率谱中减去噪声功率谱,得到较为纯净的语音频谱。其前提条件是假定加性噪声与短时平稳的语音信号相互独立条件[15]。维纳滤波法是基于最小均方准则的信号估计算法,只要确定滤波器的冲激响应,带噪语音信号经过该滤波器后便得到最接近于纯净的语音信号[16-18]。自适应滤波法不需要提取噪声或者纯净语音的先验统计知识,直接利用随机梯度下降的方式进行最优解的逼近,而在大多数情况下,噪声或者纯净语音先验知识无法获得。传统频域语音增强算法在平稳环境及较高信噪比下能够取得较好的效果,但是在非平稳环境及低信噪比下容易产生失真,或残留噪声较多[19],或存在畸变现象[20-22]。可通过对低信噪比的增益矩阵进行优化,减小先验信噪比高估,降低畸变对语音的影响,以此提高语音的可懂度[23]。

在时域和频域对带噪语音进行去噪方面相关的研究算法很多,但仍存在去除噪音不够彻底,应用性不强的问题。在此研究基础上有学者提出了将时域与频域方法结合的算法,如一种将子空间法和维纳滤波相结合的增强方法,对带噪语音进行两级增强,以达到减少残留噪声和提高语音质量的目的[24-25]。对于非线性和非平稳信号的语音增强问题,可以选择基于经验模态分解(EMD)理论增强方法[26],将总体平均经验模态分解和小波阈值去噪思想相结合,进一步提升语音增强效果。

传统语音增强方法一般是在基于其幅度谱进行分析与研究,近几年Singh S等提出对语音信号的相位进行分析[27],考虑相位信息对于提高语音的感知质量的重要作用,利用改进相位谱补偿算法对语音频谱进行补偿,计算语音存在概率算法估计噪声功率谱密度,应用在维纳滤波中,提高了语音系统的去除噪声能力[28]。传统模型中在其增强部分的接收端处采用自适应滤波器,利用其通过统计噪声的统计特性自动调整本身参数,来达到最佳的语音滤波效果[23]。为进一步提高增强语音的听觉效果,张金杰等提出一种基于听觉掩蔽效应的语音增强方法[29-30],在利用一个功率谱域的不等式准则,来调整语音短时谱幅度估计器的参数值,通过这个参数对语音谱幅度进行估计实现语音增强,能更好地抑制背景噪声。

3 监督性单通道语音增强技术发展

监督性学习即是给出学习的目标结果,通过对数据集的训练,找到其输入与输出之间的规律,然后对测试样本使用这种规律。对语音增强这类回归问题,监督性语音增强系统可以看成从一个学习模型中学习从带噪特征映射到增强目标的函数。监督性的语音增强模型分为浅层模型和深层模型。浅层模型主要有高斯混合模型 (Gaussian Mixture Model,GMM)、 隐马尔可夫模型 (Hidden Markov Model,HMM)、 支 持 向 量 机 (Support Vector Machine,SVM)、非负矩阵分解(Nonnegative Matrix Factorization,NMF)和传统人工神经网络(Artificial Neural Network,ANN)等。深层模型主要有深度神经网络 (Deep Neural Networks,DNN)、卷积神经网络 (Convolution Neural Networks,CNN)、循环神经网络 (Recurrent Neural Network,RNN)、长短时记忆神经网络 (Long Short Term Memory,LSTM)和生成对抗网络(Generative Adversarial Net,GAN)等。

3.1 基于浅层模型的语音增强算法

早期的浅层模型,主要通过对带噪时频单元的分布进行概率建模或者鉴别性建模,或者直接对输入的带噪特征数据进行矩阵分解,挖掘非负数据中的局部基表示,从而估计混合数据中语音和噪音的成分。例如高斯混合模型是一种通过高斯概率密度函数来进行划分的数学模型,与之类似的隐马尔可夫模型是一种统计的数学模型。这种基于GMM、HMM的语音增强方法是通过对输入的带噪时频单元分布建立概率模型实现语音增强[31-33]。支持向量机是按照二元线性分类标准对数据进行划分,将基于SVM和小波分析[34]结合可用于实现语音增强。非负矩阵分解[35-36]是利用矩阵分解的方法对信号进行处理,在对纯净语音和噪声独立训练的前提下,通过构造信号基,将其作为增强阶段的先验信息,然后处理带噪语音,得到增强后的语音。由于非负矩阵分解是一个浅层的线性模型,很难挖掘语音数据中复杂的非线性结构,且非负矩阵分解的计算复杂度高[37]。

浅层模型不具备从数据中自动提取有用特征的能力,对样本特征抽取比较依赖人工经验或特征转换等方法,对高维数据的处理能力有限,很难对其上下层特征挖掘更多数据特征,所以在解决语音信号上下帧的问题上存在局限性。

3.2 基于深层模型的语音增强算法

自2006年开始,著名神经领域专家Hinton提出了深层神经网络以及反向传播算法。近年来,以深度神经网络为代表的深层模型在语音领域取得了成功[38-39]。模型的层次化非线性处理能力,使得它能自动学习数据的有效特征,它能处理更原始的高维数据,对特征设计要求较低,而且深层模型能够挖掘结构化特性[1]。由语音的产生原理可知,语音的声学特征具有明显的时空结构,深层模型能够充分发挥自身优势,对这些特征建模[40-42]。

基于深层神经网络模型的语音处理方法与传统方法相比降噪效果更好。深度学习凭借其复杂的特征提取表达能力,对数据中的结构相关信息进行建模,尤其在处理语音增强这类回归问题上,基于非线性映射的深层人工神经网络的深度学习方法展现出极强建模能力[41,43],其语音增强模型框图如图3所示。基于深度学习的语音增强方法无须构建特定的语音目标模型,通过大量的训练样本,直接学习带噪语音和纯净语音之间的非线性映射关系[44]。这种训练方法几乎无任何前提假设,它借助神经网络的结构,从带噪语音信号中学习出噪声和纯净语音的特性,因此噪声抑制效果显著。在经过大量的训练之后,将训练好的模型对带噪语音进行增强,其增强效果优于传统方法,去噪范围更加广泛。下面对单通道语音增强方法常用的几个深层模型进行介绍与分析。

3.2.1 深层神经网络模型

分析其原因,主要由于车辆在不同的减振道床上运行时,由于道床的减振效率和作用频段不同,对噪声的降噪效果也有所差异,中等减振道床相对一般减振道床,对500-1000Hz频段的噪声尤其是630Hz频段内的噪声降噪效果明显,而一般减振道床对低频段的噪声具有一定的抑制作用,具体的原因需要结合轨道的振动衰减测试再做进一步的分析。

深层神经网络模型是由一个输入层,若干个隐藏层及一个输出层组成,每一层之间选择全连接方式。DNN训练的整个过程采取前向传播和后向损失误差传播的方式,正是这种网络层与网络层之间的连接形式使得DNN具有强大的学习能力,能够学习到最有用的特征表示,同时也存在网络层优化困难等问题,容易导致网络陷入局部最优的情况[44]。具体模型结构如图4所示。

基于DNN的语音增强分两个阶段进行,包括训练阶段和测试阶段。在训练阶段学习带噪语音特征到纯净语音的对数功率谱的映射函数,测试阶段通过估计得到目标语音的对数功率谱与相位进行合成,得到目标语音的波形图。通过对泛化性进行研究,提出均衡因子和噪声告知训练来提升语音增强的泛化性,进一步提高语音的可懂度。对于未见的噪声场景,提出了一种动态的噪声告知训练方法;对其噪声和语音的自适应性进一步研究,提出了一种用多目标准则的学习框架和方法,达到进一步提升语音信号的信噪比的目的[44]。为了提高基于DNN的语音增强方法的性能,设定了不同的训练目标进行训练,训练的目标为带噪语音的理想二值掩码、理想比率掩码或复数理想比率掩码,后又提出将归一化后的纯净语音对数功率谱作为训练目标,训练目标的改进进一步提高了语音增强效果[45-48]。

图3 深层神经网络语音增强模型系统结构

图4 DNN模型结构

3.2.2 卷积神经网络模型

卷积神经网络的基本结构是由特征提取层和特征映射层组成。特征提取层的每个神经元输入与其上一层的局部接受域连接,以提取其局部特征[49]。特征映射层是由每个计算层的特征映射组成,通过特征映射层所在的平面共享其权值参数,以减少参数个数,简化计算[49-51]。

基于CNN语音增强的网络结构是通过共享权值参数来减少神经网络训练的参数的个数,以达到更好的泛化能力[50]。语音增强本质上是一个回归类型的问题,因此将传统的CNN结构中的输出层替换成全连接层,其网络结构图如图5所示。通过全连接层直接来计算目标向量可以进一步提高噪声抑制能力,同时在不同噪声种类和不同信噪比条件下明显提升了增强后语音的质量和可懂度[52-53]。文献[54]用卷积-递归神经网络模型来实现语音增强,提出了在模型结构设计中引入语音信号的先验知识,可以达到了对可见噪声和未见噪声更好的泛化效果。后续袁文浩等提出对模型的输入进行改进,将其带噪语音短时傅里叶变换(STFT)的实部和虚部特征作为输入特征,然后构建一种多任务的学习模型,达到更好的噪声抑制能力[55]。这种多模态学习方法,实现了语音信号的进一步增强,优化了深度卷积神经网络模型的性能。在模型选择确定的基础上又提出在其特征选取阶段进行改进,将多种特征提取方法进行综合,最后将这种组合型的综合特征作为输入特征进行增强,进一步提高了增强后的语音质量[56]。

3.2.3 循环神经网络模型

循环神经网络是指一种随时间变化,重复发生的网络结构。通常应用在自然语言处理,语音及图像等多个领域。循环神经网络和其他网络不同点在于它可以实现某种“记忆功能”,能够按照时间序列进行分析[57-59]。典型的循环神经网络包括输入X、输出H和一个神经网络单元A。其中神经网络单元不仅与输入输出存在关联,还与自身存在关系。循环神经网络结构是根据前一时刻的状态和当前的输入共同决定的,具体结构如图6所示。

图5 CNN网络结构示意

图6 循环神经网络结构

将RNN模型应用在语音增强上,可将卷积神经网络和循环网络相结合,将卷积神经网络用于语音的预处理阶段,用来提取带噪语音的局部特征,然后通过循环神经网络将带噪语音中不同时间段的局部特征进行关联[60],在充分利用带噪语音中上下文信息的前提下进一步达到语音增强质量和可懂度的提高[61]。考虑到语音信号在时域上具有序列特性,文献[62]利用本身网络结构特点,充分利用带噪语音的上下文帧信息,以其时频掩蔽函数作为网络层嵌入到循环神经网络中,能够充分的表达其输入特征显示,相比DNN模型更进一步提高了语音增强的性能。

3.2.4 生成对抗网络模型

近期兴起的生成式对抗网络(GAN)为语音增强提供了新的思路。该网络模型相比其他深层网络模型不需要提取语音的特征,而是直接进行学习训练。GAN是由Good Fellow最近推出的一个网络框架[63],它包括一个生成模型,即生成器(G)和判别器(D),它们在彼此之间进行最小-最大博弈。G试图愚弄经过训练以将G的输出与实际数据区分开来的D。在机器视觉领域,已经能够通过GAN生成非常复杂的图像[64]。具体模型结构如图7所示。

图7 生成对抗网络模型结构

基于GAN架构的语音增强算法已经有很多相关的研究[65-71],这种生成对抗网络模型能够保留原始语音信号时域上的相位细节信息,同时实现语音增强,其目标函数如式(3)所示:

在GAN网络模型的研究中发现存在噪音数据集选取范围不够广泛,以至于模型训练的泛化性不够好,且存在训练误差小但测试误差大的情况。后针对测试误差过大情况研究改进,在其目标函数中加入稀疏因式,最终实验可得到接近纯净的语音波形,取得较好降噪效果[67]。Qin等提出对GAN网络模型进一步提出改进,将这种无监督训练学习问题转换成有监督性训练学习问题[72]。选择用条件生成对抗网络进行训练,条件生成网络是在生成器和判别器中分别加入标签y进行合并输入,更便于对网络模型的控制,以更好地实现目标,其训练目标函数如下:

在Conditional GAN (Conditional Generative Adversarial Networks,CGANs)网络模型基础上又提出了一种 WassersteinGAN(Wasserstein Generative Adversarial Networks,WGAN) 模 型 ,WGAN模型和GAN模型结构类似,都包含一个判别器网络和一个生成器网络[68,73]。不同点是WGAN模型的训练目标中引入了一个计算真假分布之间距离的式子,在一定程度上优化了训练的效果。将WGAN模型应用到语音增强上,通过降低带噪语音和纯净语音之间的Wasserstein距离,将纯净语音从带噪语音中更好的分离出来[73]。其目标函数如下所示:

基于WGAN模型的语音增强算法,引进一个W距离使得下降梯度能够保持在一个范围内,使得整个增强模型在训练的时候有一个指标能够指示训练的进程,也解决了WGAN模型中分段信噪比指标较低的问题,提升了整体模型的降噪性能[74-75]。

4 总结与展望

本文对语音增强方法进行了综述,从语音增强模型介绍、语音增强传统方法以及目前流行的语音增强方法进行论述。根据传统语音增强方法的发展,选择时域和频域的语音增强代表性方法分别进行分析,对目前的语音增强的算法,特别是基于语音模型和深度学习的增强算法,给出了比较系统的梳理和总结。基于深度学习的语音增强模型逐渐从对语音的时频域分析过渡到端到端分析,这种关注端到端的模型,在做语音增强这种回归类问题是合适的。同时,基于深度学习的语音增强模型在很大程度上利用的数据集较大,训练出的模型也更具有普适性。语音增强技术的发展已经向着深度学习方向转变,工业实体应用也逐步落地。在近几年的发展中,语音增强取得了一些不错的效果,但仍然存在一些问题没有解决,未来针对语音增强的研究可能集中在以下几个方面:

1)训练样本的合理利用。对于依靠大量数据训练的深度学习网络模型,训练样本的数量是达到泛化性最基本的要求。常用的语音增强算法是直接基于非线性映射,但是非线性映射对应关系会造成对训练样本的利用率不高。若采取不同类型的带噪语音进行映射关系的选择,那么对其映射关系的选择与研究可能促进对训练样本的高效利用。

2)基于人类听觉神经系统和深度网络模型的结合研究。基于深度学习的语音增强算法模型,其构造是在仿照人类神经网络的结构来学习,若对人类听觉神经网络进一步研究,深入全面了解耳蜗的特性,仿照其原理构造模型,用其特性来构造深层神经网络,可能对今后的研究起到质的推动作用。

3)数据的开放性。目前噪音信号的数据集很少,对研究网络模型的泛化性仍然存在一些问题。若能够获得大量噪音数据进行训练,其泛化性的更新可能会导致语音增强性能的进一步提升。

4)模型的改进优化。目前深度学习模型在图像领域上的应用比较广泛,将深度学习模型应用到语音上还存在可发展的空间。所以需要对图像方面的模型框架应用到语音增强上。同时也可以对网络框架进一步研究与拓展,提高模型能力的同时提高分析速度和延展性。

5)元学习的应用。目前深度学习依赖于海量的数据和强大的计算资源,但缺乏快速的学习能力。将元学习的机制原理应用到深度学习模型的训练中,可以实现快速学习,加快训练的速度,同时提高模型的泛化能力。

猜你喜欢
语音噪声神经网络
神经网络抑制无线通信干扰探究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
汽车制造企业噪声综合治理实践
基于神经网络的中小学生情感分析
对方正在输入……
基于神经网络的拉矫机控制模型建立
基于支持向量机回归和RBF神经网络的PID整定
一种基于白噪声响应的随机载荷谱识别方法