基于双采样方法的低信噪比语音的检测与增强

2020-07-13 05:27李雷贾新春彭登永
关键词:端点信噪比模态

李雷,贾新春,彭登永

(1.山西大学 数学科学学院,山西 太原 030006;2.山西大学 自动化系,山西 太原 030013)

0 引言

近年来,作为语音识别技术的重要组成部分,语音信号的检测与增强技术获得了广泛的关注与研究[1-2]。其中语音检测技术主要分为两类[3]:模型匹配法和门限法。前者由于需要大量的内存空间来存储一些经典语音模型,同时还需要大量数据来估计待检测语音的模型,因而在实际应用中受到一定的限制。后者通过设定语音特征参数阈值来进行检测,相比于前一种方法更容易实现,因此得到更为广泛的应用,例如基于短时能量与过零率的检测方法、基于LPC倒谱特征的检测方法[4]、基于小波分析理论的检测方法等。另一方面,语音增强技术主要有谱减法[5]、最小均方误差法[6]、小波变换法[7]等。然而,这些现有的语音检测与增强技术多要求语音环境具有高信噪比,大多难以用于实现低信噪比语音信号的检测与增强。在许多实际生产应用中,语音信号往往会受到各种各样的噪声干扰、甚至会被淹没,例如火车站台嘈杂的语音环境经常会表现会负信噪比特征,即信号功率小于噪声功率。对于这类具有较低信噪比特征的语音环境下,如何从噪声背景中尽可能地提取有用的语音信号来实现语音检测和增强是一个具有重要现实意义和挑战的研究问题。

为了解决低信噪比环境对语音信号处理的影响,人们在不断地研究低信噪比环境下的语音信号处理技术。例如,基于希尔伯特-黄变换的低信噪比语音端点检测算法[8]以及基于极值域均值模式分解最大相似度的低信噪比语音增强算法[9]。它们在低信噪比语音检测和增强上有显著效果,但其同样面临着一些不可忽略的问题。这两个技术都是在经验模态分解算法基础上发展而来,而经验模态分解算法中需要利用三次样条插值技术对信号的全部极大值和极小值点进行插值拟合,其中会遇到端点外插值的情况,从而导致端点效应的出现。

对于语音信号处理过程中出现的端点效应,目前也有一些处理方法。例如,Huang等[10]提出了一种延拓法,利用“特征波”对原始信号进行延拓。这一方法只是对端点效应有所抑制,并没有有效降低端点效应带来的影响。因此,许多研究人员对这一方法进行了深入分析并提出了一些改进方法,如邓拥军等[11]通过对给定信号的两端分别添加极大值和极小值,再利用神经网络分析法来进行端点延拓。另外,也出现了边界波形匹配预测法和基于信号时域局部特征的自适应时变滤波分解算法等方法。这些方法都有一定的抑制端点效应的效果。

不同于以上工作,为降低端点效应带来的影响,本文采用双采样方法将带噪语音的信号分割成两组不同长度的信号段,来实现低信噪比语音检测与增强算法,其中这两组信号段的长度不同且端点不重合。对这两组信号段分别进行经验模态分解处理,得到固有模态分量。然后对两组固有模态分量分别进行一系列处理,两组不同长度的信号段经过相同的处理过程可以得到两组语音起始与截止端点数据,以及两组滤波去噪后的信号数据。两组语音端点数据是不同的,两组去噪后的信号数据也不同,其中有端点效应以及信号段长度带来的影响。对于语音端点数据,本文根据这两组不同的结果进行语音端点校正,对于同一段语音,从两组结果中取靠近其中心的点作为其端点。对于去噪后的信号数据,进行数据融合处理,对于某一时刻的信号数据,如果该时刻处于两组信号段中任意一个信号段的端点附近,则取另一组信号对应时刻的数据作为最终增强处理后的信号数据,否则取两组信号对应时刻数据的均值为最终增强处理后的信号数据。双采样技术的应用为语音端点校正以及最后的滤波信号数据融合提供了必要的条件,也为有效降低端点效应带来的影响提供了基础。最后,通过例子验证该结果比现有算法效果更好。

1 双采样方法

语音信号是典型的非平稳信号,但语音信号同时具有短时平稳特性,即可认为在10~30 ms内语音信号分布特性近似不变。因此,可以在处理语音信号时先将其分割成连续的小段,再进行一系列的处理。传统的语音采样技术是对语音信号进行“加窗分帧”处理。分帧可以采用连续分段和交叠分段的方法,一般采用后者。交叠分段的方法由于帧与帧之间是平滑过渡,保持了信号的连续性,两帧之间的交叠部分称为帧移。分帧是通过一个有限长的窗函数加权滑动实现的。

本文以高速列车运营的复杂语音环境及无线传感网络(WSN)的实时监测为研究背景,提出一个多采样方法来降低复杂语音环境对语音信号处理效果的影响。具体地,由于在WSN对火车站台语音信号进行实时监测收集过程中,采样数据经常会发生丢包和时延等非理想情形,从而导致采样数据的不完整和不连续,所以为降低它们对语音处理效果的影响,可以在火车站台同一个地点同时利用多个无线传感器对语音信号进行采样,然后在后续的数据处理中通过数据融合来减弱这些非理想因素对语音处理效果的影响。考虑到研究方法复杂度和有效性之间的折中,本文采用两个无线传感器分别对同一低信噪比语音信号进行采样的双采样方法。在此过程中,两个无线传感器都只收集和发送数据,不存储数据,故只能采用连续分段的方法进行采样,如图1所示。为防止各分段的端点重合以及满足短时平稳性,可分别取帧长为l1、l2,使得l1、l2均分布在30 ms附近,且两者之积为无理数,本文取l1=10π ms,l2=10 e ms,其中π为圆周率,e为自然常数。

图1 语音双采样示意图

本文提出的基于双采样方法的语音端点检测与语音增强算法主要流程见图2,从图中可知,所提算法的处理过程主要分为两大部分组成,即语音端点检测和语音增强。因此,后文将主要围绕着两部分进行详细阐述。

图2 基于双采样方法的语音检测与增强流程示意图

2 低信噪比语音的端点检测

2.1 经验模态分解与希尔伯特变换简介

在语音识别系统中语音信号检测被称为语音端点检测。在火车站台这种复杂语音环境中,强背景噪声的存在使得待检测的语音信号相对较弱,这导致常规的检测算法效果较差。经过分析比较现有的检测算法,本文采用基于希尔伯特-黄变换的语音信号检测算法,该算法在低信噪比语音信号检测中取得了一定成效。希尔伯特-黄变换算法[12-13]主要包含两个部分:经验模态分解和希尔伯特变换。

A. 经验模态分解

经验模态分解(Empirical Mode Decomposition, EMD)过程具体如下:

1) 设原始信号为x(t),初始化:r0(t)=x(t),i=1;

2) 得到第i个固有模态分量(Intrinsic Mode Function, IMF):

(a) 初始化:h0(t)=ri-1(t),j=1;

(b) 找出hj-1(t)的局部极值点;

(c) 对hj-1(t)的局部极大和极小值点分别进行三次样条插值拟合处理,形成上下包络线;

(d) 计算上下包络线的平均值mj-1(t);

(e) 计算hj(t)=hj-1(t)-mj-1(t);

3) 计算ri(t)=ri-1(t)-imfi(t);

4) 如果ri(t)的极值点数多于2个,则i=i+1,转到2);否则,分解结束,ri(t)为残余分量。

B. 希尔伯特变换

希尔伯特变换(Hilbert Transform,HT)常用于线性和非线性系统的分析。在实际应用中,HT可以提供有关振幅、瞬时相位和频率的附加信息。对于信号x(t)通过经验模态分解处理得到的任意时间序列imfi(t),其希尔伯特变换himfi(t)被定义为:

2.2 基于希尔伯特-黄变换算法的语音端点检测技术

由于在火车站台是利用无线传感网络对语音信号进行实时采集和传输,容易出现丢包现象,这里假设双采样得到的两组数据在同一时刻的数据最多丢失一组。

根据前文所述,可制定基于希尔伯特-黄变换算法的语音端点检测步骤如下:

1) 利用两个传感器对语音信号分别以相同采样频率进行采样,并分割成相邻没有重叠的信号帧,帧长分别为:l1=10e ms,l2=10π ms;

2) 分别对两种不同帧长的带噪语音信号各帧进行经验模态分解处理;

3) 对各IMF分量进行希尔伯特变换,求解瞬时频率与幅值;

4) 两组数据分别合成希尔伯特谱;

5) 利用合成的希尔伯特谱计算获得信号瞬时能量谱,并对该谱进行平滑处理;

6) 在信号初始阶段选取没有语音的片段,用于语音背景噪声的估计。本文分别取两种帧长信号的前5帧瞬时能量谱进行如下处理,分别得到两个语音信号检测的阈值(这里假设两组数据的前5帧均没有出现数据丢失)Ts1、Ts2:

Ts1=E(IE1)+α·D(IE1)

7) 利用阈值Ts1、Ts2在两种不同帧长的瞬时能量谱中判断出语音段和非语音段,并在带噪语音信号中标记出语音的起始和截止端点(仿真实验中,可以同时在纯净语音信号中标出语音端点,来计算准确率);

8) 每个语音片段对应两个语音端点,比较两种不同帧长信号的语音端点位置,对于同一个语音片段的起始端点,选取靠近语音片段中心的那个作为该语音片段的起始端点,而其截止端点同样选取靠近其中心的端点作为其截止端点。

3 基于经验模态分解-最大相似度算法的语音增强技术

基于经验模态分解最大相似度语音增强方法,可以利用前文中检测得到的噪声先验知识和最大相似度方法对经验模态分解得到的固有模态分量进行有效的分类,再对各类固有模态分量进行自适应滤波处理,达到降噪目的,从而实现复杂环境下低信噪比语言信号的增强。

3.1 最大相似度分析

本文中最大相似度指的是噪声信号与检测到的带噪语音信号各固有模态分量的最大相似程度。最大相似度计算过程如下:

1) 在语音信号前的非语音段任意提取k段噪声信号Nk,且每段噪声信号要与检测到的语音信号片段长度相同;

2) 计算提取的k段噪声信号分别与分解得到的第i个固有模态分量imfi对应的语音片段位置的数据之间的相关系数R1i、R2i、…Rki,假设i=1,2,…,m;

3) 在R1i、R2i、…Rki中选取最大值,即为最大相似度,记作MSi,i=1,2,…,m。

3.2 基于经验模态分解最大相似度的语音增强算法

基于前文对基于经验模态分解最大相似度语音增强算法各关键概念的阐述,给出语言增强设计步骤如下:

1) 在前文语音检测的基础上,分别提取检测到的带噪语音信号片段;

2) 在语音信号前端任意提取多段与检测到的语音信号片段长度相等的噪声信号;

3) 将提取的带噪语音信号片段进行极值域均值模式分解处理,得到若干固有模态分量;

4) 计算求取噪声信号与各固有模态分量之间的最大相似度;

5) 通过实验确定最大相似度阈值,本文取阈值为0.02;

7) 将经过滤波处理的固有模态分量和没经过滤波处理的其他固有模态分量进行信号重构,得到增强后的信号;

8) 将两组不同帧长的经过一系列处理得到的增强信号进行数据融合,如果在某一点,处于其中一组数据某帧端点附近(端点前后0.5 ms),则融合的信号取另一组数据对应位置的数据,否则取两组数据的平均值。

经过上述算法第八个步骤数据融合处理,可有效解决端点效应带来的影响,且可减少帧长不同所带来的影响,进而提高语音增强效果。

4 实验验证

根据上述理论分析,分别进行了MATLAB软件仿真实验和实物平台测试实验,以下是实验过程及结果。

4.1 仿真实验

本文选取一段语音信号,利用MATLAB软件对其添加了不同信噪比的火车站台噪声,并按照前述方法进行了仿真实验,结果如图3-图5所示。

图3 SNR =1 dB时语音端点检测与增强效果

图4 SNR =-3 dB时语音端点检测与增强效果

图5 SNR =-7 dB时语音端点检测与增强效果

图3、4、5分别是信噪比为1 dB、-3 dB、-7 dB时语音端点检测与增强效果图,每幅图中第一子图为原始语音信号图,第二子图为带噪语音信号的起始与截止端点检测效果图,第三子图为增强处理后效果图。从中可以看出,随着信噪比降低,本文方法仍然有较好的语音端点检测与增强效果。此外,针对不同信噪比的带噪信号,本文利用谱减法和最小均方误差估计法对前文带噪语音信号进行处理,并用MATLAB软件编程实现,得到语音增强后信噪比,如表1所示。

由表1可知,本文方法在信噪比较低时依然有较好的增强效果,能较大幅度提高信噪比。同时,与另两种方法相比,在相同条件下,本文方法增强效果更好。

我们注意到,在本文所提方法中,由于语音增强是在语音端点检测基础上进行操作,所以增强效果可以侧面反映出语音端点检测效果,而仿真实验显示语音增强效果较好,故语音端点检测效果较好。另外,从图3-图5中也能看出,语音信号的端点基本都能被检测出来,然而,由于声音信号的不平稳性,导致很多现有方法会把带噪信号中的许多噪音被误认为语音,从而降低了其语音处理效果,而本文所提的基于双采样的语音增强技术能很好地处理这类问题,并得到较好的结果。

表1 3种方法增强语音后信噪比对比结果

4.2 实物平台测试实验

利用硬件(语音信号采集节点、信号转发器)和软件(Microsoft Visual Studio)搭建了语音信号采集处理平台(如图6所示),根据前文所述算法,利用C#语言编程实现,对硬件采集的语音信号进行了实际场景的语音信号检测与增强测试,结果见表2、表3所示。

图6 语音信号采集处理平台示意图

由于实际应用场景(火车站台)的特殊性,实物平台测试实验只能在实验室进行。具体操作为:利用录音设备在火车站台录制一整天的音频数据,然后在实验室播放,利用语音信号采集节点进行信号采集,并通过信号转发器传输给电脑接收端,通过电脑软件平台对所采集的信号进行处理。检测的语音对象是火车站站台广播语音,其他声音信号默认为背景噪声。

表2统计并比较了使用本文方法与基于短时能量与过零率的检测方法、基于LPC倒谱特征的检测方法的语音信号检测率(DR)、漏检率(ODR)和误检率(EDR)。使用本文方法、谱减法和最小均方误差估计法对同一段带噪语音信号增强处理,利用PESQ语音质量评估算法分别对增强后的语音信号进行了语音质量评估,结果如表3所示。从表2、表3中可以看出本文方法的有效性和可靠性。

表2 3种方法语音信号检测结果比较

表3 对3种方法所增强语音的PESQ语音质量评估结果比较

5 结束语

本文提出了一种基于双采样方法的语音端点检测与语音增强算法,在双采样技术的基础上结合经验模态分解、希尔伯特变换及最大相似度计算,对带噪语音信号依次进行语音端点检测和语音增强处理,最后通过数据融合处理在降低了端点效应及其他因素对低信噪比语音信号处理结果带来的影响,实验结果说明本文所提方法在处理火车站台低信噪比复杂语音环境下语音端点检测与增强的有效性。此外,本文算法可以推广到多个传感器采样的场景中。

猜你喜欢
端点信噪比模态
联合仿真在某车型LGF/PP尾门模态仿真上的应用
多模态超声监测DBD移植肾的临床应用
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于经验分布函数快速收敛的信噪比估计器
跨模态通信理论及关键技术初探
例谈求解“端点取等”不等式恒成立问题的方法
自跟踪接收机互相关法性能分析
基于深度学习的无人机数据链信噪比估计算法
不等式求解过程中端点的确定
基丁能虽匹配延拓法LMD端点效应处理