基于频域线性预测的声门闭相时刻检测*

2016-11-30 01:02李宝岩
通信技术 2016年7期
关键词:声门频域时域

李宝岩

(吉林吉大通信设计院股份有限公司,吉林 长春 130012)

基于频域线性预测的声门闭相时刻检测*

李宝岩

(吉林吉大通信设计院股份有限公司,吉林 长春 130012)

语音处理应用中,常常利用的语音特性是浊音的伪周期性,而使用该特性的前提是能够获得语音的声门闭相时刻。为了准确地检测语音声门闭相时刻,提出使用频域线性预测进行连续语音声门闭相时刻的自动检测算法。实验结果表明,该算法的检测准确率为97.69%,比现有基于动态规划斜率的算法提高2.15%,比基于希尔伯特包络的算法提高0.65%。总体来说,使用频域线性预测进行声门闭相时刻检测是可行的。

声门闭相时刻;线性预测;频域线性预测;连续语音

0 引 言

在语音处理中,声门闭相时刻GCIs(Glottal Closure Instants)是指声道的显著激励的时刻。这些特定的时间事件与发浊音时声门信号中的高能量时刻有关,使得声门闭相时刻在语音分析、语音合成和编码中具有广泛的应用。所以,实现连续语音中声门闭相时刻的自动检测具有重要意义。

目前,声门闭相时刻检测算法的研究越来越受到人们的关注。1979年,Ananthapadmanabha T[1]提出使用希尔伯特包络HE(Hilbert Envelope)算法进行GCIs检测;2007年,Naylor P A[2]提出动态规划斜率算法DYPSA(Dynamic Programming Phase Slope Algorithm)用于GCIs检测;2008年,Murty K.S.R[3]提出使用零频滤波器ZFR(Zero Frequency Resonator)算法检测GCIs;2009年,Drugman T[4]提出使用余项激励和均值信号的语音事件检测SEDREAMS(Speech Event Detection using the Residual Excitation And a Mean-based Signal)算法检测CGIs;2012年,Thomas M R P[5]提出另一个GCI算法YAGA(Yet Another GCI Algorithm)。

基于上述研究,本文提出使用频域线性预测FDLP(Frequency Domain Linear Prediction)的GCI检测算法。同时,为了说明所提出算法的有效性和检测效果,在BDL数据库上构建性能评价系统,给出算法检测准确率及误差分布图。

1 基于频域线性预测的声门闭相时刻检测

1.1 频域线性预测

线性预测是语音分析处理中使用较广泛的分析方法,常常用于语音识别、语音编码等。与传统的线性预测LP(Linear Prediction)相比,频域线性预测FDLP[6]可以看做是与其对偶的分析方法。在时域使用线性预测建模谱包络,而在频域使用线性预测建模时域包络。这里的频域获得采用离散余弦变换DCT(Discrete Cosine Transform),保证了在频域使用线性预测时的实值需要。

研究表明,FDLP可以实现对语音的时域动态特征的参数化描述,即能够捕捉精细在毫秒级的时间细微差别,同时也可估计50 ms或是更多的时间总体特征。这种动态化描述是通过选取不同的预测器阶数来实现的。

1.2 基于频域线性预测的声门闭相时刻检测

研究表明,当频域线性预测的预测器阶数选取恰当的时候,所建模的时域包络在声门闭相时刻将具有明显的变化。使用频域线性预测进行声门闭相时刻检测的步骤:首先,在长时间帧(256 ms帧长,帧移128 ms)上使用DCT变换;然后,在变换后的域上使用LP(阶数为80)。使用较大的预测器阶数,是为了获得更精细的时域包络。在数据库BDL中选取一条语句使用FDLP,可得到如图1所示的实验结果。

图1 基于FDLP的GCI检测

图1中,图1(a)是一段语音的EGG(Electroglo ttographic)信号,图中使用“×”标记的位置是数据库中给出的参考GCIs;图1(b)是使用FDLP建模的时域包络曲线,使用“×”标记的位置是使用该算法检测到的GCIs。从图1中可以看出,恰当选取预测器的阶数时,FDLP建模的时域包络曲线的峰值对应于语音的GCIs,因此验证了使用FDLP建模时域包络检测GCIs的可行性。

2 实验结果与分析

为了说明使用FDLP检测GCI的性能,在BDL数据库中构建评价系统,得到如表1所示的实验结果。图2则给出了使用FDLP进行GCIs检测时的误差分布图。

表1中,第1列是采用的数据名称;第2列是采用的算法名称,第3列是检测准确率;第4列表示丢失率,即未检测到的GCIs占总GCIs的百分比;第5列是错误率,即检测错误的GCIs占总GCIs的百分比;第6列是检测误差等于或小于±0.25 ms时的检测准确率。由表1结果可知,总体上,检测准确率越大,错误率和丢失率越小;±0.25 ms准确率越大,算法的性能越好。需注意,表1中实验数据除FDLP算法外,均来自参考文献[7]。

表1 基于FDLP的GCIs检测实验结果

图2 基于FDLP的GCIs检测误差分布

从表1的实验结果可以看出,FDLP算法的检测准确率为97.69%,比现有基于动态规划斜率的算法提高2.15%,比基于希尔伯特包络的算法提高0.65%。

从图2中可以看出,时间误差在±0.5 ms具有很大的概率值。也就是说,检测误差集中在这个区间,这从另一方面验证了FDLP方法的有效性和准确性。

3 结 语

频域线性预测是一种建模时域包络的分析方法。在预测器阶数选取恰当的情况下,基于频域线性预测的声门闭相时刻检测得到的时域包络在GCIs处有明显的变化,可以使用FDLP获得时域包络曲线有效检测GCIs。同时,通过在数据库BDL上构建评价系统,验证了该算法的可行性和准确性。

[1] Ananthapadmanabha T,Yegnanarayana B.Epoch Extraction from Linear Prediction Residual for Identification of Closed Glottis Interval[J].IEEE Transactions on Acoustics Speech & Signal Processing,1979,27(04):309-319.

[2] Naylor P A,Kounoudes A,Gudnason J,et al.Estimation of Glottal Closure Instants in Voiced Speech Using the DYPSA Algorithm[J].IEEE Transactions on Audio Speech & Language Processing,2007,15(01):34-43.

[3] Murty KSR,Yegnanarayana B.Epoch Extraction from Speech Signals[J].Audio Speech & Language Processing ,2008, 16(08): 1602-1613.

[4] Drugman T,Dutoit T.Glottal Closure and Opening Instant Detection from Speech Signals[M]. Berlin: Interspeech,2009.

[5] Thomas M R P,Gudnason J,Naylor P A.Estimation of Glottal Closing and Opening Instants in Voiced Speech Using the YAGA Algorithm[J]. Audio Speech & Language Processing, 2012,20(01):82-91.

[6] Athineos M,Ellis D P W.Frequency-domain Linear Prediction for Temporal Features[C].Automatic Speech Recognition and Understanding, 2003: 261-266.

[7] Drugman T,Thomas M,Gudnason J,et al.Detection of Glottal Closure Instants from Speech Signals:A Quantitative Review[J].Audio Speech & Language Processing , 2012, 20(03): 994-1006.

Glottal Closure Instants Detection based on Frequency Domain Linear Prediction

LI Bao-yan
(Jilin Jlu Communication Design Institute Co.,Ltd., Changchun Jilin 130012, China)

The pseudo-periodicity of voiced speech can be exploited in several speech processing applications. It is required that the precise locations of the glottal closure instants (GCIs) are available,so it is very important to detect the GCIs accurately. This paper proposes an automatic detection method of GCIs for the continuous speech using the frequency domain linear prediction (FDLP). The experimental results demonstrate that the detection ratio is 97.69%, 2.15% increase over the dynamic programming phase slope algorithm, and 0.65% increase over the Hilbert envelope algorithm. Overall, it is feasible to use the frequency domain linear prediction for GCIs detection.

Glottal Closure Instants(GCIs);Linear prediction (LP);Frequency Domain Linear Prediction(FDLP); Continuous speech

TN912.3

A

1002-0802(2016)-07-0853-03

10.3969/j.issn.1002-0802.2016.07.011

2016-03-20;

2016-06-23 Received date:2016-03-20;Revised date:2016-06-23

李宝岩(1969—),男,硕士,高级工程师,主要研究方向为移动通信工程设计和语音处理。

猜你喜欢
声门频域时域
基于频域的声信号计权改进算法
支撑喉镜下声门暴露困难的相关因素
支撑喉镜声门区暴露困难影响因素的logistics分析
基于复杂网络理论的作战计划时域协同方法研究
尴尬的打嗝
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
山区钢桁梁斜拉桥施工期抖振时域分析
网络控制系统有限频域故障检测和容错控制
一种用于高速公路探地雷达的新型时域超宽带TEM喇叭天线
基于改进Radon-Wigner变换的目标和拖曳式诱饵频域分离