谱跟踪和噪声模型语音信号分析/合成方法*

2016-01-21 02:52李天伟李正友
通信技术 2015年7期

李天伟,李正友, 2,黄 谦,郭 姣

(1. 大连舰艇学院 航海系,辽宁 大连 116018;2. 69029部队,新疆 乌鲁木齐 830011)



谱跟踪和噪声模型语音信号分析/合成方法*

李天伟1,李正友1, 2,黄谦1,郭姣1

(1. 大连舰艇学院 航海系,辽宁 大连 116018;2. 69029部队,新疆 乌鲁木齐 830011)

修回日期:2015-06-02Received date:2015-03-03;Revised date:2015-06-02

摘要:把语音信号分解为确定和随机两部分是非常典型的语音信号分析与合成方法。针对目前主流研究的谐波加噪声模型(Harmonic plus Noise Model, HNM)和准谐波模型(Quasi-Harmonic Model, QHM)法等存在冗余大的问题,提出了一种基于谱跟踪和噪声模型的语音信号分析/合成方法。以音素为基本单元进行编解码,用谱跟踪法提取时变特征合成语音信号的确定部分,用AR模型合成语音信号的随机部分。实验发现,合成语音与原语音波形上比较接近,MOS分约为3.24,冗余也明显减少。

关键词:语音分析;语音合成;谱跟踪;噪声模型

0引言

语音信号的分析与合成是语音编码的研究基础。把信号分解为确定和随机两部分是一种非常典型的语音信号分析与合成方法[1-9]。通常情况下,确定性部分可以看成是一些正弦信号的和,表征语音的拟周期特征;随机部分可以看成是受调制的随机噪声,表征语音的非周期特征[4-9]。1986年,McAulay和Quatieri提出了语音信号的广义正弦分析与合成的概念[1],随后验证了正弦编码在低速率语音编码中的可用性[2,3]。他们认为可以将语音信号看成是许多正弦信号的和,这些正弦信号的频率、幅度和相位可以通过傅里叶变换来估计。随后Stylianou等人提出了谐波加噪声模型(Harmonic plus Noise Model, HNM)[4],将语音分为两个频段:低频段和高频段。低频段为确定部分,可以看成是与谐波相关的正弦信号的叠加;高频段为随机部分,可以看成是经过滤波的有色噪声。HNM模型的缺点是它采用非时变的正弦信号相加得到信号的确定部分。Pantazis等人继承了HNM模型,提出了准谐波模型(Quasi-Harmonic Model, QHM)[5-7],将确定部分表征为时变的正弦信号叠加。这些方法存在的问题是基于短时平稳假设采用固定时间长度分帧,使同一音素被分为多个不同帧分别进行处理,导致冗余大的问题。本文提出了一种基于谱跟踪加噪声模型的语音信号分析与合成方法。首先对信号进行谱跟踪,将信号分为浊音帧和清音帧。对于浊音帧可看成是确定部分和随机部分的和。浊音的确定部分可以用谱跟踪的谱线合成,浊音去除确定部分后剩余部分全部作为随机部分,用AR噪声模型合成。清音帧不含确定部分,经谱跟踪后也难以得到谱线,全部采用AR噪声模型合成。这种方法以音素为基本单元进行编码,把语音按时变信号处理,不但减少了冗余,还提高了质量。

1谱跟踪

浊语音具有丰富的谐波成分,这些占据了浊语音的主要能量,在语谱图上表现为以基频为间隔的均匀亮线。谱跟踪(Spectral Tracking, ST)就是将语谱图上的均匀亮线用一簇谱线代替。可以用这簇谱线所代表的频率、幅度和相位,利用正弦模型合成语音信号的浊音部分。

谱跟踪的计算步骤如下:

(1)分帧。此处对语音信号进行分帧,目的是提取代表语音谐波的谱线,编码时还需要重新按音素进行分帧。分帧时,如果帧长过短则会降低谱线的频率精度,如果帧长过长会使谱线不平滑,谱跟踪时会漏掉一些重要谱线。可采用重叠分帧的方法来解决上述矛盾。一般帧长为20ms,重叠3/4。

(2)峰值检测。峰值检测的方法很多[10],本文采用线性预测分析(Linear Prediction Analysis,LPA)和短时傅里叶变换(Short-Time Fourier Transform, STFT)相结合的方法,先进行LPA,将声门激励和声道滤波器分离开,再通过LPA残差信号的STFT,提取峰值频率、幅度和相位。由于峰越多则算法越复杂,也越容易受到随机噪声干扰,一般仅取10~20个能量最大的峰。

(3)联接谱峰。将相邻帧中幅度和频率相近的峰连接起来,得到一簇谱线。它可以看成是求解最优问题,即寻找使两帧谱峰之间的某种距离最小的连接。本文采用动态规整(Dynamic Programming,DP)的方法,即选择一种映射关系γ,使得相邻两帧各峰之间的代价函数C(γ)最小[11,12]。

(4)筛选谱线。去除长度较短、能量较低的谱线,得到能够代表谐波中主要成分的一簇谱线。

(5)重新计算谱线幅度。由于采用了3/4重叠窗进行分帧,实际帧长只有1/4,使谱线幅度产生了较大误差。因此需要按照原帧长的1/4重新分帧,再根据谱线频率,重新计算谱线幅度。

图1(a)所示为汉语普通话“倒车”的时域波形图。图1(b)为该信号的语谱图,图中的亮线代表语音的谐波结构。图1(c)中的点为峰值检测得到的谱峰,其中的线为谱跟踪后得到的谱线。图1(d)为谱线筛选后的剩余的谱线。对比图1(b)和(d)可见,筛选后的谱线与语谱图中能量较大(亮度大)的亮线相对应,代表了语音谐波中的主要成分。

(a)时域波形图

(b)语谱图

(c)谱跟踪结果图

(d)筛选后的谱线图

2语音信号的分析与综合方法

2.1确定部分的分析与合成

(1)

(2)

因此,公式(1)还可以表示成:

(3)

2.2随机部分的分析与合成

随机部分有两种类型:一是清音;二是浊音的高频部分。它们都可以看成是经过频率调制和时间调制的高斯白噪声,频率调制可以通过线性预测分析和AR模型来获得,时间调制可以看成是时域的能量包络。随机部分的分析与合成模型为:

其中uG(n)为高斯白噪声,h(n)为AR滤波器的冲击响应函数,e(n)为时域能量包络。

图2 典型谱线的时间-幅度曲线图

AR滤波器的传递函数为:

(5)

为了简化算法,能量包络可以用下式表示:

e(n)=E·w(n)

(6)

式中w(n)为窗函数,若随机部分是清音,可选hamming窗,若随机部分是浊音的高频部分,可选矩形窗。E是能量系数,能保证合成语音与原随机部分语音能量相等。能量系数E可用下式确定:

(7)

2.3清浊音分离

由于对清音和浊音采用了不同的分析与合成方法,在提取语音编码参数之前,以音素为基本单元重新对语音信号进行分帧,将语音信号分为清音帧和浊音帧。浊音部分的分析与合成对象是谱线,谱线数目越多则携带的信息越多,所以可以用某时刻谱线的数目作为清浊音分离的标志。图3所示为图1信号的谱线数目信息,通过1个阈值,很容易将信号的清音和浊音分离开。

图3 清浊音分离结果图

3实验分析

本文实验中,设定采样频率为16 kHz,频率范围为8 kHz。以实际录制的央视主播男女各5人的纯净语音构成语音库,每段语音约10分钟。应用上述算法,对纯净语音进行处理。先进行谱跟踪,将信号分为浊音帧和清音帧。再将浊音帧中的确定部分用若干谱线表示出来,将浊音帧中的随机部分用AR模型表示,将清音帧作为随机部分用AR模型表示。最后用谱线和AR模型分别合成语音信号的确定部分和随机部分。图4所示为一男性语音的分析合成结果。图4(a)和图4(b)所示分别为该原始语音和合成语音的波形图。图4(c)和图4(d)分别为原始语音与合成语音的细节图。从图中可以看出,合成语音波形与原始语音波形比较接近。主观听辨方面,合成语音失真有察觉,MOS分约为3.24。

(a)原始语音时域波形图

(b)合成语音时域波形图

(c)原始语音细节图

4结语

本文的谱跟踪加噪声模型是在HNM和QHM模型基础上提出来的,与它们有两个显著区别:一是用谱跟踪模型代替准谐波模型处理语音信号的确定部分;二是在编码时,以音素为单位进行分帧代替固定时长分帧方法。本文算法的优点是:一是按音素进行分帧降低了帧间冗余,消除帧间过渡不平滑带来的噪声;二是采用谱线拟合的方法,考虑了语音信号的时变性,使合成语音具有较高的自然度。本文算法的缺点是延时长,难以应用在即时语音通信系统中,仅能应用在数字语音录放系统。

参考文献:

[1]Robert J M, Thomas F Q. Speech Analysis/Synthesis based on a Sinusoidal Representation[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1986, 34(4):744-754.

[2]Robert J M, Thomas F Q. Computationally Efficient Sine-Wave Synthesis and Its Application to Sinusoidal Transform Coding [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1988:370-373.

[3]Kleijn W B, Paliwal K K. Speech Coding and Synthesis [M]. Amsterdam: Elsevier,1995:121-173.

[4]Yannis S, Laroche J, Moulines E. High-Quality Speech Modification based on a Harmonic + Noise Model[J]. Eurospeech,1995.

[5]Stylianou Y. Applying the Harmonic plus Noise Model in Concatenative Speech synthesis [J]. IEEE Transactions on Speech and Audio Processing,2011,9:21-29.

[6]Pantazis Y, Stylianou Y. Improving the Modeling of the Noise Part in the Harmonic plus Noise Model of Speech [J]. ICASSP, 2008:125-131.

[7]Yannis P, Georgious T, Olivierr, et al. Analysis/Synthesis of Speech based on an Adaptive Quasi-Harmonic plus Noise Model [J]. ICASSP, 2010: 4246-4249.

[8]Griffin D, Lim J. Multiband-Excitation Vocoder[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1998 (36): 236-243.

[9]庞亮, 陈亮, 张翼鹏. 改进的低时延语音增强算法[J]. 通信技术, 2014, 47(11): 47-53.

PANG Liang, CHEN Liang, ZHANG Yi-Peng. Improved Low-Delay Speech Enhance Algorithm [J]. Communications Technology, 2014, 47(11): 47-53.

[10]唐艳, 王天马, 陈杨等. 基于小波包变换的信号谱峰检测算法[J]. 通信技术, 2010, 43(08): 114-120.

TANG Yan, WANG Tian-ma, CHEN Yang, et al. Signal Peak Identification Using Wavelet Packet Transform[J]. Communications Technology,2010,43(08):114-120.

[11]Toru T, Mikio T, Katsuhiko S. Detection of Speech and Music based on Spectral Tracking [J]. Speech Communication, 2008(50): 547-563.

[12]Jalil S, Shahrokh G. Improvement to Speech-Music Discrimination Using Sinusoidal Modal based Features [J]. Multimedia Tools, 2010(50):415-435.

[13]Rkhoul J. Linear Prediction: A Tutorial Review [J]. Proceedings of the IEEE, 1975,4(63): 561-580.

李天伟(1963—),男,博士,教授,主要研究方向为航海保障;

李正友(1978—),男,博士研究生,工程师,主要研究方向为声学在航海保障中的应用;

黄谦(1980—),男,博士,讲师,主要研究方向为混沌控制在航海中的应用;

郭姣(1978—),女,博士,讲师,主要研究方向为航海信息保障。

Speech Signal Analysis/Synthesis Method of Spectral

Tracking and Noise Model

LI Tian-wei1, LI Zheng-you1,2, HUANG Qian1,GUO Jiao1

(1.Department ofNavigation, Dalian Naval Academy, Dalian Liaoning 116018,China;

2.Unit 69029 of PLA, Urumqi Xinjiang 830011, China)

Abstract:Decomposition of speech signal into deterministic part and stochastic part is a typical method for speech analysis and synthesis. Aiming at the redundancy of current mainstream methods, such as HNM (Harmonic plus Noise Model) and QHM (Quasi-Harmonic Model), a novel speech analysis/synthesis method based on spectral tracking and noise model is proposed. The basic coding units are phonemes, and the deterministic part of speech signal is synthesized via time-varying characteristics extracted by spectral tracking method, and the stochastic part of speech signal is synthesized by AR model. Experiments show that the reconstructed signal is quite close to the original, and the MOS is 3.24, with obvious reduction of redundancy.

Key words:speech analysis; speech synthesis; spectral tracking; noise model

作者简介:

中图分类号:

文献标志码:A

文章编号:1002-0802(2015)01-0803-05

收稿日期:*2015-03-03;

doi:10.3969/j.issn.1002-0802.2015.01.011