典型简单模板匹配语音识别方式技术研究

2017-07-26 06:51范崇山陈新伟罗智荣刘乐林秋文

科技视界 2017年7期

范崇山　陈新伟　罗智荣　刘乐　林秋文

【摘要】本文从人类语言交流系统模型中获取思路，重点研究小词汇量、词语间相互独立的基于简单模板匹配工作原理的语音识别模式。本文在语音识别的预处理、特征提取等环节深入讨论，并进行了一系列仿真实验对典型简单模板匹配语音识别方式中的使用技术如：语音信号模型的建立、窗函数等做出清晰地说明。

【关键词】语音识别；简单模板匹配；预处理；特征提取

1 语音识别技术原理

语音识别是为了让机器“懂”我们的语言，准确无误地识别出我们发出语音内容，并且做出符合语音内容的一系列动作，执行我们的意图。分析人类语言交流通信的过程，可以启发我们的研究思路。对人类语音通信流程[1-2]分析如图1。

由人类语音通信流程框图可以看出，人类发出语音过程如图左半部分，语音理解过程如图右半部分。语音识别包括两种含义，一是：将人类说的话转换成文字，二是：在充分理解口述语音的基础上，不仅仅是将语音转换为文字信息，而且对语音内容也要作出正确响应[3]。在此，本文认为语音识别和语音理解意义等同，所以可用图1右侧部分流程可将语音识别过程。

目前语音识别技术应用中大部分都是小词汇量，词语间相互独立基于简单模板匹配工作原理的识别模式。针对这种典型的语音识别模式，原理流程路线图[4]如图2所示：

1.1 基于发音模型的语音信号产生模型

语音信号的产生是语音识别技术的基石，在语音信号处理的大部分过程中对语音信号产生模型有很强的依赖性。本文研究过程中，首先对人类发音过程进行了解：人类发音流程是首先肺部收缩，迫使气流通过声门和声道引起音频震荡产生[3]。根据人的声道三种不同激励方式，分别对应产生了三种被大家熟知的发音类型，分别是浊音，摩擦音或清音，爆破音。

语音信号可看做由线性系统受到激励信号的激励输出产生。如图3是基于发音模型的语音信号产生模型流程图：

如图3建立的语音信号产生模型中认为浊音是周期为N0的冲激信号，且N0=fs/F0（其中F0是基音频率，fs是采样频率）。清音认为是一个均值为0，幅值是正态分布的波形信号。参数Av，Au分别用来调节浊音和清音的幅值。

从已有语音识别技术研究结果可知，窗函数类型众多，使用不同形式的窗函数对短时分析处理语音信号结果有很大的影响。已知目前应用最广泛的窗函数是汉明窗，结合仿真实验分析可以看出：高斯窗函数的横向主瓣宽度最小，但其纵向旁瓣高度最高；汉明窗函数的横向主瓣宽度最宽，纵向旁瓣高度是三种窗函数中最低的。

2.3 端点检测

语音信号的起始点是语音信号处理的关键分界点，端点检测的目的就是找到连续语音信号中的信号起始点。常用的端点检测方法有两种，分别是短时平均能量和短时过零率[6]。当下流行的端点检测方法是短时平均能量和短时过零率两者的结合，称这种方法为双门限端点检测算法[7]。

在实际问题中通常采用两者结合解决问题。本文同样是采用两者结合的方法，利用短时过零率方法检测语音信号波形穿越零电平的次数，既代表的是清音；用短时平均能量方法计算第y帧语音信号的短时平均能量E（y），既代表的是浊音，进而实现可靠的端点检测。

3 特征提取

目前特征是语音信号预处理中的重要步骤。在实际特征提取中，较常采用的参数是线性预测倒谱系数（LPCC）和Mel倒谱系数（MFCC）。二者采用的均是时域转换到倒谱域上，但是出发思路两者不同。线性预测倒谱系数（LPCC）以人类发声模型为基础，采用线性预测编码（LPC）技术求倒谱系数；Mel倒谱系数（MFCC）以人类听觉模型为基础，通过离散傅利叶变换（DFT）进行变换分析。

其中k表示第k个滤波器，Hm（k）表示第k个mel滤波器组，f（m）为中心频率，m=1，2，…K，K表示滤波器个数。

经过仿真实验分析比较，可以分析得出Mel倒谱系数（MFCC）参数较线性预测倒谱系数（LPCC）参数的优点，优点如下：

（1）语音低频信号是语音信息的聚集区，高频信号相对低频语音信号更容易受到周围环境等的干扰。Mel倒谱系数（MFCC）将线性频标转化为Mel频标，强调语音的低频信息，从而突出了有利于识别的信息，屏蔽了噪声的干扰[8]。LPCC参数是基于线性频标的，所以没有这一特点；

（2）MFCC参数无任何假设前提，在各种语音信号预处理情况下均可使用，但是LPCC参数首先假定所处理的语音信号是AR信号，对于动态特性较强的辅音，这个假设并不严格成立[8]；

（3）MFCC参数提取过程中需要经过FFT变换，我们可以顺便获得语音信号频域上的全部信息，不需要多花费时间处理，有利于端点检测、语音分段等算法实现[8]。

4 训练与识别

训练和识别是语音识别的中心内容，有很多专家学者研究了一系列成果。语音识别实质是模式匹配的过程，而对分类器和分类决策的设计[9]又是模式匹配的核心。在现有的分类器设计[10-11]中，经常使用的有：动态时间规整（Dynamic Time Warping，DTW）分类器、基于人工神经网络（Artificial Neural Networks，ANN）分类器、基于高斯混合模型（GMM）分类器、基于Bayes规则的分类器、基于HMM分类器[12]等。

本文重点讨论语音信号预处理中技术及实现，对训练和识别技术不再做研究描述。

【参考文献】

[1]尹岩岩.基于语音识别与合成的低速率语音编码研究[D].上海师范大学，2013.

[2]張伟伟.通信系统中语音质量评价的研究[D].北京邮电大学，2014.

[3]朱淑琴.语音识别系统关键技术研究[D].西安电子科技大学，2004.

[4]王伟臻.基于神经网络的语音识别研究[D].浙江大学，2008.

[5]钟林鹏.说话人识别系统中的语音信号处理技术研究[D].电子科技大学，2013.

[6]周刚，周萍，杨青.一种简单的噪声鲁棒性语音端点检测方法[J].测控技术，2015，（02）：31-34.

[7]薛胜尧.基于改进型双门限语音端点检测算法的研究[J].电子设计工程，2015，（04）：78-81.

[8]惠博.语音识别特征提取算法的研究及实现[D].西北大学，2008.

[9]张宁.基于决策树分类器的迁移学习研究[D].西安电子科技大学，2014.

[10]汪云云.结合先验知识的分类器设计研究[D].南京航空航天大学，2012.

[11]李杨.基于神经网络的分类器设计及优化[D].安徽农业大学，2013.

[12]厉小润，赵光宙，赵辽英.决策树支持向量机多分类器设计的向量投影法[J]. 控制与决策，2008（07）：745-750.

[责任编辑：朱丽娜]