基于动态时间规整算法的语音识别技术研究

2017-11-08 16:42张慧敏

科技资讯 2017年26期

张慧敏

摘要：语音控制作为一种新型的人机交互手段，给用户带来更多的操作体验，在很多特定场景中具有必要性。本文将梅尔倒谱系数（MFCC）作为语音特征参数，采用动态时间规整算法（DTW）进行模式识别和分类，实现了小样本孤立词汇的实时识别，具有高识别率。在基本算法的基础上进行了边界条件改进，克服了端点检测缺陷。在语音特征提取上，分析比较了线性预测系数（LPC）和梅尔倒谱系数（MFCC）作为特征参数的优缺点，最后选定基于人耳听觉特性的MFCC作为语音特征参数。语音信号采用NI公司USB-6218采集卡将数据直接传输至MATLAB开发平台，在MATLAB集成环境下实现了语音识别程序。实验结果表明，系统可以实现6个特定的孤立词识别，满足实时性和准确性要求。

关键词：语音识别端点检测 DTW MFCC

中图分类号：TP39 文献标识码：A 文章编号：1672-3791（2017）09（b）-0028-04

Abstract： Speech control， as a new type of human-computer interaction method， brings better operation experience to users， and it is necessary in many specific scenes. In this paper， the MFCC are used as speech feature parameters， and the dynamic time warping algorithm （DTW） is used for pattern recognition and classification， which realizes the real-time recognition of small sample isolated words with high recognition rate. On the basis of the basic algorithm， the boundary condition is improved and the defect of endpoint detection is overcome. In the speech feature extraction， analysis and comparison of the linear prediction coefficient （LPC） and MFCC advantages and disadvantages as characteristic parameters， finally selected based on human auditory characteristics MFCC as speech feature parameters. The voice signals are directly transmitted to the MATLAB development platform by NI company's USB-6218 acquisition card， and the voice recognition program is implemented in the MATLAB integrated environment. Experimental results show that the system can implement 6 specific isolated word recognition， which meets the requirements of real-time and accuracy.

Key Words： Speech recognition； Endpoint detection； DTW； MFCC

语言是人与人之间最自然、最重要的交流工具，同时也是人类获取信息的重要途径之一。语音信号处理有四大分支，分别为语音识别、语音合成、语音编码和说话人识别。语音识别是下一代人机交互的核心技术之一，能够让机器按照人的语音指令进行各项操作，甚至与人交流，这在实际应用中具有极其重要的意义。1956年，美国普林斯顿大学RCA实验室利用带通滤波器组提取频谱参数特征，成功地研制出能识别10个单音节词的语音识别系统。20世纪60年代，随着计算机技术的发展和应用，动态规划（DP，Dynamic Programming）和线性预测分析技术（LP，Linear Prediction）两大技术推动了语音识别技术理论研究的发展。20世纪70年代，语音识别技术的研究取得了突破性的进展。动态时间规整算法（DTW，Dynamic time warping）、隐马尔可夫模型（HMM，Hidden Markov Models）和矢量量化（VQ，Vector Quantization）理论的提出为语音识别的研究提供了理论依据。20世纪80年代，经过Rabiner等人的研究，卡内基梅隆大学的李开复教授最终实现了第一个基于隐马尔科夫模型（HMM）的大词汇量语音识别系统Sphinx。进入20世纪90年代以来，小波变换、模糊控制、人工神经网络等数学工具的完善为语音识别技术提供了很多设计参考和问题解决方案，使得语音识别技术在细化模型设计，参数提取和优化以及系统的自适应技术上取得了很大的进展。因此，语音识别技术的研究具有极大的研究意义和应用价值。

1 系统设计

本系统中，语音信号经过两级放大、二阶巴特沃斯带通滤波、A/D转换后输入到MATLAB軟件系统进行数据处理和分析，系统硬件框架如图1所示。

语音系统的声电转换采用小巧的全指向性背极式驻极体声电换能器，该传声器参数如表1所示。

电容式驻极体声电换能器采用2V供电，根据参数计算，说话者距离麦克风有1M远时，平均输出电信号1～2mV。语音信号放大电路设计为反向放大电路，其增益比例为A1=（R2/R1），其中R2=30kΩ，R1=1kΩ。因此，信号反向放大倍数为30倍。为了保证信号不失真，语音信号放大部分采用两级反向放大，总增益为900倍输出。endprint

系统中的模数转换采用美国NI公司的USB-6218多功能DAQ数据采集卡。该采集卡具有USB接口和多功能DAQ模块，具有总线供电带隔离、高采样率、高精度特点。语音信号经过DAQ转换后，通过USB接口输入到MATLAB软件分析处理。

2 识别算法研究

软件算法主要分为语音信号滤波去噪、预加重、分帧、端点检测、特征参数提取、模式匹配。算法的关键点和难点是特征参数提取和模式匹配。孤立词的语音识别应用程序也是基于MATLAB的GUI进行开发。

2.1 语音预处理

语音信号是一种典型的非平稳随机信号，容易受到呼吸气流、环境背景噪声、电流噪声的影响。所以，在对语音信号进行下一步分析之前，需要对硬件电路采集回来的语音信号进行预滤波、预加重、分帧加窗、端点检测等。预处理后的语音信号噪声干扰较小，信号较纯净，特征参数较稳定，适合后续的模式识别和匹配分类，图2是语言信号预处理过程图。

在本系统中，预滤波采用数字滤波方法，设计了一个五阶巴特沃斯带通滤波器，通频带范围为370Hz～3.4kHz。经过预提升后，原始语音信号中的低频干扰得到抑制，改善了高频部分，使得高频信号得到增强。预加重不仅能够有效抑制低频，提升高频，还能有效消除5～60Hz的工频干扰。特别是在端点检测前进行预加重，可以起到消除基线漂移、抑制随机噪声的作用。在分帧加窗中，采样语音时间长度为1.2s，采样频率为8000Hz，即9600点。分帧函数中，每帧长度设置为80，帧移间隔为40，为了减少信号的时域截断效应，窗函数选用汉明窗。经过分帧以后，语音信号被分成了239帧。最后在语音识别系统中，通过端点检测准确找到原始语音信号的起始点可以获取有效的语音信息，减少语音处理数据量，抑制无声段噪声干扰，有助于实时语音识别。本系统采用基于能量和過零率的双门限来实现端点检测。

2.2 语音特征信息提取

经过端点检测后的语音信息再进行特征参数提取和模式匹配研究，该算法基于线性预测系数LPC模型为基础开展研究，由于LPC模型对于动态性较强的辅音不严格成立，语音信号的特征参数鲁棒性不是很好。现阶段在语音识别技术中得到广泛应用的梅尔频率倒谱系数是另一种更加有效的语音特征参数。梅尔（Mel）频率倒谱系数是基于人耳听觉特性提出的，将人耳听觉感知特性与人类语音产生结合起来得到的一种特征参数。由于对输入信号不做假设和约束，与输入信号特性无关，因此，具有较高的鲁棒性。

当声音频率低于1000Hz的时候，人耳对声音的感知近似满足线性关系；当声音频率高于1000Hz的时候，人耳对声音的感知不再近似满足线性关系，而是在对数频率坐标上近似满足线性关系。

MEL频率倒谱系数的计算过程见图3。

通常MFCC系数的第一维的能量很大，在语音识别系统中，将称为能量系数，不作为倒谱系数。

利用上述方法提取的MFCC参数只能表征语音信号的静态特征，然而人耳对语音信号的动态特征更为敏感。为了更准确地反映语音动态特征需要进行二次特征提取。二次特征提取是指对原始特征向量进行二次分析，通常是加权、差分、筛选。在语音识别中，一阶和二阶差分可以表示特征向量变化速度，体现了语音的言语和韵律变化，较好地描述了语音信号的动态特性。因此，采用一阶和二阶差分倒谱参数来描述语音信号。

2.3 动态时间规整识别算法

前面的端点检测算法确定了语音信号的起点和终点。假设参考模板为，共M帧；测试语音为，共N帧。由于M≠N，动态时间规整通过寻找一个时间规整函数m=w（n），使得测试语音的时间轴通过非线性变换函数映射到参考模板的时间轴，并使得该函数满足一下关系式：

在这里，是第n帧测试语音特征矢量与第m帧参考模板特征矢量之间的距离。D就是处于最优时间规整情况下两矢量的累积距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径，所以得到的是两矢量匹配时累积距离最小所对应的规整函数，这就保证了它们之间存在的最大声学相似性。

基本的DTW算法对端点检测非常敏感，它要求进行比较的两个模板起点和终点分别对应，并且对端点检测的精度要求很高，在背景噪声较大或者语音中存在摩擦音时，端点检测往往不会非常精准，端点检测结果可能会对动态规整造成不可预知的误差。此时，必须将边界约束条件放宽。通常的做法是放宽区域中边界约束条件不再要求起点和终点严格对齐，这样就解决了由于端点检测算法的缺陷带来的参考模板和测试模板的起点和终点不能分别对齐的问题。实际中，起点和终点分别在横轴和纵轴两个方向上各放宽2～3帧，即起点（1，1）、（1，2）、（1，3）、（2，1）、（3，1）处，终点类推，就可以在不影响识别结果的前提下解决端点检测缺陷问题。

3 实验与分析

实验采集了8位实验者的语音数据，4位男性实验者，4位女实验者，受试者没有发音障碍，不对受试者口音限制。每位实验者根据屏幕提示分别朗读6个词语，每个词语重复10遍，采集卡每次记录1.2s的语音数据，采样率为8000Hz。为了减少偶然性，奇数次朗读作为训练集，偶数次朗读作为测试集。整个实验在白天普通实验室环境下进行。为保证实验效果，正式实验前，受试者进行10min的熟悉和练习。实验结果如下。

实验结果表明，对于每个实验者而言，识别准确率都超过95%，识别率高，效果好。男性实验组和女性实验组没有统计学差异，说明DTW语音识别算法不会因为性别不同影响性能。

4 结语

针对孤立小词汇识别选用了动态时间规整算法（DTW），并且基于端点检测缺陷的考虑，提出改进的DTW算法。通过软件编程实现了DTW算法，在实验中进行验证，实验结果表明DTW算法可以很好地实现系统中指定的孤立词汇识别，具有较好的鲁棒性和抗噪性能，识别率高。

参考文献

[1] 舒琦.小词汇量的孤立词语音识别方法研究[D].武汉：武汉理工大学，2012.

[2] 徐晓娜.基于HMM和ANN的语音识别算法研究[D].长春：长春理工大学，2009.

[3] 胡航.语音信号处理[M].2版.哈尔滨：哈尔滨工业大学出版社，2000.

[4] 杨行峻.语音信号数字处理[M].北京：电子工业出版社，2003.

[5] WH Shin，BS Lee，YK Lee，et al.Speech/non-speech Classification Using Multiple Features for Roust Endpoint Detection[J].IEEE International Conferece on Acoustics，2000（3）：1399-1402.

[6] 张军.基于MFCC的语音识别加速技术研究[D].北京：北京化工大学，2009.

[7] 谢礼莹.模拟电路实验技术（上册）[M].重庆：重庆大学出版社，2005.endprint