噪声环境下基于自适应高斯混合模型的说话人识别

2020-07-30 14:03王韵琪张微杨博云

科技视界 2020年17期

关键词：鲁棒性高斯分量

王韵琪张微杨博云

摘要

本文提出运用具有自适应拟合特点的高斯混合模型算法以提升系统在噪声环境下的识别性能。通过实验，结果显示在噪声环境下本文运用的自适应高斯混合模型算法可以提高系统的识别率。

关键词

说话人识别;自适应高斯混合模型;模型拟合

中图分类号： TN912.34 文献标识码： A

DOI：10.19694/j.cnki.issn2095-2457 . 2020 . 17 . 15

Abstract

This paper proposes to use a Gaussian mixture model algorithm with automatically adaptive fitting feature to improve the speaker recognition system in recognition performance under noisy environment. The recognition experiment results show that the automatically adaptive Gaussian mixture model algorithm used in this paper can effectively improve the recognition performance of the speaker recognition system under noisy environment.

Key words

Speaker Recognition; Adaptive Gaussian Mixture Model; Model Fitting

0 引言

說话人识别系统通常有如下三种提高系统的鲁棒性方法：第一种是模型补偿，即在说话人模型中引入噪声模型，补偿模型中的噪声拟合，比如，并行模型合并;第二种是在说话人识别前利用降噪来减少语音中的噪声，比如，前端处理即预处理中加入语音增强环节;第三种是寻找具有鲁棒性的特征参数。

1 双线性频率倒谱系数BFCC

基于人耳听觉特性的美尔频率倒谱系数MFCC，不需要依赖于全极点模型假设，因此它与LPCC相比更具有噪声鲁棒性。对于说话人识别系统而言，基于人耳听觉感知特性的MFCC虽然普遍使用且效果不错，但它同时增强了语义信息和个性特征，这样是不合理的。所以，辨别出哪些频带包含更多说话人个性特征，通过计算每个频带对识别性能贡献水平获得每个频带包含的说话人个性特征信息量[3]。计算过程介绍如下：

（1）对语音信号s（n）进行预处理。

（2）通过DFT变换后获得线性频谱，再通过Bilinear变换获得频谱的边界点。

（3）再放置等宽三角形滤波器组。

（4）经过对数变换后再DCT变换，从而获得新的Bilinear倒谱系数BFCC。

2 自适应高斯混合模型AGMM

说话人语音分布用传统GMM固定不变的高斯混合数是不准确的[4]，过拟合或者欠拟合现象仍然不可避免。在AGMM训练过程当中，高斯分量依据吸收、合并和分裂动态地调整。假如高斯分量权重很小，就认为这个分量没有实际价值分量可以直接消除;假如两个高斯分量间隔很近，就可以认为它们具有相同的声学特征分布，所以将这两个高斯分量合并;假如某个分量包含了过多的样本，可以采用分裂方式。

具体训练步骤如下：

步骤1：设置各类参数：AGMM初始混合数K，EM训练次数H，以及阈值αt1，αt2，αt3，Dt，σt。

步骤2：训练模型由EM算法实现。

步骤3：对于步骤2获得的模型，假如某一高斯分量（wi，μi，∑i）权重小于，即需要消除此分量，用最近分量（wj，μj，∑j）吸收这个分量，按照以下方式吸收：

3.2 AGMM实验结果及分析

本节实验环境与实验条件与4.1节相同。当使用BFCC参数时，噪声为高斯白噪声，在不同训练语音长度下AGMM和传统GMM识别准确率比传统GMM都要高。

4 结论

本文结合BFCC，采用AGMM训练语音，在高斯白噪声实验环境下能够提高说话人识别率，说明在其他条件一致下，提取表征说话人个性信息的特征参数BFCC和训练自适应高斯混合模型AGMM，系统具有较高的鲁棒性。目前只实验了高斯白噪声，今后会进一步实验其他噪声环境下说话人识别率。

参考文献

[1]芮贤义，俞一彪.噪声环境下说话人识别的组合特征提取方法[J].信号处理，2006（10）：673-677.

[2]曾春艳，马超峰，等.深度学习框架下说话人识别研究综述[J].计算机工程与应用，2020（07）：8-16.

[3]俞一彪，袁冬梅，薛峰.一种适于说话人识别的非线性频率尺度变换[J].声学学报，2008（09）：450-455.

[4]徐利敏，唐振民，等.基于自适应直方图均衡化的鲁棒性说话人辨认研究[J].自动化学报，2008（07）：752-759.