基于窄带VoIP网络的说话人识别

2021-07-25 11:00倪闻培申小虎

科技尚品 2021年3期

倪闻培申小虎

摘要：在语音同一鉴定案件中，自动语音识别方法逐渐被采用，但目前某些语音检材存在质量下降无法进行有效语音识别等问题。文章通过研究网络电话（VoIP）各特性因素（如语音编解码、数据包丢失、数据包乱序、网络抖动和外来串扰或回波），对自动语音识别系统（ASR）性能的影响做出系统分析。实验表明，数据包乱序对语音识别性能影响较小。相比LPCC特征，MFCC特征更加能够保证语音识别系统的鲁棒性。文章的研究结果，对未来开发鲁棒性强的自动语音识别系统，具有一定的借鉴价值。

关键词：自动语音识别;质量下降;窄带网络;MFCC特征;鲁棒性

中图分类号：TP37 文献标识码：A文章编号：1674-1064（2021）03-037-03

DOI：10.12310/j.issn.1674-1064.2021.03.017

自动语音识别是指，利用软件确定说话人身份的一种技术。低成本计算机和强大性能处理器的出现，使之成为一种经济的语音生物学识别方式，特别是在银行交易、司法科学和国土安全方面应用广泛[1-3]。随着互联网和电子商务的迅速发展，人们对互联网上具备语音功能的应用程序（如语音识别或说话人识别）越来越感兴趣。

基于IP协议的IP电话（VoIP）也称网络电话，是目前最流行的一种网络服务。正是由于其灵活性高、成本低、功能齐全的特点，网络电话（VoIP）应用中的网络呼叫中心、电话银行、远距离通信等，成为目前极具发展潜力的应用。另外，随着网络电话的广泛使用，一些新型犯罪模式逐渐产生，使消费者的隐私无法得到有效保障，给执法人员提出了新的挑战。因此，将合法窃听得到的网络电话（VoIP）录音进行说话人自动识别，可以协助有关机构对利用VoIP网络进行的相关犯罪活动开展调查[4]。然而，VoIP网络并不稳定，存在诸如数据丢包、数据包重新排序、延迟、网络抖动和外来串扰等因素的干扰[5]。在这种情况下，在VoIP网络中引入ASR系统前必须要解决一个重要问题，即对影响ASR系统识别效果的各种因素，如窄带VoIP网络中的混合激励线性预测（MELP）、数据包丢失、数据包重新排序、网络抖动或延迟和外来串扰等开展深入研究。

1 关键技术方法

1.1 VoIP网络环境下的语音传输

如图1所示，想要通过网络传输语音，从输入端接收语音后，必须要先对语音样本进行编码。然后将其插入到有序列号和创建时间戳的数据包中，再通过网络进行传输，之后在播放缓冲区接收后按时间顺序解码，最后从播放端开始播放。

1.2 ASR系统

ASR系统主要由特征抽取模块和模式分类模块两部分组成[6]，如图2所示。特征提取模块是将语音信号映射成说话人特有特征的数据集，简称为特征向量。在模式分类模块中，则是通过机器训练为每个说话人建立说话人模型。在进行说话人识别过程中，测试语音依次通过每个特征提取模块，将测试语音特征与每个说话人的注册模型进行比较，最后将该测试语音匹配给注册模型中似然度[7]得分最高的说话人。

2 实验条件

2.1 实验设备

Skype、微信[8]或PJSIP[9]等公用网络平台;DET曲线绘制软件：DETware。

2.2 语音样本

该实验语音样本来自于由NIST、MIT林肯实验室、执法部门三者协同合作构建的一个用于多语种与多信道说话人识别（MMSR）的新语料库——DA-IICT语音库。这个语料库是由100个说话人（46名男性和54名女性，年龄范围在18岁～22岁）所构成的语音数据库。这些录音使用创新HS-300降噪耳麦采录得到。原始录音的采样频率为22 050Hz，之后降采样到8 000Hz。参与测试的说话人为无偿并自愿参与到本次语音数据收集中来的。录音的大部分时间段选择在傍晚或夜里。

3 实验方法

在未知说话人和已知说话人等两种模式下进行说话人验证，开展说话人识别任务。每一次测试都需将特定说话人与一段制定的测试语音进行比较，利用ASR系统对特定说话人是否出现在测试语音中，做出有效决策（真或假）。对于每次判断决策，还要求系统为每次测试提供表示决策置信度的似然得分，分数越高表明說话人在测试语音中出现的可信度越高。

在实验中，通过检测错误权衡（DET）曲线（各轴正态偏离尺度均一的ROC变种）来衡量ASR在不同阈值下的系统性能指标。实验中用于系统性能评估的另一种衡量指标是等误识率（EER），其是错误接受率和错误拒绝率相等时的错误率。虽然DET曲线能够从整体上直观地衡量系统性能，显示了在不同判定阈值下FR与FA的相互关系，但是检测代价函数（DCF）能够在特殊判定条件下对系统性能进行评估。

4 实验分析

4.1 语音编解码错误

实验中，首先利用MELP语音编解码V1.2对语音库内的各样本进行转码，从而实现在2.4kbps窄带语音传输条件下的最佳语音质量。为比较MELP编码与PCM编码（8kHz）对ASR性能的影响，图3中展示了在MFCC、LPCC和WLPC不同语音特征下的DET曲线，表1则列出了等误识率（EER）和min.DCF的值。由于认定测试和否定测试共有600 000个测试项目，因此在本实验中所有ASR测试的DET曲线均接近理想直线[10]。从DET曲线中可以清楚地看出，由于MELP编码的影响，说话人识别和确认的性能均明显下降。同时，与WLP（2.18%）和LPCC（2.29%）特征相比，MFCC特征的识别性能下降（0.93%）幅度略低。总之，低比特率编码是导致ASR性能急剧下降的主要因素。

4.2 数据丢包

VoIP网络中的数据包丢失，是由网络拥堵或路由器问题引起的，这会导致某些数据包延迟到达或者根本不能到达目的地。本实验中进行了模拟丢包的操作。从DET曲线、EER以及最小DCF值，如图4和表2所示，可以清楚地看出，说话人辨识和验证的正识率随着丢包率的上升而下降。与WLP、LPCC特征相比，MFCC特征的性能下降幅度较小。

4.3 数据包乱序（无序数据包）

网络拥塞时，数据包到达传输目的地的顺序与发送顺序可能会产生不同，导致合成器的状态信息与语音合成出现错误。在本实验中进行了数据包乱序的仿真测试，未考虑数据丢包的情况。图5显示了这种模拟数据包乱序对语谱图的影响，可以明显看出，数据包乱序对共振峰形态与频谱能量分布（在较宽的频率范围内）均产生了显著影响。实验中对3个和20个数据包进行重新排序后，使用语音库对ASR系统进行性能测试，得到不同语音特征对应的DET曲线，并获取了EER与最小DCF值，如表3所示。从实验中可以明显看出，数据包乱序对说话人辨识与验证的识别性能没有太大影响。

4.4 网络抖动

在VoIP中，网络抖动是由网络中的不同延迟引起的，导致某些数据包彼此之间彼此接近或远离。实验中设置的网络抖动量分别为10、50、100条件，用来验证ASR系统的识别性能。计算得到的EER和最小DCF值如表4所示。可以清楚地得出结论，说话人辨识和验证的正识率随着网络抖动量的增加而下降。与WLP、LPCC特征相比，MFCC特征的性能下降幅度较小。

4.5 回波-远端串音（FEXT）

在VoIP网络中，回波是在说话人声音传播到接收端麦克风过程中的远端串扰（FEXT）造成的。实验中从语音样本库提取了不同的声谱特征，并在仿真回波不同衰减系数条件下的ASR系统DET曲线。EER与最小DCF值如表5所示。实验结果表明：回波或串扰可导致ASR识别性能下降，且性能下降幅度是以衰减系数为参量的函数。如果用相同的衰减系数（1或0.5）抑制目标说话人和背景说话人的语音振幅，所产生的ASR性能下降幅度几乎也是相同的。

5 结语

本实验是基于在MELP语音编码的窄带VoIP网络上如何开展自动语音识别而开展的相关实验。研究表明，语音识别性能不受数据包乱序的影响。此结论可有助于设计安全稳定、鲁棒性较高的说话人识别系统。

本实验的不足在于，实验中测试和训练所采用的数据包重排序仿真技术均针对单个语音会话，ASR系统的EER指标数据较高，且重新排序的数据包数目是随意选择的，并未依据标准或真实VoIP网络环境。今后的研究将直接针对真实VoIP网络下的数据包乱序录音样本开展，并尝试盲源分离技术，尽量避免因回波产生而造成的识别性能下降。同时，使用不同的时间压缩修正算法改变各个数据包的播放音长，减少由网络抖动而导致的识别性能下降，保证语音播放流畅。

参考文献

[1] Boe LJ.Forensic voice identification in France[J].Speech Commun，2000，31（23）：205-224.

[2] Campbell JP Jr.Speaker recognition：a tutorial[J].Proc IEEE，1997，85（9）：1437-1462.

[3] Campbell JP，Shen W，Campbell WM，et al.Forensic speaker recognition：a need for caution[J].IEEE Signal Process Mag，2009，26（2）：95-103.

[4] 趙明.“互联网+”背景下电信网络诈骗案件侦防对策研究[D].兰州：甘肃政法大学，2018.

[5] Mehta P，Udani S.Voice over IP[J].IEEE Potentials，2001，20：36-40.

[6] Duda RO，Hart PE，Stork DG.Pattern classification and scene analysis[M].2nd edition.New York：Wiley，2001.

[7] 王华朋，杨军，许勇.应用似然比框架的法庭说话人识别[J].数据采集与处理，2013，28（2）：239-243.

[8] 刘林强.微信语音通话作为定案证据的条件[J].商，2015（26）：240.

[9] 杜奇才，邓诚刚，刘荧，等.基于Android平台的VoIP设计实现[J].微处理机，2017，38（2）：41-44.

[10] Martin AF，Doddington G，Kamm T，et al.The DET curve in assessment of detection task performance[C].Rhodes：Proc Eurospeech97，1997，1899-1903.