基于声波特征提取的婴儿哭声分类算法研究

2021-08-14 03:41文开妍郭芷妍彭业诚周小茜苏辰昊

信息记录材料 2021年7期

文开妍，郭芷妍，彭业诚，周小茜，苏辰昊

（天津理工大学天津 300384）

1 引言

哭是婴儿特殊的语言表达方式，在婴儿的哭声中可以传达出其心理和生理上不同的需求，研究其哭声能够帮助人们更好地理解婴儿想要传达的意思，在一定程度上实现了对婴儿更好看护的目的。本文首先收集大量的婴儿在不同情况和时间的哭声数据，分析婴儿哭声。但是在采集婴儿哭声的时候会伴随着成人的说话声，所以就启动基于LSTM网络、GMM模型和基于LSTM-GMM-RNN模型的语音检测研究，该研究分别基于LSTM网络、GMM模型和LSTM-GMMRNN模型从音频流中识别出成人语音，能够有效剔除成人的部分，进而消除研究阻碍[1]。

2 婴儿的发声原理

鼻咽部、口咽部、喉咽部、肺部组成了人类基本的发声系统。发声系统中肺部可以为发声提供气流动力，通过肺的扩张和压缩来产生气流，并将这些气流和外界的氧气进行交换，就此产生动力。发声的最主要部位是喉咽部，喉咽部包括咽喉、声带。声带有两片韧带褶，两片声带之间会有一个很小的空隙，称之为声门。口咽部与鼻咽部在人类整个发声系统中所起的作用就是共鸣腔体，声道就是声门到嘴唇的整个呼吸通道。说话或者发出声音的时候，声门处交换的气流会导致声带发生振动，最后这种振动通过声道产生共鸣进而发出声音。在人模仿不同声音的同时，是因为声道会随之产生形状上的变化。口咽部又能够控制声道的形状是否发生变化，鼻子等其他器官组成了鼻咽部，能否发出鼻音的关键就在于鼻咽部。在婴儿出生的时候，与发声相关的系统都已经发育完全，但相比较于成年人，还是不够成熟，所以，婴儿与成年人的发声系统会有一定的差异。也就是结构的差异导致了婴儿相较于成年人的发出的声音不一样[2]。相对于成年人连续的发声来讲，婴儿的发声是不连贯的，而且一般突发性比较大，在婴儿的哭声中的信息量不是持续不断的，而是开始最强而后随着时间的延长慢慢减少的。当成年人想要发出声音的时候，会先由大脑将发声信号传输到相对应的发声部位，随后发声。婴儿的发声的原理也是一样的，只是相较于成年人来说，具有不稳定性。

3 基于声波特征提取婴儿哭声的计算方式

韵律特征以及谱相关特征，这两者都是把时域和频域分开提取特征。但是语谱图的相关特征不同于韵律特征，语谱图就可以把时域和频域关联在一起，语谱图的纹理、方向等其他表现方式，能够表示用语音表达情感的方式。声学特征包含在语谱图中，这些声学特征可以用静音段以及浊音横杠等，音频率、第一共振峰、第二共振峰以及第三共振峰都可以通过语谱图估计出来。语谱图中包含了丰富的语音声学特性，所以可以用语谱图中的声学特征作为语音识别的最基本条件，手机上的语音锁的原理也是如此。图1是婴儿在不同情况、不同情绪以及不同需求下所产生的声波图像。

图1 婴儿在不同情况、不同情绪以及不同需求下所产生的声波图像

根据上述的图片，不难发现婴儿在表达不同需求、不同情绪时，声波特征表现出的形式有很大的差异，根据这种方式计算出婴儿在不同时刻所出现的声波的不同，就可以在一定程度上帮助新手妈妈更好地了解婴儿的需求，为家长及婴儿带来更好的感受体验[3]。

婴儿所处的环境并不是绝对安静的，所以在数据上也会出现一些偏差，也会影响声音的识别率，利用SVM算法进行计算，将原本采集到的声音材料中添加高斯白噪声、空调噪声与下雨噪声所计算出来的识别率都会有下降的幅度，但是这三种噪声添加后，识别率的下降幅度大致相同。所以，在不同信噪比下，利用 SVM算法算出的婴儿在不同需求、不同情绪所计算出来的鲁棒性较好，但是利用SVM算法算出的在噪声条件下的识别率都在62%左右，识别率不高，需要进一步的研究计算。基于多尺度卷积核与多池化方法的改进CNN网络婴儿哭声中不同情感需求信息识别算法的鲁棒性。表1是根据不同噪声、不同分贝条件下的测试结果，婴儿的房间一般都比较安静，所以本次实验只采用了高斯白噪音、婴儿哭闹时成年人哄孩子的声音以及外面的下雨声音，以实验的形式为计算提供相应的数据。利用Softmax回归算法，高斯白噪音、哼唱噪音以及雨天噪音在25 db、20 Xdb、10 db，平均的识别率分别为63.1%、59.2%、57.3%。这种算法虽然有一定的鲁棒性，但是其性能还有待提高。

表1 不同噪声和不同分贝条件下婴儿哭声测试结果

由实验可知，相对于传统CNN网络，Softmax 回归算法、ANN 算法与SVM算法所呈现的婴儿哭声在各种噪音里的抗噪音能力是截然不同的，改进CNN网络算法，婴儿在不同情绪、不同需求时的哭声的识别能力会变的更强。这四种计算方式在同样的噪音环境中进行对比，其中改进过后的CNN网络计算出来的婴儿哭声识别率仍然有待提高。SVM模型可以通过声学特征MB-LBP反复练习得到，利用在主音频中添加不同的噪音，就能通过计算方式来提高婴儿哭在其中的识别率，通过添加不同的噪音类型，对婴儿哭声的识别能力也在不断增加。利用SVM算法作为分类型算法，就MB-LBP特征来讲，其中婴儿哭声在不同情绪、不同需求的情况下的鲁棒性更强，这就代表这种方式的抗噪能力变得更强[4]。

也可以利用LBP特征的原理计算婴儿在不同需求、不同情感的时候所计算出来结果。通常生物医学会利用到LBP特征，它属于遥感图像等图像的相关领域，LBP的原理及LBP的等价模式主要可以运用局部二值模式进行主要解释，其中Gabor小波原理将二维Gabor小波的相关理论知识做出了基本解释。收集到的婴儿哭声大多伴随着成年人说话的声音，由于婴儿哭声和成人语音的持续时间都会超过100 ms，所以需要在计算后再进行处理将神经网络的预测结果进行后续处理，用这种方式能够消除计算结果中短暂的婴儿哭声以及成人语音，用这种方法可以最大可能减少因为误差产生的错误判断，由此提高检测的准确性。其中后续处理所采用的就是中值滤波，利用中值滤波器处理神经网络的输出序列，由此就能够得到新的序列。利用序列准确区分出来成年人语音的部分，就可以将成年人的语音片段准确剔除，这样就能够提取出纯净的婴儿哭声，可以将婴儿哭声的片段进行保存，用于后续数据计算，不仅可以使得计算出来的数据更加准确，还可以保护成年人的隐私。这些研究主要进行了提取婴儿在不同情绪下的哭声、婴儿在不同情绪时的行为表现，利用这些基本信息研究婴儿在不同情绪下的主要声波变动情况。这些研究主要针对婴儿在家庭中的需求得不到及时满足，而要求成年人用“猜”的方式进行对婴儿的照顾，研究结果就可以利用一定的技术造出某种仪器进行探测，从而省去了很大的麻烦。虽然以上的方式能在一定程度上判断到婴儿在大部分情况下的需求，但是由于技术的不完善，会产生一些偏差，还有待研究[5]。

4 结语

综上所述，婴儿的哭声对每一个家庭都非常重要，婴儿的哭声代表着许多不同的情绪，比如饥饿、困倦、不舒服以及疾病，家长们能够及时了解这些哭声的意义尤为重要，通过一些专业的渠道计算出大致的声音波动，虽然不能很准确判断婴儿哭声的情绪，但还是有一定参考价值，结果所得在噪声环境下判断婴儿准确性高达75%，绝对安静的环境下准确性则达到了86%左右[6]。