基于声波特征提取的婴儿哭声分类算法研究

2021-08-14 03:41文开妍郭芷妍彭业诚周小茜苏辰昊
信息记录材料 2021年7期
关键词:哭声识别率成年人

文开妍,郭芷妍,彭业诚,周小茜,苏辰昊

(天津理工大学 天津 300384)

1 引言

哭是婴儿特殊的语言表达方式,在婴儿的哭声中可以传达出其心理和生理上不同的需求,研究其哭声能够帮助人们更好地理解婴儿想要传达的意思,在一定程度上实现了对婴儿更好看护的目的。本文首先收集大量的婴儿在不同情况和时间的哭声数据,分析婴儿哭声。但是在采集婴儿哭声的时候会伴随着成人的说话声,所以就启动基于LSTM网络、GMM模型和基于LSTM-GMM-RNN模型的语音检测研究,该研究分别基于LSTM网络、GMM模型和LSTM-GMMRNN模型从音频流中识别出成人语音,能够有效剔除成人的部分,进而消除研究阻碍[1]。

2 婴儿的发声原理

鼻咽部、口咽部、喉咽部、肺部组成了人类基本的发声系统。发声系统中肺部可以为发声提供气流动力,通过肺的扩张和压缩来产生气流,并将这些气流和外界的氧气进行交换,就此产生动力。发声的最主要部位是喉咽部,喉咽部包括咽喉、声带。声带有两片韧带褶,两片声带之间会有一个很小的空隙,称之为声门。口咽部与鼻咽部在人类整个发声系统中所起的作用就是共鸣腔体,声道就是声门到嘴唇的整个呼吸通道。说话或者发出声音的时候,声门处交换的气流会导致声带发生振动,最后这种振动通过声道产生共鸣进而发出声音。在人模仿不同声音的同时,是因为声道会随之产生形状上的变化。口咽部又能够控制声道的形状是否发生变化,鼻子等其他器官组成了鼻咽部,能否发出鼻音的关键就在于鼻咽部。在婴儿出生的时候,与发声相关的系统都已经发育完全,但相比较于成年人,还是不够成熟,所以,婴儿与成年人的发声系统会有一定的差异。也就是结构的差异导致了婴儿相较于成年人的发出的声音不一样[2]。相对于成年人连续的发声来讲,婴儿的发声是不连贯的,而且一般突发性比较大,在婴儿的哭声中的信息量不是持续不断的,而是开始最强而后随着时间的延长慢慢减少的。当成年人想要发出声音的时候,会先由大脑将发声信号传输到相对应的发声部位,随后发声。婴儿的发声的原理也是一样的,只是相较于成年人来说,具有不稳定性。

3 基于声波特征提取婴儿哭声的计算方式

韵律特征以及谱相关特征,这两者都是把时域和频域分开提取特征。但是语谱图的相关特征不同于韵律特征,语谱图就可以把时域和频域关联在一起,语谱图的纹理、方向等其他表现方式,能够表示用语音表达情感的方式。声学特征包含在语谱图中,这些声学特征可以用静音段以及浊音横杠等,音频率、第一共振峰、第二共振峰以及第三共振峰都可以通过语谱图估计出来。语谱图中包含了丰富的语音声学特性,所以可以用语谱图中的声学特征作为语音识别的最基本条件,手机上的语音锁的原理也是如此。图1是婴儿在不同情况、不同情绪以及不同需求下所产生的声波图像。

图1 婴儿在不同情况、不同情绪以及不同需求下所产生的声波图像

根据上述的图片,不难发现婴儿在表达不同需求、不同情绪时,声波特征表现出的形式有很大的差异,根据这种方式计算出婴儿在不同时刻所出现的声波的不同,就可以在一定程度上帮助新手妈妈更好地了解婴儿的需求,为家长及婴儿带来更好的感受体验[3]。

婴儿所处的环境并不是绝对安静的,所以在数据上也会出现一些偏差,也会影响声音的识别率,利用SVM算法进行计算,将原本采集到的声音材料中添加高斯白噪声、空调噪声与下雨噪声所计算出来的识别率都会有下降的幅度,但是这三种噪声添加后,识别率的下降幅度大致相同。所以,在不同信噪比下,利用 SVM算法算出的婴儿在不同需求、不同情绪所计算出来的鲁棒性较好,但是利用SVM算法算出的在噪声条件下的识别率都在62%左右,识别率不高,需要进一步的研究计算。基于多尺度卷积核与多池化方法的改进CNN网络婴儿哭声中不同情感需求信息识别算法的鲁棒性。表1是根据不同噪声、不同分贝条件下的测试结果,婴儿的房间一般都比较安静,所以本次实验只采用了高斯白噪音、婴儿哭闹时成年人哄孩子的声音以及外面的下雨声音,以实验的形式为计算提供相应的数据。利用Softmax回归算法,高斯白噪音、哼唱噪音以及雨天噪音在25 db、20 Xdb、10 db,平均的识别率分别为63.1%、59.2%、57.3%。这种算法虽然有一定的鲁棒性,但是其性能还有待提高。

表1 不同噪声和不同分贝条件下婴儿哭声测试结果

由实验可知,相对于传统CNN网络,Softmax 回归算法、ANN 算法与SVM算法所呈现的婴儿哭声在各种噪音里的抗噪音能力是截然不同的,改进CNN网络算法,婴儿在不同情绪、不同需求时的哭声的识别能力会变的更强。这四种计算方式在同样的噪音环境中进行对比,其中改进过后的CNN网络计算出来的婴儿哭声识别率仍然有待提高。SVM模型可以通过声学特征MB-LBP反复练习得到,利用在主音频中添加不同的噪音,就能通过计算方式来提高婴儿哭在其中的识别率,通过添加不同的噪音类型,对婴儿哭声的识别能力也在不断增加。利用SVM算法作为分类型算法,就MB-LBP特征来讲,其中婴儿哭声在不同情绪、不同需求的情况下的鲁棒性更强,这就代表这种方式的抗噪能力变得更强[4]。

也可以利用LBP特征的原理计算婴儿在不同需求、不同情感的时候所计算出来结果。通常生物医学会利用到LBP特征,它属于遥感图像等图像的相关领域,LBP的原理及LBP的等价模式主要可以运用局部二值模式进行主要解释,其中Gabor小波原理将二维Gabor小波的相关理论知识做出了基本解释。收集到的婴儿哭声大多伴随着成年人说话的声音,由于婴儿哭声和成人语音的持续时间都会超过100 ms,所以需要在计算后再进行处理将神经网络的预测结果进行后续处理,用这种方式能够消除计算结果中短暂的婴儿哭声以及成人语音,用这种方法可以最大可能减少因为误差产生的错误判断,由此提高检测的准确性。其中后续处理所采用的就是中值滤波,利用中值滤波器处理神经网络的输出序列,由此就能够得到新的序列。利用序列准确区分出来成年人语音的部分,就可以将成年人的语音片段准确剔除,这样就能够提取出纯净的婴儿哭声,可以将婴儿哭声的片段进行保存,用于后续数据计算,不仅可以使得计算出来的数据更加准确,还可以保护成年人的隐私。这些研究主要进行了提取婴儿在不同情绪下的哭声、婴儿在不同情绪时的行为表现,利用这些基本信息研究婴儿在不同情绪下的主要声波变动情况。这些研究主要针对婴儿在家庭中的需求得不到及时满足,而要求成年人用“猜”的方式进行对婴儿的照顾,研究结果就可以利用一定的技术造出某种仪器进行探测,从而省去了很大的麻烦。虽然以上的方式能在一定程度上判断到婴儿在大部分情况下的需求,但是由于技术的不完善,会产生一些偏差,还有待研究[5]。

4 结语

综上所述,婴儿的哭声对每一个家庭都非常重要,婴儿的哭声代表着许多不同的情绪,比如饥饿、困倦、不舒服以及疾病,家长们能够及时了解这些哭声的意义尤为重要,通过一些专业的渠道计算出大致的声音波动,虽然不能很准确判断婴儿哭声的情绪,但还是有一定参考价值,结果所得在噪声环境下判断婴儿准确性高达75%,绝对安静的环境下准确性则达到了86%左右[6]。

猜你喜欢
哭声识别率成年人
成年人是如何渐渐失去朋友的
哭声
成年人爆笑日常
爱吃哭声的妖怪
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
成年人的辛苦
小宝宝的哭声,你听懂了吗
提升高速公路MTC二次抓拍车牌识别率方案研究
高速公路机电日常维护中车牌识别率分析系统的应用