基于小波包能量的煤矿瓦斯和煤尘爆炸声音识别方法

2023-02-21 08:05余星辰王云泉

工矿自动化 2023年1期

余星辰，王云泉

（1.中国矿业大学（北京）机电与信息工程学院，北京 100083；2.中国中煤能源集团有限公司，北京 100011）

0 引言

瓦斯爆炸、瓦斯煤尘爆炸和煤尘爆炸（以下简称瓦斯和煤尘爆炸）是煤矿重特大事故之一[1-2]。煤矿瓦斯和煤尘爆炸具有突发性，一旦发生将造成重大的人员伤亡和财产损失。目前，煤矿瓦斯和煤尘爆炸监测主要通过人工完成，存在漏报率和误报率高等问题，难以满足瓦斯和煤尘爆炸事故应急救援需求。因此，正确辨识煤矿瓦斯和煤尘爆炸具有重要意义[3-5]。

声音具有传播距离远、受巷道弯曲和分支影响小等特点[5]，声音识别在煤矿瓦斯和煤尘爆炸辨识中取得了较好效果。文献[2]根据爆炸声的时域和频域特征与其他声音不同的特点，提出了通过声音智能分析和声音频率、幅度、短时能量等特征参数分析感知煤矿瓦斯和煤尘爆炸。文献[3]采用互补集合经验模态分解（Complementary Ensemble Empirical Mode Decomposition，CEEMD）对声音信号进行分解，得到模态分量的样本熵，构成声音信号的特征量，再将特征量输入到支持向量机（Support Vector Machine，SVM）中进行声音识别分类，实现瓦斯和煤尘爆炸声音识别。文献[4]通过双树复小波变换得到的能量熵比值来表征声音信号，并利用极限学习机（Extreme Learning Machine，ELM）对声音进行分类，从而识别瓦斯和煤尘爆炸声音。

小波包分解是小波分解的推广，提高了信号的时频分辨率，是一种更精细的信号分析方法，具有良好的正交性、完备性、局部性[6-10]。信号通过小波包分解后的能量分布可反映信号的不确定性和复杂度，实现对信号特征量化表征的目的。为进一步提高煤矿瓦斯和煤尘爆炸声音识别的准确率，笔者提出基于小波包能量的煤矿瓦斯和煤尘爆炸声音识别方法，通过实时监测声音信号的小波包能量分布，实现瓦斯和煤尘爆炸声音识别。

1 方法原理

煤矿瓦斯和煤尘爆炸声音特征与煤矿井下环境和设备工作声音有明显区别[1-2]。基于小波包能量的煤矿瓦斯和煤尘爆炸声音识别方法原理如图1 所示。在煤矿井下重点监测区域安装矿用拾音设备，实时采集环境与设备工作声音；将采集到的声音通过小波包分解得到分解分量的能量占比，构成表征声音的特征向量；将特征向量输入BP 神经网络中，训练得到煤矿瓦斯和煤尘爆炸声音识别模型；将待测声音通过小波包分解后，得到表征该声音的特征向量，并输入煤矿瓦斯和煤尘爆炸声音识别模型中，识别待测声音类别。

图1 基于小波包能量的煤矿瓦斯和煤尘爆炸声音识别方法原理Fig.1 Principle of coal mine gas and coal dust explosion sound recognition method based on wavelet packet energy

1.1 特征提取

1.1.1 小波包分解

小波包分解是在小波分解的基础上增加对信号高频部分的分解，可以克服小波分解在高频段的频率分辨率较差的缺点，能对声音信号频带进行多层次的均匀划分[11-16]。鉴于矿用拾音器收集到的声音通常是非平稳信号，采集的声音数据通过小波包分解后可以得到任意独立频段的信号，且煤矿瓦斯和煤尘爆炸声音与煤矿井下其他声音在时域和频域差异明显[3-4]，因此，小波包分解在处理煤矿井下声音信号方面更有优势，能分辨煤矿井下声音在不同频带的能量分布情况。小波包分解得到高频和低频子频带，对于l层小波包分解的信号，能够得到 2l个子频带[17-19]。

1.1.2 小波包能量占比

根据帕塞瓦尔定理，信号在时域的总能量与信号在频域的总能量相等。由此可知，信号在通过小波包分解前后的总能量始终保持相等。不同子频带上的能量为[8，20]

式中di,j(k)为信号分解后第i个子频带第j层对应的第k（k=1，2，…，n，n为信号长度）个采样点的幅值。

信号总能量为

小波包能量占比为[8]

小波包能量占比构成表征声音信号的特征向量。本文选择小波包分解层数为3，因此可得包含8 个特征值的特征向量。

1.2 BP 神经网络建立

神经网络的训练方式主要分为有监督学习和无监督学习2 种[17]。结合煤矿瓦斯和煤尘爆炸声音、煤矿井下设备工作声音及环境音等信号特征和小波包分解特征向量表征方式，笔者建立有监督学习的BP 神经网络对煤矿瓦斯和煤尘爆炸声音进行识别。

BP 神经网络主要由输入层、隐含层和输出层组成[17]。BP 神经网络的学习过程分为特征正向传播和误差反向传播2 个部分：输入信号由神经网络正向传递到隐含层，计算得到神经元的输出结果，将输出结果传入输出层与期望输出比较，若小于期望输出，则将二者误差反向传回输入层，并作为权值和阈值的修正依据，如此反复，直至误差达到预设的目标阈值，训练完成。

1.2.1 BP 神经网络各层节点数

（1）输入层节点数。输入层节点数由输入信号的维度决定。由于输入BP 神经网络的表征声音信号的特征向量包括8 个特征值，所以确定输入层节点数为8。

（2）输出层节点数。本文将需要区分的声音信号划分为煤矿瓦斯和煤尘爆炸声音及非煤矿瓦斯和煤尘爆炸声音2 类：识别为煤矿瓦斯和煤尘爆炸声音则BP 神经网络输出结果为1；识别为非煤矿瓦斯和煤尘爆炸声音则BP 神经网络输出结果为0。因此，输出层节点数为1。

（3）隐含层节点数。BP 神经网络可实现从M维到N维的非线性映射，隐含层节点数为[18]

式中：M为输入层节点数；N为输出层节点数；m为经验参数，1

由于输入层节点数为8，输出层节点数为1，取m=5，所以确定隐含层节点数为8。

1.2.2 BP 神经网络参数

（1）采用双曲正切S 型传输函数（tansig）作为隐含层和输出层的激活函数。

（2）初始权值在（0，1）内由BP 神经网络根据条件随机选取产生。

（3）学习率的选取对训练网络权值变化、训练时长及收敛速度有直接影响。通过大量实验论证，本文选择学习率为0.15。

（4）神经网络的期望误差为0.01，最大迭代次数为5 000。

2 实验分析

2.1 实验条件

在神华宁夏煤业集团有限责任公司双马煤矿和中煤科工集团重庆研究院有限公司完成声音采集。声音采集设备为HYV-E720 录音笔，内存为16 GB，所有音频文件均为单声道，采样频率为48 kHz，保存格式为.wav。数据处理及实验均在Intel i9-9980HK CPU@2.40 GHz、32 GB 内存、64 位操作系统的服务器上使用Matlab2012b 完成。

2.2 参数选择

2.2.1 小波包分解层数

小波包分解层数对信号分解效果具有重要作用。信号通过小波包分解的噪声主要集中在高频部分，噪声随着分解层数的增加而减少，但分解层数过高会导致信号的信息丢失。为选择最优分解层数，监测不同分解层数中的噪声。最大分解层高频部分噪声含量与前一分解层基本无差别，则表示该层是最优分解层数[21]。小波包能量占比可表征分解层的噪声大小。若某一层高频分量与前一层高频分量的小波包能量占比差值小于前一层高频分量与相邻层高频分量的小波包能量占比差值，则代表该层为最优分解层数。

煤矿井下采集的声音经过小波包分解的高频分量小波包能量占比差值分布如图2 所示。可看出声音信号通过小波包分解后，第4 层高频分量与第3 层高频分量的小波包能量占比差值小于第3 层高频分量与第2 层高频分量的小波包能量占比差值；除了锚杆机工作声音和风镐工作声音，其余声音的高频分量小波包能量占比差值不足0.5%，若分解层数增加到4，信号分解效果的提升空间不大，且易造成声音信号的丢失。因此，选择小波包分解层数为3 是符合实际应用要求的。

图2 经小波包分解的声音高频分量小波包能量占比差值分布Fig.2 Distribution of wavelet packet energy proportion difference of high frequency sound component decomposed by wavelet packet

2.2.2 小波函数

为选取最优的小波函数对声音信号进行小波包分解，将瓦斯爆炸、采煤机工作、掘进机工作3 种声音信号（声音时长为1 s）分别通过Haar 小波函数和db4 小波函数进行小波包分解（小波包分解层数为3），得到第3 层分解结果及小波包系数分布，分别如图3、图4 所示，其中，d1-d4为低频分量，d5-d8为高频分量。由于本文声音采集设备的采样频率为48 kHz，根据小波包分解原理可知，d1的频率范围为0～6 kHz，d2的频率范围为6～12 kHz，d3的频率范围为12～18 kHz，d4的频率范围为18～24 kHz，d5的频率范围为24～30 kHz，d6的频率范围为30～36 kHz，d7的频率范围为36～42 kHz，d8的频率范围为42～48 kHz。

由图3 可知，经Haar 小波函数分解的瓦斯爆炸声音小波包系数分布与其他声音的差异较明显：瓦斯爆炸声音的小波包系数主要分布在d1的频率范围内，其次分布在d2-d4的频率范围内；采煤机工作声音的小波包系数集中分布在d1的频率范围内，其次分布在d2的频率范围内；掘进机工作声音的小波包系数主要分布在d1的频率范围内，其次分布在d2，d3的频率范围内。

由图4 可知，经db4 小波函数分解的瓦斯爆炸声音小波包系数分布与其他声音的差异较明显：瓦斯爆炸声音的小波包系数主要分布在d1的频率范围内，其次分布在d2的频率范围内；采煤机工作声音的小波包系数集中分布在d1的频率范围内；掘进机工作声音的小波包系数分布较其他2 个声音分散，主要分布在d1的频率范围内，其次分布在d2，d3的频率范围内。

结合图3、图4 可看出，基于Haar 小波函数的小波包分解信号在d1-d8的连续性较好，信号幅度变化较小，且波形稳定，小波包分解效果优于db4 小波函数。

图3 基于Haar 小波函数的声音信号小波包分解结果及小波包系数分布Fig.3 Wavelet packet decomposition results and wavelet packet coefficient distribution of sound signals based on Haar wavelet function

图4 基于db4 小波函数的声音信号小波包分解结果及小波包系数分布Fig.4 Wavelet packet decomposition results and wavelet packet coefficient distribution of sound signals based on db4 wavelet function

2.3 特征提取

本文选择Haar 小波函数，小波包分解层数为3，将采集到的煤矿井下包括瓦斯和煤尘爆炸声音在内的17 种声音（声音时长均为1 s）进行小波包分解，得到小波包能量占比分布，见表1。可看出瓦斯和煤尘爆炸声音的小波包能量占比与其他声音差异明显：瓦斯和煤尘爆炸声音能量主要集中在d1的频率范围内，瓦斯爆炸声音在d1的频率范围内能量占比达87.280%，煤尘爆炸声音在d1的频率范围内能量占比达90.100%，瓦斯爆炸声音在d2-d8的频率范围内能量占比为12.720%，煤尘爆炸声音在d2-d8的频率范围内能量占比为9.900%，瓦斯和煤尘爆炸声音能量占比分布相似性高；非瓦斯和煤尘爆炸声音属于不同类型的干扰声音，其中除了胶带和水泵工作声音与瓦斯和煤尘爆炸声音在d1，d2，d5，d7的频率范围内能量占比较接近（但在d3，d4，d6，d8的频率范围内能量占比仍存在差异），其余非爆炸声音与瓦斯和煤尘爆炸声音的能量占比分布相似性低。

为了研究小波包能量占比作为声音信号特征向量的鲁棒性，本文截取时长分别为0.5，1.0，1.5，2.0 s 的瓦斯爆炸声音、煤尘爆炸声音、采煤机工作声音、掘进机工作声音，得到其小波包能量占比分布情况，如图5 所示。可看出随着时间增加，4 种声音的小波包能量占比变化不大，分布较为稳定；瓦斯和煤尘爆炸声音的小波包能量占比有较小的波动，但整体处于稳定状态；采煤机工作声音的小波包能量占比波动不大，能量基本集中在d1内，能量占比超过99.6%；掘进机工作声音的小波包能量占比有轻微波动，但仍保持较稳定的状态，能量同样集中在d1内，能量占比超过95%。

由表1 和图5 可知，声音信号通过小波包分解提取的能量占比分布稳定，瓦斯和煤尘爆炸声音的小波包能量占比与非瓦斯和煤尘爆炸声音的小波包能量占比差异明显，不同时长的同一声音信号的小波包能量占比分布稳定。因此，小波包能量占比可有效表征声音信号特征，从而有效区分瓦斯和煤尘爆炸声音与非瓦斯和煤尘爆炸声音，且具备较强的抗噪声能力。

图5 不同时长下声音小波包能量占比分布Fig.5 Wavelet packet energy proportion distribution of sound under different time

表1 煤矿井下声音小波包能量占比分布Table 1 Wavelet packet energy proportion distribution of sound in underground coal mine %

2.4 分类识别

将采集到的声音信号通过GoldWave 软件剪辑100 组作为训练样本，提取声音信号的小波包能量占比构成表征声音的特征向量，并输入BP 神经网络中进行训练。BP 神经网络训练误差曲线如图6 所示，可看出仅需经过19 步迭代训练后，误差降低至期望误差。

图6 BP 神经网络训练误差曲线Fig.6 BP neural network training error curve

为验证BP 神经网络模型的优势，将100 组声音信号作为测试样本（其中瓦斯和煤尘爆炸声音20 组，非瓦斯和煤尘爆炸声音80 组），测试样本经小波包分解得到的能量占比作为特征向量分别输入训练好的ELM 模型、SVM 模型和BP 神经网络模型中，识别结果见表2。可看出BP 神经网络模型的识别率、召回率、精确率分别为95%，75%，100%，与其他2 种模型相比，识别效果最优。

表2 不同模型识别结果Table 2 Recognition results of different models %

3 结论

（1）声音信号通过小波包分解提取的能量占比分布稳定，瓦斯和煤尘爆炸声音的小波包能量占比与非瓦斯和煤尘爆炸声音的小波包能量占比差异明显，不同时长的同一声音信号的小波包能量占比分布稳定。因此，以小波包能量占比作为特征向量可有效表征声音信号特征，且具有较强的鲁棒性。

（2）将声音信号的特征向量作为BP 神经网络的输入值，经过训练后得到瓦斯和煤尘爆炸声音识别模型。实验结果表明：BP 神经网络的训练速度快，仅需较少的训练迭代次数就能达到期望误差，且在煤矿井下众多干扰声音信号存在的情况下识别率达95%，与SVM 模型、ELM 模型相比，BP 神经网络识别效果最优。