基于Mel频谱图和CNN的电网涉鸟故障鸟声识别

2022-05-18 06:58邱志斌卢祖文王海祥况燕军
关键词:鸣声滤波器频谱

邱志斌 卢祖文 王海祥 况燕军

(1.南昌大学 能源与电气工程系,江西 南昌 330031;2.国网江西省电力有限公司 电力科学研究院,江西 南昌 330096)

鸟类活动是引起输电线路故障的重要因素[1- 2],近年来,防鸟刺、防鸟盒、防鸟挡板等各类装置得到了广泛应用,但仍存在较大的盲目性,因涉鸟故障引起的线路跳闸时有发生。由于缺乏有效的识鸟工具,电网运维人员难以正确识别活动在线路周围的鸟类及其可能引起的故障,跳闸故障发生后也无法判断引发故障的鸟种类型,因而难以对输电线路采取针对性和差异化的涉鸟故障防治措施。

鸟类鸣声信号包含丰富的信息且具有特异性,目前国内外针对输电线路附近鸟种的识别研究较少,现有方法主要通过鸟鸣信号特征提取与传统机器学习分类器进行识别[3]。文献[4]提取了鸟鸣信号的时-频纹理特征,选用随机森林(Random Forest,RF)分类器对20种鸟类进行了识别;文献[5]提取鸟鸣功率谱密度特征作为输入量,采用RF实现了8种鸟类的识别;文献[6]提取梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)作为高斯混合模型(Gaussian Mixture Mo-del,GMM)的输入量,对16种输电线路的相关鸟类进行了识别;文献[7]提取鸟声的Mel子带参数化特征,利用GMM拟合能量数据实现声音事件的自动分段,采用支持向量机(Support Vector Machine,SVM)进行了鸟种分类识别。传统的机器学习识别方法存在特征提取困难、识别精度不够的问题,用于少量鸟种分类尚可,无法满足输电线路相关的多类鸟种准确识别的要求。

随着深度学习技术的快速发展,新兴的语音识别方法开始使用卷积神经网络(Convolutional Neural Network,CNN)进行声音识别[8- 9],可自主进行特征学习而无需人工提取声音信号特征。文献[10]以北京松山国家自然保护区的18种鸟类为对象,生成其Chirplet语图并结合VGG16模型进行分类识别;在此基础上,文献[11- 12]采用加权求和的方式对多种鸟鸣语图进行多特征融合,并运用迁移学习模型进行分类,结果表明特征融合模型的识别精度高于单一特征模型;文献[13]将鸟鸣信号转化为语谱图,采用改进的AlexNet网络实现了鸟种分类识别。上述结果证明了CNN用于鸟声识别的可行性。输电线路沿途地理环境各异,涉及鸟种繁多,可采用CNN模型进行多种鸟类的声音识别。

文中构建了引起输电线路渉鸟故障的40类鸟种的鸣声信号样本集,通过信号处理将其转换为Mel频谱图,并作为CNN模型的输入,经迭代训练得到鸟声识别模型,并据此开展渉鸟故障相关鸟种识别算例,对算法性能进行测试。

1 鸟种鸣声信号的预处理

文中依据文献[14]统计的输电线路涉鸟故障主要危害鸟种,从中挑选引起鸟粪类、鸟巢类、鸟体短接类和鸟啄类4种故障类型的40种典型鸟类作为研究对象,从公开的世界鸟类声音网站Xeno-canto上收集鸣声信号建立样本集。

在计算鸣声信号的Mel频谱图之前,需要对音频进行预处理,将所有音频统一剪辑成1 s时长,采样频率设为16 000 Hz,音频格式统一为.wav,随后对数据集进行分帧、加窗和降噪处理。

1.1 分帧及加窗

语音信号是具有短时平稳性的非稳态信号,在非常短的时间内特征参数保持相对稳定,可看成稳态信号。因此,把一段语音分成Q段较短的帧,每一帧内的信号当成稳态信号处理。为了使帧与帧之间的特征参数平滑过渡,分帧时在相邻两帧之间设置一小段重叠部分。文中所有鸟鸣信号样本长度均为1 s,帧长取0.025 s,帧移和帧叠分别取0.01 s和0.015 s,一段鸟鸣样本的分帧示意图如图1所示,共被分为98帧。

图1 分帧示意图Fig.1 Schematic diagram of framing

分帧后的鸟鸣信号需要进行加窗处理,目的是减少频域中信息的泄露,在削弱边缘效应的同时增加帧两端的连续性。选用Hamming窗进行加窗处理,对于鸟鸣信号x(n),加窗相当于乘以一个有限长的窗函数,即

(1)

式中,w(n)为窗函数,h为加窗位置。

1.2 去噪

鸟鸣信号通常含有噪声和静音区域,这会影响识别模型的准确率。文中采用多窗谱估计的改进谱减法对鸟鸣信号进行降噪,此方法约束条件少、物理意义直接且运算量少,改善了传统谱减法存在的降噪后谱峰残余、谱减系数不变等不足[15]。

传统谱减法使用功率谱进行计算,只用单个数据窗,且过度依赖过减因子与增益补偿因子的设置。其先对每一帧信号进行快速傅里叶变换(Fast Fourier Transform,FFT),将经过分帧、加窗处理后的鸟鸣信号y(n)从时域转换为频域信号X(i,k),即

(2)

式中,i表示第i帧,k表示频域中的第k条谱线,N为鸟种鸣声信号的采样点数。

然后采用式(3)计算谱减后的幅值|X′(i,k)|,即

|X′(i,k)|2=

(3)

式中:α为过减因子;β为增益补偿因子;D(k)为噪声段的平均功率谱值,其表达式为

(4)

式中,NIS为对应的帧数。

文中采用多窗谱估计的改进谱减法,利用多个正交数据窗分别对信号求取功率谱,然后取平均值得到谱估计P(k,i),再计算噪声的平均功率谱值Pn(k),由两者的谱减关系算得增益因子g(k,i);最后,将增益因子与经FFT后的幅度谱相乘,得到谱减后的幅度谱,对其进行傅里叶逆变换,得到去噪后的鸟鸣信号。令S(ω)为数据窗的谱,其定义如下:

(5)

式中,av(n)为第b个数据窗函数,R为数据窗个数,x(n)为鸟鸣信号的数据序列,H为序列长度。

求取增益因子g(k,i)的表达式为

(6)

以大杜鹃的一段含噪鸣声信号为例,利用多窗谱估计的改进谱减法对其进行降噪,效果如图2所示,可见原始信号中的噪声得到了有效滤除,鸣声信号更加清晰,有利于生成纹理清晰的Mel频谱图。

2 鸟鸣信号的Mel频谱图

在语音信号处理时,直接在时域上对声音进行特征提取和区分较为困难,需将鸟种鸣声信号转化为频谱图。人耳能感受到20~20 000 Hz之间的频率范围,且对于频率的分辨能力不均匀,对频域划定的主观感知是非线性的,就像一个滤波器组,只选择性地关注某些特定的频率,过滤掉其他频率。Mel频率正是受人耳听觉特性启发而产生的非线性频率,将原本为赫兹频率的鸟鸣信号进行Mel频率转换,转换关系为

(7)

式中,f为赫兹频率,fMel为Mel频率。

Mel滤波器组模仿人耳对语音信号进行过滤,在一段鸟鸣信号的频率范围内设置M个三角滤波器,滤波器的布局由密到疏,随着赫兹频率的增长,滤波器的宽度由小变大,但在Mel刻度上,这些滤波器显示为等宽。三角滤波器的表达函数为[16]

(8)

式中:Hm(k)为三角滤波器的频率响应;m为滤波器编号,0

(9)

利用式(2)逐帧对信号进行FFT变换计算得到X(i,k),然后取其平方计算谱线能量E(i,k),之后将求取的98帧谱线能量通过M个Mel滤波器组,计算信号在每个滤波器中的能量S(i,m),并取其对数得到每一帧语音的Mel频谱能量信号特征。信号在Mel滤波器中的能量计算式为

(10)

式中,E(i,k)为信号的谱线能量。

采用上述方法及步骤可得到包含信号能量大小信息的M×NF阶矩阵,根据能量大小与颜色深浅程度一一映射的关系进行着色,即可得到鸟鸣信号的Mel频谱图。以大杜鹃、红角鸮、红嘴鸥3种鸟类的鸣声信号为例,其Mel频谱图如图3所示。可见,Mel频谱图与鸟鸣信号在时域上具有对应关系,不同鸟种之间鸣声的频率分布范围各异,且各个频段所含能量大小也有差异,表现在Mel频谱图上即为着色深浅不一,颜色越深代表此频段能量越高。采用具有差异性的鸟鸣信号Mel频谱图作为CNN的输入,可用于开展不同鸟种的分类识别。

图3 部分鸟种鸣声信号及其Mel频谱图Fig.3 Song signals and their Mel spectra of some birds

3 CNN鸟声识别模型

CNN作为深度学习的分支之一,近年来被广泛应用于图像和语音识别领域[9,17]。一个完整的CNN包含输入层、输出层和多个隐藏层,为了准确识别输电线路涉鸟故障相关鸟种,文中搭建了一个包含24层的CNN模型,其结构如图4所示。

图4 CNN模型结构Fig.4 Structure of CNN model

3.1 CNN模型结构

卷积(Convolution)是CNN的核心,用于输入图像的特征提取。卷积层包含多个卷积核,通常也被称为过滤器,每个卷积核负责激活图像的某部分特征。卷积的过程中涉及Padding操作,包括Valid和Same两种填充方式,前者卷积时不对图像进行填充,卷积操作后的图像会变小,而使用后者填充后的输出图像与输入图像大小一致,在经过多次卷积后能够更充分地保留图像的数据信息,故文中选用Same填充以更完整地保留鸟鸣信号特征。

CNN经过卷积操作后的特征信息常带有冗余,而池化层(Pooling)的作用就是去除冗余、减少网络需要学习的参数个数。文中使用最大池化(Max Pooling),将池化层与卷积层结合,共同组成一个特征提取器,通过反复执行卷积-池化的循环操作便可完成对Mel频谱图的特征提取。

图4所示CNN网络结构总体可分为特征检测层和分类层两部分。在特征检测层完成对Mel频谱图的特征提取之后,其输出结果作为分类层的输入。全连接层作为分类层中的第一个层,连接前一层中的所有神经元,将先前层在图像中学习到的所有特征组合到一起,Softmax激活函数对全连接层的输出进行归一化,输出总和为1的多个分类概率,针对每个输入的分类概率计算其损失值。

3.2 模型训练

CNN的训练是一个最小化损失函数的过程,通过不断地迭代优化寻求网络预测输出值与实际值之间的最小损失,并且每训练1个轮次即对验证集进行1次测试,模型据此调整参数继续迭代,达到学习图像特征以匹配最佳类别的目的。文中使用的损失函数是交叉熵函数,表达式为

(11)

训练时,在卷积运算的过程中,过滤器按照设定的步长移动,依次扫过数据矩阵,同时进行矩阵点乘运算并叠加偏置值。CNN通过梯度下降法进行多轮次的训练,将网络经损失函数计算得到的预测值与实际值之间的误差进行反向传播,网络据此对参数进行更新调整。每训练1个轮次,网络中的权重和偏置参数就更新1次,更新公式为

(12)

式中,wt、bt分别为第t轮迭代的权重和偏置值,η为学习率。

图4下半部分所示为CNN网络中5个卷积层对一段大杜鹃鸣声信号的Mel频谱图的特征激活过程,卷积层中相应通道对应激活图像中的相应特征,所示图块为各个卷积层中的最强激活通道,通道激活区域中的像素位置对应于原始图像中的相同位置,白色像素和黑色像素分别表示强的正激活区域和负激活区域,而主要为灰色的通道则表示未对图像进行强烈激活。可见,网络在第1个卷积层Conv_1中学习了图像颜色和边缘特征,已经可以初步识别图像边缘和颜色深浅。

4 电网渉鸟故障危害鸟种的分类识别

4.1 危害鸟种样本集

文中构建的40类输电线路涉鸟故障相关鸟种鸣声样本集包含2 296个样本,各类鸟种的样本数量分布在25-120之间,如表1所示。

表1 鸟种信息与样本数量1)Table 1 Bird species information and sample size

4.2 鸟声识别结果

学习率η是控制CNN模型训练过程中每一轮参数更新步长的参数,过小的学习率会导致模型收敛慢,过大的学习率则会阻碍收敛甚至导致损失函数在最小值附近区域产生较大波动。文中按8∶1∶1划分训练集、验证集和测试集,探究了不同学习率下的CNN模型性能。当η=10-3时,模型训练效果最优,此时训练集和验证集的误差和交叉熵损失均处于最低值。因此,以10-3的初始学习率开展鸟种分类识别。批次大小为128,模型总计迭代训练100轮次,在90轮之后将学习率降低为原来的1/10,以使梯度下降在接近损失函数最小值区域附近时保持平稳。利用经过训练的CNN模型对40种电网涉鸟故障危害鸟种测试集进行识别,整体的识别准确率达到96.1%,除凤头麦鸡、普通燕鸥、纵纹腹小鸮、池鹭和灰鹤外,其余鸟种的预测准确率均为100%。

为了探究不同模型的性能,将文中构建的Mel-CNN模型与其他迁移模型进行对比。迁移学习是指微调预训练的深度学习网络去学习新任务的过程。作为对比的迁移模型有SqueezeNet、ShuffleNet和ResNet-18,随着迭代次数的增加,各网络对测试集的识别准确率变化如图5所示。可见,文中建立的Mel-CNN模型对于鸟种识别的表现最优,ShuffleNet与ResNet-18前期发挥迁移的优势,利用较少的迭代次数基本达到峰值,但是最终识别准确率不如文中模型;SqueezeNet无论是识别精度还是训练速度都不如Mel-CNN模型。迁移模型在预训练时学习了大量的图像特征,对于目标任务的样本数量需求较少,但同时也会因为预训练图片种类繁多,在执行新的学习任务时缺乏针对性,难以发挥优势,而文中提出的Mel-CNN模型能够有效识别出对电网安全造成威胁的相关鸟种。

图5 不同模型的识别准确率对比Fig.5 Comparison of recognition accuracy of different models

在后续研究中,可将该模型应用于电网识鸟,运维人员根据鸟种识别结果,可针对不同类型的涉鸟故障开展差异化防治,对可能引起鸟粪类、鸟巢类、鸟体短接类和鸟啄类等故障的鸟种,在输电杆塔上加装隔离型或驱鸟型防鸟装置,对重点保护鸟种增设引导型装置,对高危鸟种活动频繁的输电区域采取更积极的防治措施,从而提升防治效果,实现高效生态防鸟,降低故障跳闸率。

5 结语

文中提出了一种基于Mel频谱图与CNN的电网渉鸟故障相关鸟种鸣声识别方法。采用多窗谱估计的改进谱减法对鸟鸣信号进行降噪,并将其转换为Mel频谱图,用以表征不同鸟种鸣声信号的差异性,利用CNN进行特征提取与分类识别。算例验证表明:文中提出的Mel-CNN模型对40类鸟种测试集的识别准确率达96.1%,识别效果优于SqueezeNet、ShuffleNet和ResNet-18等迁移学习模型,可为电网运维人员正确识鸟并开展差异化防鸟工作提供参考依据,对于实现电网涉鸟故障相关鸟种的在线实时检测也具有重大的实际意义。

猜你喜欢
鸣声滤波器频谱
浅谈有源滤波器分析及仿真
电机在60Hz运行过程中的故障频谱分析
基于多模谐振器的超宽带滤波器设计
口袋(外一首)
自制乐器
一款用于无线通信系统的小型滤波器天线
FCC启动 首次高频段5G频谱拍卖
动态频谱共享简述
长白山地区3种跃度蝗鸣声结构的比较研究
认知无线电中一种新的频谱接入方法