基于DLPCC和ELM的装甲车辆声识别

2018-07-31 04:29樊新海石文雷张传清
兵器装备工程学报 2018年7期
关键词:特征参数识别率权值

樊新海,石文雷,张传清

(陆军装甲兵学院 车辆工程系, 北京 100072)

在现代战争中,战场目标声识别技术发挥着越来越重要的作用,对坦克、装甲车等典型战场目标的发声机理进行分析并进行声识别具有重要意义[1-2]。声识别和语音识别具有一定相似性,因此,语音识别模型的构建方法对战场声识别具有一定的借鉴意义[3]。基于声道模型的线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC)是线性预测系数(Linear Prediction Coefficients,LPC)在倒谱域的表示,是一种语音信号处理中常用的特征参数[4]。传统的LPCC只能反映声信号的静态特征,动态线性预测倒谱系数(Dynamic Linear Prediction Cepstral Coefficients,DLPCC)能够同时反映信号的静态和动态特征。极限学习机[5-6](Extreme Learning Machine,ELM)是2004年GuangBin Huang等提出的一种新型学习算法,具有训练速度快、泛化能力强、分类性能好等特点。LPCC与ELM在工程器械声识别中均取得了较好的识别效果[7-8]。

本文中将LPCC以及能够反映声信号动态特性的DLPCC作为装甲车辆噪声的特征参数,分别输入到ELM分类器中,证明DLPCC能更好地反映信号特性。运用单变量分析法对ELM的核心参数进行分析,得到最优值,进而得到基于DLPCC与ELM的最优声识别模型。将DLPCC分别输入到ELM、BP神经网络、PNN 3种分类器中,证明ELM分类器具有更高的准确率,验证了模型的有效性。

1 目标信号的获取与特性分析

本文中选取典型的4种履带式装甲车及3种坦克为识别对象,主要采集车辆原地发动以及在正常路况下行驶产生的噪声,采集距离为3~5 m。采集噪声以发动机排气噪声为主,夹杂履带与地面的冲击噪声。根据装甲装备特点可知,坦克以及履带式装甲车的动力装置均为四冲程内燃机,发动机排气噪声爆发频率与发动机转速具有如下关系[9]:

(1)

式中:n为发动机转速(r/min);z为发动机气缸数。

在信号采集过程中,坦克及装甲车的最高转速均不超过3 000 r/min,由式(1)可知其排气噪声理论爆发频率在几百赫兹。装甲车辆在行驶时产生的履带冲击噪声经理论分析频带较宽,一般小于4 kHz。结合以上因素,将噪声信号的采集参数设置为:采样频率8 kHz,采样点数32 768,采样时间4.096 s。

根据车辆的具体行驶状况,采集每种车型如表1所示多种工况下的噪声信号。其中,A、B、C、D分别代表I、II、III、IV型装甲车,E、F、G分别代表I、II、III型坦克;高转速范围1 300~1 600 r/min,中转速范围1 000~1 300 r/min,低转速范围800~1 000 r/min。

表1 噪声采集车型及其采集工况

将采集的噪声信号进行时域和频谱分析,由以I型装甲车和II型坦克为代表的目标噪声信号波形和功率谱可知(见图1),在时域上,噪声波形具有一定的差异性,但不够明显,可能由于装甲车辆底盘构造的相似性;在频域上,不同车辆噪声信号各个频段的能量不同,能量集中分布的频率段有明显的区别,且影响较大的共振峰个数在8~10个不等。可以看出,不同装甲装备噪声信号共振峰分布频率不同,由于线性预测倒谱系数能够反映发声模型并且与共振峰相关,因此,LPCC以及DLPCC可以作为典型装甲装备噪声信号的特征参数。

图1 I型装甲车和II型坦克噪声信号及其功率谱

2 噪声信号的DLPCC提取

2.1 DLPCC

在语音识别中,把人的语音声道视为由多个不同截面积的管子串联而成的系统加以研究[10]。在装甲车辆噪声识别中,发动机罩至车身底部之间的空间,相当于一个谐振腔或滤波器,传播路径也可以近似看成声道模型。基于自回归模型(AR)的LPCC采用与声道滤波器定相符合的全极点模型的滤波器[11],可以较好地体现噪声信号特性。

传统的LPCC只提取出了声信号的静态特性,声信号具有短时非平稳的特点,需要动态特征体现。在LPCC基础上增加一阶、二阶差分系数 ΔLPCC和ΔΔLPCC,可以得到LPCC+ΔLPCC和LPCC+ΔLPCC+ΔΔLPCC等两种DLPCC,它们能够同时提取出信号的静态与动态特征。噪声信号动态信息可以反映装甲装备噪声信号随时间的变化规律,动静结合能够提高噪声的识别率。

2.2 DLPCC提取

差分系数提取过程如图2所示。

图2 LPCC差分系数提取流程

DLPCC提取步骤如下:

1) 预加重。声音信号的能量会随着频率的增加呈指数级衰减,预加重可以提升高频能量水平,增强信号频谱的平滑性。预加重由数字滤波器H实现:

H(z)=1-αz-1

(2)

式中,α为预加重因子,取值范围0.93~0.97,本文取0.931 5。

2) 分帧。利用声信号的短时平稳性,对信号进行分割。设置10~40 ms时间长度的数据点作为帧长,选取帧长的20%~60%作为帧移。

3) 加窗。为了减小吉布斯效应引起的端点处信号的不连续性,用Hamming窗与每一帧长度为N的信号相乘,窗函数公式:

(3)

4) 线性预测分析(LPC)。线性预测分析假定声音的性质取决于声道的形状。根据参数模型功率谱的思想,可以将声信号看作是由一个输入序列激励一个全极点的系统而产生的输出。将预处理后的信号x(m)输入到如式下式所示基于声道的全极点滤波器H(z)中。

(4)

其中,G是滤波器的增益系数,αk是自回归系数的线性预测系数(LPC)系数,p是滤波器的阶数,本文取为12。

5) 求解增益系数G和线性预测系数αk。利用自相关的方法可以有效地估计出增益系数G和线性预测系数αk。根据每一帧信号得出的自相关方程,可以得到矩阵:

(5)

其中,R为加窗语音帧的自相关函数。

全极点滤波器的增益G可以由下式得出

(6)

式(3)中的矩阵方程是一个Toeplitz矩阵,采用Levinson-Durbin递归算法来求解[10],求解过程如下:

(7)

(8)

当上述方程完成p次迭代时,可以得到如下所示的αk和G的解集:

(9)

(10)

6) 倒谱分析。将式(6)中得到的αk和G按照式(11)所示的递推关系进行计算,将n取为12,即可得12维的LPCC。

(11)

7) 获取差分系数。为了获取信号动态信息,取LPCC的一阶差分ΔLPCC作为一组新的特征分量,维数为12。ΔLPCC计算公式为:

(12)

式中:C(n+i)为一帧信号的LPCC;D(n)为ΔLPCC,由LPCC中当前两帧和后两帧系数的线性组合实现;K为常数,取值为2。

根据ΔLPCC计算方法,将公式中C(n+i)换为D(n+i),可得到12维的二阶差分系数D2(n),即ΔΔLPCC。将得到的两种差分系数与LPCC进行组合,可得到LPCC+ΔLPCC和LPCC+ΔLPCC+ΔΔLPCC两种DLPCC。

3 极限学习机

3.1 ELM算法

极限学习机[5]是一种基于单隐层前馈型神经网络(Single Hidden Layer Feedforward Neural Networks,SLNFs)的学习算法,学习方式为无监督学习。ELM只需对隐含层节点数和激励函数进行设置,可以实现对输入权值和隐含层偏差进行随机赋值[12],直接利用Moore-Penrose广义逆,即利用求得的最小范数最小二乘解作为网络输出权值。

ELM网络结构包括输入层、隐含层和输出层,其神经元数分别为n,l,m。

图3 ELM网络结构

设有N个训练样本(xi,ti),其中输入样本为xi=[xi1,xi2,…,xin]∈Rn,输出样本为ti=[ti1,ti2,…,tim]∈Rm。具有l个隐含层节点和激励函数为g(x)的SLFNs输出为:

j=1,2,…,N

(13)

式中:wi=[wi1,wi2,…,win]T是连接第i个隐含层神经元和输入神经元的权向量;βi=[βi1,βi2,…,βim]T是连接第i个隐含层神经元和输入神经元的权向量;bi是第i个隐含层神经元的偏差。

(14)

方程可以简写为:

Hβ=T

(15)

式中:

H(w1,w2,…,wL,b1,b2,…,bL,x1,x2,…,xL)=

(16)

(17)

H称为神经网络的隐层输出矩阵,H的第i列表示第i个隐含层节点关于x1,x1,…,xn的输出矩阵。

激励函数g(x)无限可微时,输入连接权值wi和隐含层节点偏置bi在训练开始时可随机设置,且在训练过程中固定不变,输出连接权值β可通过求解式(18)的线性方程组的最小二乘解来获得。

min||Hβ-T||

(18)

解得β为方程(16)的最小范数最小二乘解:

β=H+T

(19)

式中,H+是H的Moore-Penrose广义矩阵。

3.2 ELM算法步骤

1) 给定一个训练集(xi,ti)(i=1,2,…,N),激励函数为g(x),隐含层节点数目为l,随机产生输入权值wi和隐层偏差bi;

2) 计算隐层输出矩阵H;

3) 由式(19)计算出输出权值β。

ELM在对输入数据进行训练时,不需要迭代调整输入权值和偏置,降低了训练的复杂程度,可以明显提升训练速度。

4 实验及分析

4.1 特征提取实验

从每种车型采集的原始噪声信号中截取长度为1.024 s的信号,作为特征提取的样本信号。在特征提取过程中,根据信号的短时平稳性,帧长取为32 ms(256点),帧移取为16 ms(128点)。每种车型共提取出LPCC、LPCC+ΔLPCC、LPCC+ΔLPCC+ΔΔLPCC 3种特征参数各800组。

其中,400组作为训练集,从另外的400组特征参数中随机选取200组作为训练集。7种车型的每种特征参数各自组成一个数据集,因此,共得到如表2所示的3种特征数据集。

表2 3种数据集

4.2 噪声分类实验

由ELM算法原理可知,隐含层神经元个数和激励函数的选取会影响ELM的分类性能。运用单变量分析法确定每种数据集对应ELM中的隐含层神经元个数和以及最优激励函数,通过对比识别效果,得到最优声识别模型。

虽然理论上神经元个数应该等于训练样本数,但是多数实际操作中,神经元个数远小于样本数。令l=300,310,320,…,1 000(每次增加10),激励函数依次选为Sig函数、Sin函数、Hardlim函数。由于ELM每一次的分类结果具有较小的浮动,因此,在选择不同激励函数的基础上,分别进行5次试验,将识别结果取平均值。将3种数据集的特征向量输入到ELM中,得到训练和测试平均准确率如图4所示。

从3种数据集的分类结果可以得出,当隐含层神经元数小于600时,ELM的识别率随着神经元个数的增加而总体呈上升趋势。其中,以Hanrlim为激励函数ELM的识别率上升趋势较为明显,但总体识别率较低;以Sig和Sin为激励函数ELM的识别率上升幅度小,但总体识别率较高。当隐含层神经元数大于600时,3种激励函数的识别率总体较为平稳。其中,Sig和Sin总体识别率相似,均高于Hardlim,且随着特征参数维数的增加,这种差异也会扩大。但同时也可以看出,当输入特征参数维数较低,神经元数量足够多时,识别过程中Hardlim函数具有一定的优势。

图4 3种数据集的分类结果

总体上看,以LPCC+ΔLPCC+ΔΔLPCC为特征参数,隐含层神经元数取为870,以为Sig为激励函数的ELM识别率最高,达到了91.93%,为最优的噪声识别模型。3种特征参数对应的最优参数以及识别率如表3所示。在采用ELM作为分类器的基础上,作为对比,将数据集分别输入BP神经网络和PNN中进行训练和识别,3种方法的分类结果如表4所示。由表可知,ELM相比于另外两种分类器,不仅用时短,而且识别率高,对其中6种车型的识别率均达到91%以上。

表3 每个数据集对应的ELM最优参数及识别率

表4 3种方法分类结果

5 结论

1) 本文建立了一种以动态线性预测倒谱系数DLPCC为特征值,以ELM为分类器的装甲车辆声识别模型,实验结果表明,识别准确率达到91.93%。

2) 噪声特征选择方面,以DLPCC中的LPCC+ΔLPCC+ΔΔLPCC为特征值的ELM识别率高,说明动静结合更能体现噪声信号的特征。

3) 噪声识别方面,ELM能有效地实现典型装甲车辆噪声识别。ELM参数选择上,运用变量分析法得到了最优神经元个数和激励函数类型,有效提高了识别率。

猜你喜欢
特征参数识别率权值
一种融合时间权值和用户行为序列的电影推荐模型
基于视频图像序列的船用雷达目标检测和目标特征参数提取
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
融合LPCC和MFCC的支持向量机OSAHS鼾声识别
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
说话人识别特征参数MFCC的提取与分析