基于CNN-PCA-DT 算法的合成孔径雷达目标识别*

2020-05-11 08:12李洋洋胡红萍白艳萍
火力与指挥控制 2020年4期
关键词:决策树分类器准确率

李洋洋,胡红萍,白艳萍

(中北大学理学院,太原 030051)

0 引言

合成孔径雷达(Synthetic Aperture Radar,SAR)是一种可实现二维高分辨率成像的微波成像雷达,具有全天时、全天候的工作能力[1],选择合适的波长,还能够穿透一定的遮蔽物。因此,针对SAR 目标识别问题的研究受到了普遍的重视,世界各国投入了大量的精力进行研究。其中,美国处在领先地位,比较著名的SAR ATR 系统包括陆军实验室的SAR ATR 系统和美国Sandia 国家实验室的SAR ATR 系统等[2]。SAR ATR 系统是在雷达对目标进行检测和定位的基础上,根据目标和环境的雷达回波信号,提取目标特征,实现目标类别的判定。国内对SAR的研究则相对较晚,不过现已在SAR 图像的地物分割、分类和匹配以及舰船、道路识别等方面取得了一定的成果[3]。

SAR 目标识别是SAR 图像解译和分析的重要环节,主要包括数据预处理、特征提取和分类器设计3 个部分。SAR 图像中存在大量的相干斑噪声[4],预处理是在尽可能保留图像原始信息的前提下,完成图像滤波、减少噪声等操作[5]。特征提取是从图像中提取出具有鉴别性的特征,然后将其输入目标识别的分类器进行训练,并利用训练好分类器完成对未知目标的身份识别操作。

卷积神经网络作为深度学习的一种,能够直接将二维图像作为网络的输入,经卷积、池化等操作后可自动从原图中提取出低级到抽象的特征[6],且权值共享等策略大大减少了权值数量,降低了网络训练的复杂程度[7]。现在已经有诸多学者提出了基于卷积神经网络的SAR 图像目标识别方法。文献[8]在传统的卷积神经网络基础上增加了一层卷积层,池化层,卷积滤波器规格统一选择5*5,最终的预测准确度得出,改进后的卷积神经网络精度达90.37%。由于深度卷积神经网络在大训练样本集下会得到比较理想的结果,而目前可获得SAR 图像数据集十分有限,直接将CNN 模型应用于SAR 目标识别会引起严重的过拟合,所以文献[9]中提出了对数据进行扩充的方法来增加样本数量,并使用具有3 个卷积层的网络结构从大量的数据中提取丰富的特征。文献[10]中Wagner 将CNN 和SVM分类器相结合,提出一种目标自动识别系统,并使用仿射变换等技术增加训练样本数,使SAR 识别模型对目标畸变不敏感、具有更强的鲁棒性。

基于以上研究,在进行实验之前需要对数据进行扩充,采用加噪、平移、旋转、镜像[11]等方式来增加数据集,以得到足够多的训练样本,更加接近于真实情况。提取出的图像特征会存在大量的冗余,从而大大降低分类器学习的效率[12],主成分分析法(PCA)可以将高维数据投影至低维平面上,以达到降维的效果[13]。因此,本文在上述数据扩充的基础上将CNN 提取出的图像特征保存下来,再将高维特征向量通过PCA 降至低维。

目前常用的分类器有决策树(DT)[14],支持向量机(SVM)[15],随机森林分类器(RF)[16],贝叶斯分类器[17]等。针对雷达图像的分类问题,传统的卷积网络对图像分类一般采用softmax 分类器,但并不能达到很好的效果。本文将降维后的特征放入决策树分类器进行分类。实验结果证明,卷积网络及决策树分类器在SAR 图像识别分类中效果较好。

1 CNN-PCA-DT 算法

1.1 卷积神经网络(CNN)

图1 CNN 结构图

传统的CNN 如图1 所示,包括两层卷积层,两层池化层,全连接层和输出层。在输出层采用的分类器为softmax 分类器,在池化层采用平均池化。

1)卷积层

卷积层主要是用来提取图像的特征,由多个可学习的滤波器(即卷积核)组成。在卷积操作中,卷积核在原始图像中以一定的步长卷积整个图像,卷积核与原图像的连接权值不同,会得到代表不同特征的特征图。

2)池化层(下采样层)

池化层是连接在卷积层后的结构,主要功能是将低维特征提取成高维的抽象特征,常用的滤波器大小有3*3,2*2,步长为2,不宜使用尺寸更大的滤波器,这样会丢失掉更多的图像信息。

一般来说,有平均池化和最大池化两种形式。最大池化是对输入图像的不同2*2 的块的所有像素中选出最大值;平均池化是对不同的2*2 的像素块计算平均值,两种操作均将输出图像在两个维度上都缩小了n 倍。同时,池化层的特征图个数永远与其前面相连接的卷积层特征图数一致。

3)全连接层

输入的图像数据经卷积、池化操作后,将得到的二维特征模式拉成一个向量,与输出层以全连接方式相连。

4)输出层

该层的主要功能是分类,将全连接层的特征向量作为输出层的输入,对其进行分类识别,输出层的输出节点数与要分类的类别数相同。常用的分类器有softmax 分类器,SVM 分类器,决策树分类器等。

1.2 决策树(DT)

决策树(Decesion Tree,DT)是一种类似于流程图树形结构的直观高效分类器,易于理解和实现,可有效地处理大量高维数据和非线性关系。决策树由根节点,内部节点,叶子节点3 个基本部分组成,从根节点开始,在其内部节点上进行属性值的测试比较,然后按照属性值确定对应的分支,最后在决策树的叶子节点上得到结论,每个叶子节点代表一个类别。

本文采用的决策树生成算法是C4.5 算法。C4.5算法是原ID3 算法的改进,用信息增益率作为属性选择的标准,克服了ID3 算法中采用信息增益选择属性时偏向选择取值多的属性的不足。

在定义信息增益率之前,先定义信息论中广泛使用的一个度量标准,称为熵,它刻画了任意样例集的纯度。

如果目标属性具有c 个不同的值,那么集合S相对于c 个状态的分类的熵定义为

其中,Pi为子集合中第i 个属性值的样本数所占的比例。

已经有了熵作为衡量集合纯度的标准,信息增益Gain(S,A)的定义为

其中,V(A)是属性A 的值域;Sv是集合S 中属性A上值等于v 的子集。则信息增益率定义为

其中,Split Information 为分裂信息量:

引入信息增益率的概念后,下面详细介绍C4.5算法的基本流程。

若设Examples 为训练样本集合,Attribute List为候选属性集合。

1)创建决策树的根节点N;

2)若所有样本均属于同一类别C,则返回N 作为一个叶子节点,并标志为C 类别;

3)若Attribute List 为空,则返回N 作为一个叶子节点,并标志为该节点所含样本中类别最多的类别;

4)计算Attribute List 中各个候选属性的信息增益率,选择最大的信息增益率对应的属性Atribute*,标记为根节点N;

5)根据属性Atribute* 值域中的每个值Vi,从根节点N 产生相应的一个分支,并记Si为Examples集合中满足Atribute*=Vi条件的样本子集合;

6)若Si为空,则将相应的叶子节点标志为Examples 样本集合中类别最多的类别;否则,将属性Atribute*从Attribute List 中删除,返回1),递归创建子树。

1.3 CNN-PCA-DT 算法思路

本文在传统CNN 的基础上经过两个卷积层和两个池化层,提取出图像的特征向量,算法中使用Sigmoid 激活函数。大样本的集合无疑会为训练提供丰富的信息,但也在一定程度上增加了数据处理的工作量,提取出的图像特征,变量之间存在大量的冗余,从而增加了问题分析的复杂性,可以利用主成分分析法(PCA)通过投影的方式将这些特征向量降至低维平面上,提取事物的主要特征,在极大程度上保留数据特征的同时降低图像相邻像素之间的相关性,以达到对所收集数据进行全面分析的目的。最后,将CNN 中的Softmax 分类器替换为DT 分类器,就是本文所提出的CNN-PCA-DT算法。

CNN-PCA-DT 算法的具体步骤如下:

1)对批量读入的图像数据截取相同尺寸大小,经去噪并归一化到特定区间,输入卷积网络;

2)用一定大小的卷积核,步长为1,卷积整个图像,得到卷积层C1;

3)采用平均池化,滤波器大小为2*2,步长为2,将卷积层C1 得到的图片下采样生成池化层S1;

4)重复步骤2)、步骤3)得到卷积层C2、池化层S2;

5)把池化后的二维数据转变为一维,再采用PCA 对其降维,选取的主成分保留对原始变量90%的解释程度,得到全连接层;

6)将全连接层的特征向量传给决策树,根据上述介绍的C4.5 决策树生成算法,利用MATLAB 自带的统计工具箱函数ClassificationTree.fit 函数,即可基于训练集的特征向量创建一个决策树分类器,由决策树训练模型并分类识别测试数据,最后得出结果。

2 基于CNN-PCA-DT 算法的雷达目标识别

2.1 数据预处理

本文实验数据使用MSTAR 公开数据集,MSTAR是美国国防部高级研究项目局和美国空军实验室提供的实测SAR 地面静止军用目标数据集,由X 波段SAR 传感器采集,采用HH 极化方式,0.3 m×0.3 m高分辨率聚束式成像模式。根据现有的SAR 数据,选取D7(推土机)、ZIL131(军用卡车)、ZSU234(自行火炮)3 类军事目标图像,实验中训练样本取17°俯仰角下的图像,测试样本取15°俯仰角下的图像,具体MSTAR 原始数据信息如表1 所示。

表1 MSTAR 原始数据

卷积神经网络在训练样本足够的情况下才可以学习出具有代表性的特征,同时防止过拟合。所以对原始数据采用平移、旋转、镜像等方法扩充后,训练数据扩充为原来的36 倍,最终的训练样本有32 400 个,测试样本有5 400 个。以下以ZIL131 图像为例进行数据扩充,如图2 所示。

因为SAR 图像数据本身包含很大的乘性斑点噪声和背景杂波,无疑给目标识别过程增加了难度,所以需要对训练数据进行一定的预处理。由于目标均处在图像中间区域,在实验之前截取中间部分大小为64*64,对截取后的图像采取中值滤波进行滤波去噪,并归一化到[0,1]区间。

2.2 CNN-PCA-DT 中参数的确定

在CNN-PCA-DT 算法中,需要确定的参数:批训练块的大小,学习率,卷积核的大小及卷积核的数量,以达到SAR 的目标识别。

1)批训练块的大小。设学习率为0.1,第1 层的卷积核数目为5,卷积核大小为5*5,第2 层的卷积核数目为10,大小为5*5。块大小分别取10,20,30,40,50,SAR 的目标识别准确率如表2 所示。由表2 看出,随着分块的变大,准确率呈下降趋势。因此,分块处理大小取10。

图2 ZIL131 图像为例进行数据扩充

表2 不同分块大小取得的准确率

2)学习率。批训练块设为10,第1 层的卷积核数目为5,卷积核大小为5*5,第2 层的卷积核数目为10,大小为5*5。学习率分别取0.01,0.1,1,SAR的目标识别准确率如下页表3 所示。由表3 看出,学习率不同,准确率相差较大,当学习率为0.1 时,取得的准确率最大为92.33 % 。 因此,在CNN-PCA-DT 算法中,学习率大小取0.1。

表3 不同学习率取得的准确率

3)卷积核大小。批训练块设为10,学习率0.1,第1 层的卷积核数目为5,第2 层的卷积核数目为10。卷积核分别取5*5、7*7、9*9、11*11。SAR 的目标识别准确率如表4 所示。由表4 看出,两层卷积核大小不同,取得的准确率也不尽相同,当两层的卷积核大小均为9*9 时,取得的准确率最大,为95.78%。在CNN-PCA-DT 实验中,第1 层与第2 层的卷积核大小均取为9*9。

表4 卷积核大小不同时取得的准确率

4)卷积核数量。批训练块设为10,学习率0.1,两层卷积核大小均取为9*9。第1 层卷积核数量分别5,6,12,第2 层卷积核数量分别为10,12,12,SAR 的目标识别准确率如表5 所示。由表5 看出,当第1 层卷积核数目为6,第2 层卷积核数目为12时,取得的准确率最大为96.33%。

表5 卷积核数量不同时取得的准确率

2.3 基于CNN-PCA-DT 算法的SAR 目标识别的整体框架

将原始数据通过平移、旋转等操作对数据进行扩充后,得到带有标签的SAR 图像的训练集、测试集。SAR 目标识别CNN-PCA-DT 算法的整体框架如图3 所示。

2.4 实验结果与分析

利用3.2 节确定的CNN 的训练参数:批训练块设为10,学习率0.1,两层卷积核大小均取为9*9,第1 层卷积核数目为6,第2 层卷积核数目为12。经卷积、池化操作后,可以提取出训练集与测试集特征向量,trainfeature 的大小为1 200*32 400,testfeature 的大小为1 200*5 400。

图3 SAR 目标识别CNN-PCA-DT 算法的整体框架

本文进行了3 种实验实现SAR 目标识别:1)传统的CNN 算法;2)将传统CNN 中的Softmax 分类器替换为DT 分类器,并采用C4.5 决策树生成算法, 记 为CNN-DT 算 法;3)本 文 所 提 出 的CNN-PCA-DT 算法。3 种实验的分类结果及比较如表6 所示。

由表6 可以知道,实验1 中传统的CNN 的雷达目标识别的准确率为96.33%;实验2 CNN-DT 得到雷达目标识别的分类准确率为94.27%,相比卷积网络的训练结果略低;实验3,由于采用PCA 方法将特征向量降至低维,随后用决策树分类,最终得到一个12 层的决策树,CNN-PCA-DT 算法的雷达目标识别的分类准确率为99.60%,相比于传统的卷积网络准确率要高出3.27%,比CNN-DT 的分类准确率高出5.33%。由此充分证明了CNN-PCA-DT 改进算法的有效性。

表6 3 种实验的平均分类准确率

为了进一步说明本文所提算法的有效性,将本文的识别结果与相关文献的识别效率进行对比,如表7 所示:

表7 本文实验与相关文献方法对比

由表7,文献[8]具有3 个卷积层,3 个池化层,卷积滤波器规格统一选择了5*5,由结果可知,改进后的卷积神经网络识别精度达90.37%;文献[11]采用了多种数据扩充方法扩充样本数量,提取图像丰富的特征,最终得到的识别准确率为94.51 %;文献[12]是将CNN 与SVM两者相结合,达到了99.40%的识别精度。通过对比,可得本文所提出的CNN-PCA-DT 算法更为有效。

3 结论

本文在传统的CNN 神经网络的基础上通过卷积层和池化层提取SAR 图像的特征,利用PCA 进行降维,提取出主要特征,作为全连接层的输入,并将CNN 中的Softmax 分类器替换为DT 分类器,得到了CNN-PCA-DT 算法。通过与CNN,CNN-DT 算法比较,实验结果表明,CNN-PCA-DT 算法使得SAR 目标识别的准确率高达99.60%。另外,将本文所得结果与相关文献进行对比, 证明了CNN-PCA-DT 算法在SAR 目标识别中是有效的。

猜你喜欢
决策树分类器准确率
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
基于朴素Bayes组合的简易集成分类器①
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
简述一种基于C4.5的随机决策树集成分类算法设计
基于AdaBoost算法的在线连续极限学习机集成算法
决策树学习的剪枝方法