利用DCNN融合特征对遥感图像进行场景分类

2018-01-18 07:11王振国陈宏宇徐文明
电子设计工程 2018年1期
关键词:特征提取分类器准确率

王振国 ,陈宏宇 ,徐文明

(1.中国科学院上海微系统与信息技术研究所上海200050;2.中国科学院微小卫星创新研究院上海200120;3.上海科技大学信息科学与技术学院,上海200120;4.中国科学院大学北京101407)

遥感图像场景分类是遥感图像解译的一个重要环节,也是地理信息系统(Geographic Information System)的关键技术,它在城市规划与城市管理问题上发挥着重大作用。随着可获取的遥感图像的空间分辨率越来越高,遥感图像所展现的地面场景的细节更加丰富、类别更加多样化、场景类间的相似性增大,使得场景的分类变得更加困难。因此,如何选取更有表达性的特征与更高效准确的分类方法,成为高分辨率遥感图像场景分类问题的关键。

目前,遥感图像场景分类问题大多采用贝叶斯统计模型来解决[1-4],这类统计学分类模型在面对分类总数较少、类间干扰不大的分类问题时效果较好。然而,由于视觉单词[5(]visual words)在描述复杂场景时的充分度不够,统计学模型在处理类间相似度较大、总类别较多的分类问题时,分类准确度较低。

文献提[6]出了一种基于多尺度深度卷积神经网络(MS-DCNN)场景分类法,由于有限的遥感数据集无法充分训练卷积神经网络,限制了其准确率的提升。文献[7]首次把ImageNet[8]数据集所预训练的AlexNet[9]作为一种遥感图像的特征提取方式,并证明了这种深度卷积神经网络(DCNN)特征提取方式在遥感图像场景分类问题上的可行性。

在此基础上,本文探讨利用ImageNet数据集训练 的 Inspection-v3[10]、CaffeNet[11]和 OverFeatL[12]3 种DCNN提取的融合特征进行场景分类的方法。并且利用3种DCNN的归一化融合特征,配合多层感知机(MLP)在UCMLU(http://vision.ucmerced.edu/datasets/landuse.html)数据集上获得了97.01%的准确率。

1 融合不同DCNN特征进行场景分类

物体分类与场景分类在过程上的相似性,决定了用物体分类数据集训练的DCNN可以作为一种遥感图像场景特征提取方式。不同结构的DCNN提取的遥感场景特征具有互补性。因此,融合不同结构的DCNN特征可以提高场景分类效果。

1.1 基于DCNN的特征提取

底层视觉特征、中尺度视觉特征无法充分描述复杂场景的语义信息,这是制约基于底层、中尺度视觉特征提取的场景分类方法准确率进一步提高的关键因素。DCNN具有极强的非线性映射能力和语义表达能力,但是其训练却需要大量的标注样本。目前,具有复杂场景标记的遥感数据集的规模较小,无法达到训练DCNN的规模,这也限制了DCNN在遥感场景分类问题上的应用。

遥感场景分类是一个把场景内的各个组成单元及其对应关系映射到场景语义的一个过程,这与物体分类的过程是相似的。因此,利用ImageNet数据集训练DCNN来提取遥感图像的场景特征是一种可行的方案。这种方案即克服了底层、中尺度视觉特征场景表达不充分的问题,又避免了对大规模带有场景标记的遥感数据集的依赖。

我们所采用的3种DCNN为:CaffeNet、Over FeatL、Inspection-v3,他们在ImageNet目标识别测试集上都取得较好效果。CaffeNet相对AlexNet而言只是交换了卷积层之间的归一化和池化操作顺序,基于Caffe[11]实现。OverFeatL相对于AlexNet而言增加了一层卷积操作并采取了不同的卷积核大小和步长,基于OverFeat[12]实现。Caffe和OverFeat分别提供了利用ImageNet预训练的CaffeNet和OverFeatL的初始化权重。

Inspection-v3基于GoogLeNet[13]和 Inspectionv2[10],并在Inspection-v2基本结构的基础之上引入了标记平滑(label smoothing)以及辅助分类器的全连接层块归一化(batch-normalized)等多种策略。它是一种比前两种DCNN结构更优化的一种网络。其利用ImageNet预训练的初始化权重可以从tensorFlow(http://www.tensorflow.org,谷歌2016年3月分发布的深度学习开源软件包)中获取。

我们利用对应的开源软件包中的初始化权重来初始化3种深度网络。对于CaffeNet和OverFeatL,我们取最后一层大小为4096的隐含层的输出来作为我们的特征向量,分别标记为FC∈R4096、和FO∈R4096;而对于Inspection-v3,我们把线性映射层(logits层)所输出的2048维的向量作为特征向量,记为FI∈ R2048。

1.2 利用融合特征进行场景分类

我们所采取的基于深度神经网络特征提取的场景分类器如图1所示。输入图片经过3种深度神经网络产生3种深度特征,经过一定策略融合后的融合特征F输入由一个隐含层和一个softmax分类器组成的MLP产生分类结果。

图1 基于深度神经网络特征融合的场景分类器

图1中的特征融合单元代表本文实现的4种特征融合策略:CaffeNet与Inspection-v3级联、3种DCNN特征级联、CaffeNet与Inspection-v3分别归一化后级联、3种DCNN特征分别归一化后级联。4种特征融合策略可以分别描述为:

其中norm2(F)=FT×F表示取F的2范数。

文中所采取的MLP由一个隐含层和一个softmax分类器组成。我们利用M表示隐含层的单元数目、C表示场景的类别数目、W∈RM×N表示MLP输入层与隐含层之间的权重矩阵、b∈RM×1表示偏移向量、tanh作为隐含层的激活函数,隐含层的输出u∈RM×1可以表示为:

若θ∈RM×C表示隐含层与softmax层之间的权重矩阵、K表示训练样本的总数目、y∈RK表示所有训练集的场景标记,则MLP的损失函数为:

我们采用随机梯度下降法来训练如图1所示的场景分类器。图1中的虚线表示在场景分类器训练过程中,我们只把分类预测误差向MLP反馈并对MLP进行参数调整,而不调整3种DCNN的参数。即,在实现随机梯度下降算法时,我们只考虑损失函数J关于W和θ的偏导数,而不考虑J关于δDCNN的偏导数。这是因为DCNN的结构复杂、参数较多,利用有限的遥感数据集调整其参数时容易导致网络过拟合。

2 实验与分析

2.1 实验数据

我们采用的数据为UCMLU数据集,它是由21种场景组成,每个场景具有100张分辨率大小为256×256的三波段的空间的分辨率大约为1英尺的高分遥感图像。我们随机的选取每类100张图片中的80张作为训练集,剩余的20张作为测试集。

为了增加训练集的数量,我们把每张256×256的图片分别切割出最中间和四周的5张200×200的子图,然后每张子图分别做90度、180度、270度的旋转。测试集也做相同的切割与旋转处理,所有模型的训练和测试都在扩展的数据集上进行。

2.2 实验参数设置

实验的计算机配置为Inte(lR)i7-6700HQ CPU@2.6 GHz,NVIDIA GTX960M GPU,8GB RAM,软件仿真环境为Ubuntu16.04下安装的eclipse(python开发)、以及matlab R2014。用到的开源软件包为:tensorFlow、Caffe软件包、OverFeat软件包、VLFeat(http://www.vlfeat.org)。

为了与传统的特征提取方式对比,我们分别实现了GIST特征[14]、分层梯度方向直方图(PHOG)、分层关键词直方图(PHOW)以及堆叠判别式自编码器[16](SDASE)4种特征提取方式。PHOG特征我们设置的梯度方向量化为128级,分别在1×1、2×2、4×4 3种空间尺度提取梯度统计直方图并合并。我们利用文献[15]中相同的参数来提取512维的GIST特征。PHOW特征的提取分为3步:

1)为减小计算量,采用未扩展的训练集的所有的图片的最中间的200×200的子图作为训练集并分别在1×1和2×2空间金字塔上利用VLFeat提取dense SIFT特征;

2)利用Kmean将所有的dense SIFT特征聚类为400个类,每个类的中心作为一个视觉单词;

3)对于所有训练集中的任意一副图像,分别在1×1和2×2空间金字塔上提取dense SIFT特征,利用K最近邻(kNN,k-Nearest Neighbor)统计距离每个视觉单词最近的dense SIFT特征数目并归一化。最后,我们得到一个2000维的PHOW特征。

SDASE的输入为颜色统计直方图、PHOW、GIST的级联特征,其中颜色统计直方图的维数为384,分3个颜色通道每个通道分128级。PHOW与GIST特征的参数与上一段中所描述的参数相同。SDASE的输入维度大小总共为参数为2 896。SDASE的结构采用文献[16]中准确率最高的一种结构:2 896-4 896-1 448-720。无监督训练和有监督训练的学习率均为0.000 1。我们采用tensorFlow完成对MLP分类器的训练,MLP分类器的隐含层的大小被设为720。采用固定学习率0.000 1,迭代次数为50。

2.3 实验的结果与分析

不同特征提取方式所提取的特征的分类准确率的对比如图2所示。由此可以看出:PHOG特征、GIST特征、PHOW特征的分类准确率皆低于3种深度神经网络 OverfeatL、CaffeNet、Inspection-v3 提取特征的分类准确率;对于DCNN而言,Inspection-v3相比AlexNet而言具有更优化的结构策略与设计思想,在没有进行特征融合策略时,其分类效果是最好的,达到了95.98%;

图2 几种特征提取方式分类准确率的统计

虽然SDASE所提取特征的分类准确率为91.89%,高于OverfeatL特征(91.24%),但是考虑到在训练MLP过程中对SDASE的参数进行了微调,不能完全的把SDASE作为一种特征提取方式。因此,我们可以得出:DCNN所提取的特征其分类准确率要高于其他种类的特征提取方式;在遥感场景分类领域,Inspection-v3为最优的一种场景特征提取方式。

表 1所示为式(1)、式(2)、式(3)、式(4)所示的4种特征融合方式的场景分类的准确率以及其对准确率提升的影响。可见,式(4)所示的3种DCNN提取的特征归一化后的级联特征取得了最高的准确率97.01%,并且4种特征融合策略都提高了分类的结果。经过归一化后的特征相对原始特征而言具有更好的分类效果,这是因为不同的DCNN提取的特征经过归一化操作后,在级联特征中占有了相同的比重,而不是由一种值较大的特来主导级联特征的场景表现力。

表1 几种融合特征提取方式的分类准确率

图3所示为准确率最高的式(4)所示方式所提取的特征的分类结果的混淆矩阵(由于我们对结果的小数位数做了截断处理,所以存在部分的列的准确率的和不为1的情况;数字表示场景类别),其中的数字与场景类别的对应关系如表2所示。由此可以看出,由于建筑物、密集住宅区、中尺度住宅区、稀疏住宅区这4种场景具有相似性,导致了其分类准确率低于平均准确率。因此,DCNN所提取的相似的场景的特征的区分度相对较小,这是制约分类效果进一步提升的关键因素。

图3 基于式(4)特征分类结果的混淆矩阵。

表2 数字标号与场景类型的对应关系

3 结论

物体识别与场景识别在流程上具有相似性,都是一个场景或物体中的各个部分逐步组合抽象成一个高层语义的过程。这是用ImageNet训练的DCNN可以作为遥感场景分类特征提取方式的基本理论依据。文中展示了不同结构的DCNN的融合特征在在场景表达方面的优势。主要贡献为在遥感图像场景分类问题中首次提出了Inspection-v3、CaffeNet、以及OverFeatL 3种DCNN的特征融合策略,并运用这种策略提高了分类的准确率。

但是,由于深度的卷积神经网络结构复杂,参数数目巨大,造成了特征提取的速度较慢。如何进一步提高深度神经网络的特征提取速度以及相似场景的分类准确率,将是未来研究工作的重点。

[1]Lienou M,Maitre H,Datcu H.Semantic annotation of satellite images using latent dirichlet allocation[J].IEEE Geosci.Remote Sens.Lett.,2010(7):28-32.

[2]Luo W,Li HL,Liu GH.Automatic annotation of multispectral satellite images using autho-topic model[J].IEEE Geosci.Remote Sens.Lett.,2012(9):634-638.

[3]W.Luo,H.L.Li,G.H.Liu,et al.Semantic AnnotationofSatelliteImagesUsingAuthor-Genre-Topic Model[J].IEEE Transactions on Geoscience and Remote Sensing,2014(52):1356-1368.

[4]Zhang Z,Yang M Y,Zhou M,et al.Simultaneous remote sensing image classification and annotation based on the spatial coherent topic model[C]//IEEE InternationalGeoscience and Remote Sensing Symposium.2014:1698-1701.

[5]Sivic J,Zisserman A.Video Google:A text retrieval approach to object matching in videos[C]//Computer Vision,2003.Proceedings.Ninth IEEE InternationalConferenceon.IEEE,2003:1470-1477.

[6]许风晖,慕晓冬,赵鹏,等.利用多尺度特征与深度网络对遥感影像进行场景分类[J].测绘学报,2016,45(7):834,840.

[7]Penatti O A B,Nogueira K,Santos J A D.Do deep features generalize from everyday objects to remote sensing and aerial scenes domains[C]//IEEE Int.Conf.Comput.Vis.Pattern Recognit.Workshops,2015:44-51.

[8]Deng J,Dong W,Socher R,et al.ImageNet:a large- scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition.2009:248-255.

[9]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.

[10]Szegedy C, Vanhoucke V, Ioffe S, etal.Rethinking the Inception Architecture for Computer Vision[J]. arXiv preprint arXiv:1512.00567,2015:1-10.

[11]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[J].ArXiv preprint arXiv:1408.5093,2014:1-4.

[12]Sermanet P,Eigen D,Zhang X,et al.Overfeat:Integrated recognition,localization and detection using convolutional networks[J].arXiv preprint arXiv:1312.6229,2013:1-16.

[13]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2015:1-9.

[14]杨昭,高隽,谢昭,等.局部Gist特征匹配核的场景分类[J].中国图象图形学报,2013,18(3):264-270.

[15]Siagian C,Itti L.Rapid biologically-inspired scene classification using features shared with visual attention[J].IEEE transactions on pattern analysis and machine intelligence,2007,29(2):300-312.

[16]Yao X W,Han J W ,Gong C,et al.Semantic annotation of high-resolution satellite images via weakly supervised learning[J].IEEE Transactions on Geoscience and Remote Sensing,2016,54:3660-3671.

猜你喜欢
特征提取分类器准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于Daubechies(dbN)的飞行器音频特征提取
高速公路车牌识别标识站准确率验证法
BP-GA光照分类器在车道线识别中的应用
Bagging RCSP脑电特征提取算法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于MED和循环域解调的多故障特征提取