一种面向土地覆盖分类的卷积神经网络模型

2019-06-28 07:59史路路郑柯唐娉赵理君
遥感信息 2019年3期
关键词:像素卷积尺寸

史路路,郑柯,唐娉,赵理君

(1.中国科学院遥感与数字地球研究所,北京 100101;2.中国科学院大学,北京 100049)

0 引言

遥感影像数据在全球资源变化监测和土地覆盖分类问题过程中发挥着积极作用,如何进一步提高遥感影像土地覆盖分类精度具有十分重要的意义。传统的基于像元的遥感影像监督分类算法主要根据地物光谱[1-5]对图像进行分类。但由于同谱异物现象和大量混合像元的存在,基于像元光谱特征的分类方法往往不能达到满意的分类效果。另外研究人员还提出了基于纹理邻域信息的方法来弥补仅依靠光谱特征进行分类的不足,黄昕等提出了像元形状指数[6](PSI),郑淑丹等提出使用基于分形和灰度共生矩阵纹理特征[7]的分类方法。这些传统分类方法虽然能够很好地避免分类量大、时间长、精度受人为因素影响等缺点,但受到所设计特征语义表达能力的限制,分类精度仍无法令人十分满意。

近年来,基于特征自学习的卷积神经网络(convolutional neural networks)在图像分类识别问题上取得了大量成功应用[8-13]。在2012年的ILSVRC(imagenet large scale visual recognition challenge)比赛上,Alex等[14]用AlexNet模型实现了top-5错误率为15.3% 的好成绩。许多经典的网络模型结构随之涌现出来,如GoogLeNet[15]、ResNet[16]等。深度学习在遥感影像分类方面的应用主要集中在基于图片粒度的场景分类识别方面;Hu F[17]等通过从多个提前训练好的深度卷积神经网络模型中提取特征并送入到简单的分类器中进行分类,在UC-Merced和WHU-RS数据集上的分类精度都达到了96.8% 以上。然而卷积神经网络在土地覆盖分类中鲜有报道,主要原因在于UC-Merced等遥感场景图像与ILSVRC分类图像在图像尺寸上具有相似性,模型的迁移较为简单,但在土地覆盖分类中训练样本通常采集以样本点为中心的邻域参与训练,具有样本数量少、样本尺寸小、样本类别少的特点,这些经典的网络模型在解决遥感图像土地覆盖分类问题中存在样本形式与网络输入输出要求不匹配等问题,导致模型无法直接应用,因此必须重新设计适用于土地覆盖分类小样本尺寸特点的模型。Längkvist等[18]对比了多个自设计卷积神经网络应用于高分辨率多光谱正射影像并结合DSM模型数据在城市地物类别像素分类实现了94.49% 的最好分类精度,但其在中低分辨率影像中的分类效果还有待验证。张伟等[19]在GF-1号16 m分辨率影像上使用AlexNet模型作为特征提取器,使用提取的特征输入SVM分类器使土地覆盖分类实现了97.8%的分类精度,但是并没有解决AlexNet模型输入层尺寸过大和土地覆盖分类基于邻域窗口样本尺寸过小的问题。另外,卷积神经网络本身是一个具有强大的特征学习能力的分类器,是可以直接将学到的特征通过SoftMax层实现分类结果输出。

针对上述问题,本研究基于卷积神经网络强大的特征学习能力和特征表示能力以及土地覆盖分类区别于ILSVRC图像分类的特点,使用Caffe深度学习框架,在参考了AlexNet等ILSVRC成功模型网络结构特点的基础上,设计了一个具有3个卷积层、2个全连接层和1个SoftMax层的卷积神经网络(land-cover convolutional neural network,LCNet),实验使用陆地卫星中分辨率影像和快鸟高分辨率影像作为实验数据,对比了不同样本尺寸大小与不同分辨率影像对模型分类结果的影响,并与传统的基于光谱特征和光谱加纹理特征的方法进行了对比分析,表现出了更强的土地覆盖分类能力。

1 模型介绍

1.1 卷积神经网络结构

AlexNet网络模型是ILSVRC比赛中第一个真正的深度卷积神经网络,在图像识别分类领域引起了巨大轰动。该模型以227像素×227像素图像作为输入,经过卷积层(conv),Relu激励操作,池化层(pool),规范化(norm)运算,dropout防止过拟合策略操作,经过2个全连接层,最后送入1个SoftMax层进行结果分类。图1是AlexNet模型结构示意图,它是由5个卷积层和2个全连接层构成的7层深度卷积神经网络。

图1 AlexNet模型结构图

1)卷积层(conv)。在卷积层,上一层的特征图(feature map)被一个可学习的卷积核进行卷积,然后通过一个激活函数(activation function),就可以得到输出特征图,每个输出特征图可以组合卷积多个特征图的值:

(1)

(2)

2)修正线性单元ReLU (rectified linear unit)。在神经网络中需要引入一些非线性的因素,来更好地解决复杂的问题。激活函数恰好能够帮助引入非线性因素,使得神经网络能够更好地解决较为复杂的问题。修正线性单元恰是后期改进的激活函数。

f(x)=max(0,z)

(3)

式中:z为上一层的卷积操作计算结果,通过修正线性单元激活函数进行非线性映射,相比传统sigmoid激活函数,ReLu激励函数克服了sigmoid激励函数的梯度饱和问题,在反向传播计算过程中,缓解了梯度弥散的问题,并且ReLu计算速度快,加快了模型收敛的速度。

3)下采样层(pool)。下采样层将每个输入特征图通过下面公式操作进一步减少模型参数进而输出下采样过后的特征图:

(4)

(5)

4)规范化(norm)。AlexNet模型采用的规范化操作被称作局部响应归一化操作,本质上是一个平滑操作,即

(6)

5)Dropout策略。Dropout策略是指在模型训练时以一定概率让网络某些隐含层节点的权重不工作,由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,这样求得的参数能够适应不同情况下的网络结构,进而有效阻止了过拟合,提高了模型泛化能力。

6)SoftMax分类器。SoftMax函数经常用在神经网络的输出层,SoftMax解决的是多类分类问题,将神经元的输出变成概率的形式,由输出概率大小决定其分类类别,SoftMax的公式如下:

(7)

(8)

式中:K为最后一层神经元数,也就是最后的分类类别数;zj是第i个类别的预测结果。带入SoftMax的结果其实就是先对每一个zj取指数变成非负,然后除以所有项之和进行归一化,现在每个σi就可以解释成输入数据属于类别i的概率。

1.2 LCNet模型结构

由图1可知AlexNet模型有5个卷积层,2个全连接层。AlexNet模型标准输入图像大小为227像素×227像素大小,AlexNet模型将输入图像经过第一和第二卷积层的卷积池化操作使得图像大小由227像素×227减小到了13像素×13像素大小,第三和第四卷积层主要做了卷积操作和特征图层层数的增加,并经过第五个卷积层的池化操作使得图像大小减小到6像素×6像素大小,最后送入到2个全连接层和一个SoftMax层进行分类。土地覆盖分类相比于ILSVRC大规模图像库1 000类的分类任务,土地覆盖分类具有样本少,分类类别数少的特点,并且土地覆盖分类训练样本通常采集以样本点为中心的邻域参与模型训练,邻域大小远远小于224×224的模型输入。AlexNet等在解决遥感影像像素级土地覆盖分类问题中存在样本形式与网络输入输出要求不匹配等问题,模型输入设计太小无法构建具有一定深度的网络结构,样本尺寸选择过大会淹没中心样本点的信息。为此,本研究结合土地覆盖分类特点和AlexNet等模型特点设计了一个具有3个卷积层、2个全连接层和一个SoftMax层的卷积神经网络模型LCNet。LCNet有效缓解了训练样本尺寸太小和模型设计输入尺寸太大之间的矛盾。LCNet模型输入大小为27×27,经过第一层的卷积池化操作使得图像大小减小到13×13,第二层做卷积和特征图层的提取,经过第三层的卷积池化操作得到6像素×6像素大小图像,最后送入2个全连接层和一个SoftMax层进行分类,具体模型结构如图2所示。模型训练时我们需要将采集不同尺寸的样本数据上采样到标准大小(27×27)作为模型的标准输入,采样方法使用最邻近采样法以尽可能保持遥感影像的光谱信息。模型分类阶段针对待分类数据的每一个像素采集一定尺寸邻域信息并和训练样本做一样的上采样操作作为训练好模型的输入判断每一个像素的归属类别,本研究模型LCNet的设计和模型的训练均在Caffe深度学习框架上完成。

图2 土地覆盖分类模型结构图

2 研究区与数据

2.1 研究区概况

研究区域一实验数据所选区域位于美国科罗拉多州的一幅陆地卫星5数据,具体陆地卫星5相机指标数据如表1所示。由于LCNet模型的输入图像为3波段图像数据,本研究首先对原始影像数据进行PCA(principal component analysis)变换来提取前3个主要成分作为模型实验数据,图3是543波段假彩色合成影像,实验区图像大小为400像素×360像素大小,根据人工目视解译和以往研究资料数据将影像中的地物类别分为林地、草地、耕地、沙地、裸地、山体地阴影6类。

表1 陆地卫星5多光谱相机技术指标

研究区域二实验数据所选区域位于北京市昌平区的一幅快鸟数据,影成像时间为2016年10月25日,具体快鸟相机指标数据如表2所示。本研究使用321波段作为实验数据,图4是321波段真彩色合成影像,实验区图像大小为450像素×350像素大小,根据人工目视解译和实地考察将影像中的地物类别分为林地、草地、池塘、河流、道路、黑色居民楼、红色居民楼、高亮地物等8类。

图3 研究区域一示意图

波段范围/μm空间分辨率/m幅宽/km重访时间/d0.45~0.522.440.52~0.662.4416.51~60.63~0.692.440.76~0.902.44

图4 研究区域二示意图

2.2 研究区一模型训练数据

根据目视解译和以往研究资料从图像中手工选取了林地,草地,耕地,沙地,裸地,山体地阴影等6类地物样本,具体样本数据的采集是以样本点为中心采集样本尺寸大小分为3×3、5×5、7×7、9×9等尺寸大小的样本作为模型训练数据,具体每一类的类别数量如表3所示。在模型分类结果评价中以同样方法分别采集各尺寸样本1 193个样本用于分类结果精度评价,其中林地214个、裸地190个、耕地206个、草地186个、山体阴影195个、沙地202个,使用验证样本对不同尺寸训练样本得到的模型的分类结果通过计算混淆矩阵求取总体分类精度和Kappa系数进行精度评价对比分析。

表3 研究区一6类训练样本采集数量

2.3 研究区二模型训练数据

由于研究区域二为视觉空间特征更好的高分辨率数据,本研究采集5×5、7×7、9×9等3类尺寸大小的样本作为模型训练数据,具体每一类的类别数量如表4所示。在模型分类结果评价中以同样方法分别采集各尺寸样本2 012个样本用于分类结果精度评价,其中林地244个、草地231个、池塘226个、河流257个、道路227个、黑色建筑物282个,红色建筑物279个,高亮地物266个,使用验证样本对不同尺寸训练样本得到模型的分类结果通过计算混淆矩阵求取总体分类精度和Kappa系数进行精度评价对比分析。

表4 研究区二8类训练样本采集数量

3 模型训练与结果分析

3.1 模型训练

LCNet模型相比AlexNet模型由于层数和输入图像大小的变化使得模型参数大大减少,从而模型有了更快的训练速度。由于模型训练样本数据数量少,本研究在训练模型时相比AlexNet模型降低了学习率以使LCNet模型训练能够稳定收敛。陆地卫星数据和快鸟数据都在训练1 000次左右时迅速达到了近90%的精度,从图6可以看出快鸟数据相比陆地卫星数据训练过程更为稳定。陆地卫星数据最终5像素×5像素大小的模型输入训练精度达到了97.76%的最好训练精度,快鸟数据最终7像素×7像素大小的模型输入训练精度达到了98.13%的最好训练精度。LCNet模型陆地卫星影像训练过程如图5所示,快鸟影像训练过程如图6所示。

3.2 不同尺寸样本对分类结果影响分析

将陆地卫星实验区域的每个像素按照3×3、5×5、7×7、9×9邻域大小进行采集分别输入各自样本大小训练好的模型当中进行逐像素类别判断,并对各自尺寸分类结果进行精度评价。快鸟数据实验区按照5×5、7×7、9×9邻域大小进行采集进行逐像素类别判断。陆地卫星影像分类结果精度对比如图7和图8所示,分类结果如图9所示,快鸟影像分类结果如图10所示。

从图9分类结果精度对比图可以看出随着窗口尺寸的增大陆地卫星影像的分类精度有所提高,分类精度在5×5时总体分类精度最高,随着尺寸的增加结果影像的分类精度有所下降。从分类结果图中可以看出图像在3×3时邻域信息较少,卷积神经网络不能很好综合邻域信息提取有效表达地物的特征,在最终图像分类效果相对较差;但是随着邻域信息的增加,包含过多的冗余信息反而对结果造成影响,从9×9分类结果图中可以看出图像有较强的滤波效应,图像分类类别表现为图像细节信息减少,类别边缘平滑。图像在5×5邻域尺寸样本细节信息相对9×9邻域尺寸样本表现较好;在快鸟影像分类结果中7×7样本数据分类精度最高,在9×9分类结果图中可以看出图像有一定的滤波效应。快鸟高分辨率影像相比陆地卫星中分辨率影像视觉空间特征更好,滤波效应减小,分类细节信息保存更好;不同尺寸对分类结果影响差距不大,模型在高分辨影像上对样本尺寸选择更为鲁棒。

图5 陆地卫星影像不同尺寸样本模型训练过程

图6 快鸟影像不同尺寸样本模型训练过程

图7 陆地卫星不同尺寸样本模型总体分类精度

图8 快鸟不同尺寸样本模型总体分类精度

图9 陆地卫星影像各尺寸大小分类结果图

图10 快鸟影像各尺寸大小分类结果图

3.3 方法对比分析

通过3.2节的实验分析知道,针对陆地卫星影像,无论在细节保留度还是总体分类精度上,5×5大小的样本尺寸得到的分类结果都要好于其他样本尺寸大小,为了分析本方法模型的有效性,文章针对陆地卫星影像将使用5×5样本尺寸大小作为本方法的标准输入样本大小,使用同一组训练样本与验证样本和采用光谱特征的SVM分类器以及采用光谱加纹理特征的SVM分类器进行分类结果对比。针对快鸟影像使用7×7样本尺寸大小与传统方法做对比。纹理特征选用基于灰度共生矩阵,加上每个波段选择2个纹理度量均值(mean)和非相似性(dissimilarity),从而得到一个8维的纹理特征。将纹理特征和光谱特征作为SVM分类器的输入特征进行分类。

从图11分类结果中可以看出,利用光谱和光谱加纹理特征的分类器进行陆地卫星中影像分类时,有较多的细碎小图斑,如图11(b)中红色方框部分,需要做影像分类后处理去除,存在较多将裸地错分为阴影和草地的情况,加入纹理信息特征后阴影误分情况减少,碎斑误分类情况有所改善,采用LCNet在TM影像分类结果中碎斑明显较少,裸地部分误分草地情况大大改善,同类地物分类结果更为连续一致,可以省去分类后处理的环节。由于陆地卫星中分辨率影像视觉空间特征的限制,LCNet在中分辨率土地覆盖分类中一定程度上损害了细节信息并且对输入像素尺寸要求更为严格,快鸟高分辨率视觉空间特征更好,更有利于卷积神经网络利用空间信息,缓解了陆地卫星中分辨率影像分类中的滤波效应。相比传统方法误分情况大大改善,传统方法存在将水误分为林地和将高亮地物误分为草地的情况,如图12(b)和图12(c)中黄色和红色方框区域,LCNet在该区域表现更好。

定量精度评价中,陆地卫星影像和快鸟影像3种分类方法总体分类精度和Kappa系数如图13和图14所示,从表5和表6中看出加入纹理特征后可以看出相对于表7和表8单一光谱特征kappa系数都有所提升,使用深度学习特征的总体分类精度和kappa系数都要高于其他2种传统分类方法。并且从表9和表10混淆矩阵中可以看出LCNet相对于传统分类方法误分类情况较轻,加入纹理特征相对SVM误分情况有所缓解,但依然有较大误分,尤其对于草地和林地地物光谱差异较小的地物,单纯人为的纹理构造特征并没有得到地物之间区分的本质差异,卷积神经网络本身作为一个强特征提取器,能够自动迭代寻找不同样本之间的差异,从而使光谱差异很小的不同地物得以很好地区分。在陆地卫星中分辨率影像中,分类结果连续一致性好,但本方法在去除细小碎斑的同时也少了很多细节信息,如图11(d)中黄色方框区域。这可能是Relu非线性激励函数和最大值池化层作用的结果,非线性函数使得一些神经元可能永远不被激活,从而参数得不到更新,使得高亮和低亮地物出现类似滤波效果的扩张或者缩水现象,同时淹没了一部分细节信息。由于陆地卫星中分辨率影像视觉空间特征的限制,LCNet在中分辨率土地覆盖分类中相对于传统方法分类精度提升有限并且对输入像素尺寸要求更为严格,LCNet在高分辨率影像中细节信息保存更好,对样本尺寸选择更为鲁棒,分类精度提升更大。

图11 陆地卫星不同分类方法分类结果图

图12 快鸟不同分类方法分类结果图

图13 陆地卫星不同方法分类结果总体分类精度

图14 快鸟不同方法分类结果总体分类精度

类别裸地耕地草地阴影沙地林地裸地92.631.461.083.082.480.00耕地2.1194.170.000.510.971.47草地4.212.9195.700.001.503.93阴影0.000.970.0095.380.001.13沙地0.000.000.540.0095.050.00林地1.050.492.681.030.0093.47

表6 光谱加纹理特征的快鸟分类结果混淆矩阵

表7 光谱特征的陆地卫星影像分类结果混淆矩阵

表8 基于光谱特征的快鸟分类结果混淆矩阵

表9 土地覆盖分类模型的陆地卫星影像分类结果混淆矩阵

表10 土地覆盖分类模型的快鸟分类结果混淆矩阵

4 结束语

针对卷积神经网络在土地覆盖分类相关研究鲜有报道,缺少相应的探索和分析,文章结合土地覆盖分类的特点,参考AlexNet等ILSVRC成功模型结构设计了LCNet模型在中高分辨率影像土地覆盖分类做了初步的实验验证,对比分析了不同尺寸样本和不同分辨率影像对分类结果的影像,并与传统基于光谱和基于光谱加纹理特征的分类方法进行对比得出结论:

①使用卷积神经网络对中分辨率影像进行土地覆盖分类时总体分类精度随样本尺寸先增加后减少,大的样本尺寸对分类结果有较强的滤波效应,同时说明卷积神经网络具有强大的特征学习能力,能在小尺寸上学得地物光谱差异,因此应为模型分类选择合适的样本大小。

②使用卷积神经网络对高分辨率影像进行土地覆盖分类时总体分类精度同样随样本尺寸先增加后减少;高分辨率视觉空间特征更好,更有利于卷积神经网络利用空间信息,缓解了陆地卫星分类中的滤波效应,分类结果细节信息保存更好;LCNet在高分辨率影像中对样本尺寸的选择更为鲁棒,相对中分辨率影像分类精度提升更大。

③本方法中卷积神经网络中使用了Relu非线性激励函数以及最大值池化等操作在中分辨率影像中导致地物边缘有扩张和缩小现象较为严重,这是导致细节信息减少的一个重要方面,为后续如何选择激励函数提出参考。

当然,本方法还存在一些不足。比如,模型参数设置是否合理,模型结构对于不同影像分辨率影像的影响,激励函数选择等。另一方面还需要更多参考借鉴近年来卷积神经网络发展的新模型新技术,进一步改进模型,探究更适用于土地覆盖分类的模型结构,为提高遥感影像土地覆盖分类精度提供新的技术途径。

猜你喜欢
像素卷积尺寸
像素前线之“幻影”2000
CIIE Shows Positive Energy of Chinese Economy
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
“像素”仙人掌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
ÉVOLUTIONDIGAE Style de vie tactile
D90:全尺寸硬派SUV
高像素不是全部