基于可变形全卷积神经网络的冬小麦自动解译研究

2020-10-10 07:07李旭青张秦雪安志远金永涛张秦浩
农业机械学报 2020年9期
关键词:冬小麦卷积尺寸

李旭青 张秦雪 安志远 金永涛 张秦浩 丁 晖

(1.北华航天工业学院遥感信息工程学院, 廊坊 065000; 2.河北省航天遥感信息处理与应用协同创新中心, 廊坊 065000; 3.北京电子工程总体研究所, 北京 100854)

0 引言

中国是冬小麦种植大国,冬小麦种植面积常年稳定在2 200万hm2左右,约占全国耕地总面积的18%。及时准确获取冬小麦生长和分布情况,有利于冬小麦产量估值,为我国农业政策制订、农产品布局提供有力的依据[1]。遥感技术具有覆盖范围广、重访周期短、获取成本相对低等优势,在农作物生长态势感知、产量估算、生产管理中扮演着重要角色[2]。

目前,利用高分辨率遥感影像实现冬小麦解译成为可能。高分辨率遥感影像具有丰富的地物纹理信息及多光谱波段,常用于农作物提取,它往往以高维性、异质性、光谱特征的大空间变异性、类别不平衡性及重叠类条件分布等特征表现出复杂的数据属性[3-5]。近年来,随着遥感技术的不断发展,针对高分遥感影像的成像特点研究人员提出了植被指数阈值模型、长时间序列植被指数拟合重建、统计模型等遥感地物分类方法。植被指数阈值模型中的NDVI与EVI因可以较稳定地表达光谱特征而被广泛应用[6-8],但气溶胶、双向反射、云层引起的噪声及茂盛植被带来的饱和问题使仅依靠光谱信息进行植被指数解译的方法受到限制[9-10]。长时间序列的植被指数拟合重建方法充分考虑了冬小麦的物候特征,将时序化的植被指数数据通过非对称高斯函数拟合法、双Logistic函数拟合法、SG滤波法等进行拟合重建,通过定性及定量对比分析得到最优的模型[11-14],但是在一定程度上会影响空间离散分布的地物识别精度。传统的统计模型及随机森林[15-16]、SVM[17]等机器学习算法基于像元值、时间、光谱指数等多特征因素进行提取,通过分类器进行模型预测。这些方法对于地物均匀分布及离散分布的样本有良好的分类效果,但是存在以下问题[18-19]:人工设计的特征需要研究者具有丰富的专业知识,具有主观性;传统模型的特征复杂性难以表达碎片化地物及易混淆地物的分布情况,需要更高级的特征对其进行表达。因此,传统的遥感地物分类方法具有一定的主观性,使模型的准确性及泛化能力受到了限制。如何有效地提取高分影像的光谱、空间信息特征及高级的语义特征是遥感影像识别任务的关键。

随着深度学习的不断发展,卷积神经网络作为复杂特征提取器在遥感影像地物提取中被广泛应用[20-24]。LONG等[25]提出了全卷积神经网络(FCNN),其使用卷积层代替传统神经网络的全连接层进行反卷积,解决了空间坐标丢失的问题;将浅层网络的低级特征与深层网络的高级特征进行耦合,经过训练可以对图像进行更准确和详细的分割[26]。RONNEBERGER等[27]在FCNN的基础上扩大了网络框架,提出了用于医学影像分割的卷积神经网络(U-Net),其更深层次的特征耦合使其分割精度得到提高。以上网络对高维图像的丰富特征有着很好的表达效果,但是存在以下问题:高分影像中不同空间位置的冬小麦对象存在尺寸、视野、姿态及部分变形的几何变化,固定结构的卷积模块限制了对可变形对象特征的泛化能力;像素级分类方法对噪声敏感,难以获取对象级的语义信息,在提高图像整体识别精度的同时会使预测图像产生“椒盐”噪声。因此,对于具有精细定位的遥感影像地物识别任务需要自适应地确定尺度或者感受野。DAI等[28]突破固定卷积的局限性,提出了可变形卷积神经网络模型。在标准的卷积模块中加入可训练的二维偏移量,可以使采样网络自由变形,实验证明这种方法在目标检测任务中取得了较好的结果[29-32]。

本文结合高分遥感影像的特点,提出可变形全卷积神经网络(DFCNN),该模型在U-Net网络基础上进行改进,引入可变形卷积的思想,将可训练的二维偏移量加入到网络中的每个卷积层前,使卷积产生形变,并获得对象级语义信息,提高网络模型对几何变化特征的提取能力。将DFCNN模型引入到冬小麦面积提取领域,以高分二号遥感影像为研究对象,并使用该模型进行基于像素的冬小麦对象识别。将分类结果与基于传统的FCNN模型、U-Net模型、随机森林(RF)算法得到的结果进行对比,验证DFCNN模型对形状、大小不同的冬小麦复杂特征的表达能力以及对对象级特征的提取能力。

1 研究区及实验样本

1.1 研究区概况

研究区位于河北省廊坊市大厂回族自治县(图1),地理范围为39°49′~39°58′N,116°48′~117°3′E,海拔为10.5~24.5 m,农田有效灌溉面积约为9 327 hm2,占总面积的52.91%,具有2个国家级粮食示范区,农作物分布广袤。大厂回族自治县地处华北平原北端属温带亚湿润气候区,年平均降水量580.6 mm,年平均气温11.9℃,四季分明,光照降水充足,气候条件适合冬小麦种植,研究区域冬季农作物主要为冬小麦,具有分布集中、面积广阔、近水源等特点。

图1 大厂回族自治县行政区划示意图Fig.1 Administrative division diagram of Dachang Hui Autonomous County

1.2 数据源

冬小麦普遍于9月中下旬至10月上旬播种,翌年5月底至6月中旬收获,本文选用GF-2号卫星PMS2传感器,获取2017年12月15日河北省廊坊市大厂回族自治县在云量较少时的GF-2号多光谱影像和全色影像,作为数据源。影像包括冬小麦、裸地、坑塘、河流、林地、住宅、操场、工厂、村落、道路10类遥感场景。

1.3 数据预处理及实验样本

将原始GF-2号影像中的多光谱影像及全色影像进行融合,将预处理后尺寸为7 730像素×6 908像素的影像顺序切割为728幅256像素×256像素的样本数据集,并使用Labelme标注软件对数据集进行标注,得到728幅256像素×256像素的标注集。为了防止模型过拟合,将实验数据集与标注集进行同步水平、垂直翻转并进行随机打乱处理,以达到数据增强的效果。最终得到2 184组样本集,使用留出法提取样本集的80%作为训练集进行模型训练,剩余20%作为测试集进行模型评价和辅助调参。

2 可变形全卷积神经网络模型

遥感图像解译与深度学习中的语义分割任务相同,本质上是为了实现基于图像像素的分类,所以本文基于语义分割网络中的U-Net设计出了DFCNN模型,对遥感图像中地物的颜色、形状、纹理、位置等特征进行综合提取与优化,最终达到自动解译目的。

2.1 改进设计

RONNEBERGER等[27]在全卷积神经网络(FCNN)的基础上扩大了网络的框架,提出了用于医学影像分割的U-Net网络。但是直接使用U-Net网络解译遥感影像还存在以下问题:输出影像尺寸与原始影像尺寸不同,存在影像信息缺失;网络模型适用于背景干扰因素小、特征差异明显、类间边界显著的医学影像,对存在复杂背景信息、易混淆的相似地物、边界模糊的GF-2遥感影像的拟合能力有所欠缺;遥感影像中的冬小麦对象存在尺寸、视野、姿态及部分变形的几何变化,固定的卷积结构限制了模型对可变形对象的表征能力。因此本文对U-Net网络模型进行了改进。

(1)卷积填充

U-Net网络存在输出影像像素缺失问题,主要是因为卷积核对影像进行步长为1的滑动卷积后,会使输出特征图像的尺寸缩小。

(w',h')= w-f-1s,h-f-1s

(1)

式中h、w——卷积前影像的宽度与高度

h′、w′——卷积后影像的宽度与高度

f——卷积核尺寸

「·⎤——向上取整s——步长

本文在卷积前,对影像边缘尺寸为(f-1)/s的区域进行填充补零,使卷积前后的影像尺寸相同,从而解决像素缺失问题。

(2)网络结构修改

作为卷积神经网络的核心层,卷积层的深度会影响网络模型对特征的提取效果,经LeNet[33]、AlexNet[34]、VGG[35]等网络模型证明,在一定程度上增加卷积层深度,可以有效提取输入数据中更为复杂的特征。遥感影像相较于医学影像具有更复杂的特征信息,所以本文在U-Net原有的19个卷积层基础上,增加了4个卷积层以增强模型的表征能力。

(3)可变形卷积模块

传统的卷积采用固定的卷积形状,卷积过程包括两个步骤:①在输入特征图X上使用规则卷积核网格grid进行滑动采样。②对权重ω的采样值求和。输出特征图中每个位置P0对应的输出特征值y,都是由卷积核grid位置(G(x,y))的权重ω和输入特征图grid位置(G(x,y))的特征值内积求和得到,即

G(x,y)=
{(xi,yj),(xi+1,yj+1),…,(xn-1,yn-1),(xn,yn)}
(i=1,2,…,n;j=1,2,…,n)

(2)

(3)

式中G(x,y)——当前感受野的采样位置

xi——感受野的横坐标

yj——感受野的纵坐标

Pn——输入特征图像素位置

grid——当前卷积区域感受野

Y(P0)——固定卷积的输出特征图中,每个感受野采样位置对应的输出特征值

ω(Pn)——当前感受野采样位置的卷积核权重

X(Pn)——当前感受野采样位置的输入特征值

固定结构的卷积对特征图固定位置进行采样,同一卷积层中所有激活单元的感受野大小、形状相同。DAI等[28]发现,相同的感受野会限制模型对图像中不同位置、不同尺寸、不同形状对象的识别能力,为此提出了自适应感受野大小的可变形卷积神经网络。为提取出GF-2遥感影像中冬小麦的几何特征,本文在U-Net网络的每个池化层后,加入可变形卷积神经网络的可变形卷积模块,通过在卷积过程中加入可训练的偏移量ΔPn,改变了grid采样位置及感受野形状,使模型可以对不同大小、形状的冬小麦进行自适应采样。

(4)

式中x(Pn+ΔPn)——当前感受野采样偏移位置的输入特征值

2.2 DFCNN模型结构

本文设计的DFCNN模型由23个卷积层(C1~C23)、4个池化层(P1~P4)、4个上采样层(UP1~UP4)组成,并在每个卷积层后加入可变形卷积模块,整个网络结构如图2所示。

图2 DFCNN模型结构Fig.2 DFCNN model structure

3 实验与结果分析

3.1 实验环境

DFCNN模型的训练机硬件环境为3.6 GHz的Inter Core i7-9700KF中央处理器,内存为16 GB。通过显存为6 GB的RTX 2080 GPU搭载CUDA并行计算架构实现训练模型的加速。为了提高模型的部署效率采用Python作为实现语言,选择面向数据流的tensorflow框架作为软环境来实现网络模型的搭建、训练和调参。

3.2 模型训练

损失函数表示模型的预测值与真实值的不一致程度,分为经验风险损失函数和结构风险损失函数。由于网络中加入了正则项来避免过拟合,所以本文使用tensorflow框架提供的结构风险损失函数作为评价指数来评估网络的拟合程度与泛化能力。结构风险损失函数表示为

(5)

(6)

式中yi——Softmax归一化输出张量中对应分量

Vi——第i个输出分量的值

Vj——第j个输出分量的值

Hy′(y)——交叉熵损失值

y′i——样本标签中的第i个值

学习率决定了梯度下降的步长,过小的学习率会影响模型训练的效率,过大的学习率可能会导致模型陷入局部最优。批尺寸(batchsize)决定了梯度下降的范围,过小的批尺寸使梯度下降方向不准确、震荡大,过大的批尺寸可能同样会陷入局部最优。因此,如何对学习率、正则项系数、批尺寸进行微调是网络模型训练的关键。

本文将预处理后的带有样本影像和标签的训练集(1 747幅图像)和测试集(437组幅图像)输入DFCNN模型进行训练,通过观察网络中的损失值及准确率变化曲线,对网络的学习率、正则项系数、批尺寸等参数进行微调。分别使用不同的学习率(1×10-5、5×10-5、1×10-4、5×10-4、1×10-3)、正则项系数(0、4×10-4、4×10-3、1×10-2、4×10-2)、批尺寸(1、2、3、4、5)训练模型,损失值及准确率变化曲线如图3所示。

图3 不同参数对应的训练模型损失值及精度Fig.3 Loss value and accuracy of training model corresponding to different parameters

由图3a可知,在正则项系数及批尺寸固定的前提下,准确率随学习率的增大呈先增后减趋势,在学习率为0.000 5时达到峰值,说明此时模型的训练效果达到最佳,过大的学习率会使模型陷入局部最优。由图3b可知,在学习率及批尺寸固定的前提下,准确率随正则项系数增大呈先增后减趋势,在正则项系数为0.004时达到峰值,说明此时模型的训练效果达到最佳,过大的正则项系数会削弱特征的表达能力,使模型产生欠拟合。由图3c可知,在学习率及正则项系数固定的前提下,准确率随批尺寸的增大呈持续增长的趋势,在批尺寸为5时模型的训练效果达到最佳,由于批尺寸的增加受限于实验硬件环境的GPU内存,所以本文只测试了当前硬件环境支持的批尺寸。

综上分析,在学习率为0.000 5、正则项系数为0.01、批尺寸为5的情况下,模型训练效果最佳,训练集的最优损失值为0.048,最优准确率为98.1%。

3.3 实验结果与分析

3.3.1评价指标

DFCNN是一种基于像素的地物识别方法,为了检测网络模型正确识别每个像素的效果,本文采用像素精度(Pixel accuracy)作为GF-2遥感影像语义分割的评价指标。

(7)

式中PA——像素精度,标记正确的像素占总像素的比例

k——像素种类数

Pii——i类像素被预测为i类像素的概率

Pij——i类像素被预测为j类像素的概率

考虑到网络模型提取的特征在不同类别中的表达差异性,采用平均像素精度(Mean pixel accuracy)评价可变形全卷积神经网络对目标地物和背景地物的整体分割效果。

(8)

式中MPA——平均像素精度

3.3.2识别性能分析

冬小麦分布复杂,存在尺寸、视野、姿态及局部变形的几何变化。因此,本文选用大厂回族自治县研究区域内与样本非交叉的高分遥感影像作为模型输入,影像中存在不同尺寸、形状的冬小麦以及操场、裸地、坑塘等易混淆背景地物。本文算法可以精确地识别出研究区内不同尺寸及不同空间分布的冬小麦位置,并能较准确地分割冬小麦和背景地物,说明本文算法具有较强的泛化能力和鲁棒性。为了进一步评估DFCNN模型的影像分割性能,本文分别使用基于滑动窗口的FCNN模型、U-Net模型、RF算法对冬小麦进行自动解译,不同算法预测结果如图4所示。

图4 不同算法的预测结果Fig.4 Prediction results of different algorithms

环境复杂的测试影像(图4a)中存在大面积的建筑、裸地、道路、坑塘等背景地物,可用于验证DFCNN模型的鲁棒性。针对与冬小麦颜色特征相近的坑塘地物,FCNN模型(图4b)出现了严重的误分情况;具有更深网络层次的U-Net模型(图4c)明显减少了易混淆特征对分类的影响,但是从整幅影像上看仍存在大量的“椒盐”噪声;RF算法(图4d)在一定程度上降低了“椒盐”噪声,但目标地物的边界识别效果还不够理想;DFCNN模型(图4e)对冬小麦的识别效果最优,边界更为平滑,对于易混淆地物也具有较强的识别能力。本文将统计的像素精度、平均像素精度结果及训练性能和本文模型(DFCNN)的结果进行对比,结果如表1所示。

表1 冬小麦特征提取对比实验结果Tab.1 Experimental results on feature extraction of winter wheat

由表1可知,FCNN模型的像素精度偏低,为89.3%,其分割结果出现了坑塘地物误分情况,说明其提取的冬小麦特征鲁棒性差,容易受到混淆地物的影响。具有更深层网络及特征叠加的U-Net像素精度明显提升,为93.9%,但是其预测结果依然会出现“椒盐”噪声,冬小麦边界分割不平滑。加入可变形卷积模块的DFCNN像素精度最高,为98.1%,噪声明显降低,且冬小麦边界更为平滑,说明可训练的偏移量有助于冬小麦几何变化特征的充分表达。

从模型训练效率来看,DFCNN训练时间和解译

时间为0.324 h和0.630 s,与U-Net相比,增加了0.018 h和0.07 s,但准确率提高了4.2个百分点,说明DFCNN对冬小麦特征提取的效果最优。

4 结束语

将深度学习引入冬小麦遥感影像自动解译领域,针对遥感影像数据特点和U-Net网络结构的局限性,综合遥感影像的颜色、形状、纹理、位置以及几何特征,设计了DFCNN模型。DFCNN模型在U-Net模型卷积层中加入卷积填充,使模型预测影像与输入影像尺寸相同,避免了像素缺失,实现了端到端的输出;在原始U-Net模型层次基础上增加了4个卷积层,更深层次的网络有利于遥感影像复杂特征的表达;在卷积中加入了可变形卷积模块,使DFCNN模型可以进行自适应采样,以增强对高分遥感影像中冬小麦几何变化特征的表达。通过对比FCNN模型、U-Net模型、RF算法和DFCNN模型,结果表明,DFCNN模型对冬小麦识别效果最佳,像素精度达到98.1%,解译时间为0.630 s。

猜你喜欢
冬小麦卷积尺寸
2022年山西省冬小麦春季田间管理意见
冬小麦田N2O通量研究
CIIE Shows Positive Energy of Chinese Economy
冬小麦的秘密
基于3D-Winograd的快速卷积算法设计及FPGA实现
不误农时打好冬小麦春管“第一仗”
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
D90:全尺寸硬派SUV