一种遥感影像自动识别耕地类型的机器学习算法

2018-12-20 11:04周询王跃宾刘素红于佩鑫王西凯
自然资源遥感 2018年4期
关键词:样本容量自动识别尺度

周询, 王跃宾, 刘素红, 于佩鑫, 王西凯

(1.北京师范大学地理学院,北京 100875;2.北京师范大学地理科学学部,北京 100875;3.北京师范大学数学科学学院,北京 100875)

0 引言

遥感技术为提取耕地类型提供了更加快速、全面、准确的手段,其中基于像元和面向对象的监督分类方法较为常用[3-4]。基于像元的分类方法中,需要从影像中选择特定的训练样本,获得样本的光谱特征,建立每个类别的判定函数[5],然后利用判定函数对待分类数据进行类别判定[6]。面向对象的分类方法首先对遥感影像进行分割[7],将分割后的斑块作为研究对象[8],然后选择特定的斑块作为训练样本,获取其光谱和几何等特征,建立不同类别的判定函数,对待分类斑块进行分类[9]。

由于遥感影像的光谱特征受观测几何条件和地表类型变化的影响比较大,所以“同物异谱”现象较为严重[10],这导致在利用光谱特征进行地物类别判断时受条件限制较强。此外,进行监督分类时选择的训练样本用于同一幅影像分类时精度较高[11],但处理其他多幅影像时精度显著降低;而针对不同影像重新选择训练样本则效率较低[12]。在高空间分辨率遥感影像中,分类方法的精度与效率的矛盾更加突出,自动化程度需求更强[13]。

为了兼顾遥感影像分类方法的精度与效率,本文提出了一种基于影像窗口子区的耕地类型自动识别算法。该算法通过对影像的规则划分获取一定大小的影像窗口子区,在提取多光谱和多层次特征的基础上,利用机器学习算法,自动识别影像窗口子区耕地和非耕地类型。以东北地区的高空间分辨率遥感影像为例,建立实验数据集以构建该区域特征库,实现耕地和非耕地类型的非监督自动识别,大大提高了分类算法的自动化程度;同时也对影像窗口子区尺度和样本容量进行了探讨。

1 算法原理及流程

结合高空间分辨率遥感数据特点,本文提出的基于影像窗口子区的耕地类型自动识别算法分为3个步骤:首先,通过获取一定数量典型地类的纯净窗口子区构建实验数据集;然后,对实验数据集进行多光谱、多层次特征提取,建立不同地类的特征库;最后,采用机器学习分类算法实现各地类的自动识别。

1.1 实验数据集构建

高空间分辨率遥感影像数据中,典型地物类型会在一定的窗口尺度内保持良好的均一性,这样尺度的窗口称为纯净窗口子区,该尺度可作为该类型的空间展布尺度[14],可用一定数量影像窗口子区中纯净窗口子区所占比例表示该尺度下地物的纯净度。依照耕地类型的空间展布尺度,通过随机对遥感影像的规则切分,获取一定数量的影像窗口子区,构建实验数据集,作为样本集。

构建的实验数据集包括3个方面的属性:典型地物类型、样本容量和各类型所占比例。典型地物类型由研究区典型地物构成决定;样本容量大小影响分类算法的效率和精度[15];各类型所占比例反映地类的结构,按照土地利用/土地覆盖各类型面积比确定[16]。

1.2 特征库建立

构建了实验数据集之后,将对其影像窗口子区进行多光谱、多层次特征提取以建立特征库,作为对影像进行识别分类的依据。

俗话说,造林成败在于管理。随着当前树种的多样化,相应的管理理念和方法需要逐步更新。目前,有必要对不同种类的树木实施不同的管理方法,例如那些在林地或大型牲畜周围有更多住所的树木。许多职业经理人需要被安排来照顾和维护林地。然而,对这一部分的影响较小,可以减少一些人力资源。在林地的后期管理中,应重视病虫害的防治。杀虫剂喷洒可以用来减少害虫对树木的影响。

多光谱特征是针对遥感影像多波段数据特点,按照波段数将遥感影像拆分为多个灰度图像,将多波段多图像的光谱特征作为特征库建立的基础。

多层次特征是由对影像的初级特征到高级特征的抽象所得[17-18],包括尺度不变特征变换(scale-invariant feature transform,SIFT)、稀疏编码和最大化池化。SIFT是对影像特征的初级提取,反映了影像的关键点和局部特征[19]。在其基础上,进行稀疏编码表示,获得更高层次的特征[20]。其求解过程包括训练阶段和编码阶段:训练阶段是对训练数据图像的SIFT特征进行稀疏编码,同时求解稀疏编码约束函数中的稀疏编码表示和字典;编码阶段是利用学习得到的最优字典,对测试数据图像的SIFT特征进行稀疏编码,求解其稀疏编码表示。得到稀疏编码表示后,通常需要对其进行最大化池化,将向量中各维相应的最大分量组成一个特征向量来表示该影像,获得多层次特征。

1.3 地类识别

针对不同地类的特征,利用支持向量机(support vector machine, SVM)算法对不同地类进行训练,构建类别判别函数[21]。首先,对待分类影像进行与特征库相同的特征提取,再利用判别函数进行地类识别;然后将影像识别结果进行融合,统计同一个影像窗口子区的所有灰度图像类别,将其众数作为该窗口子区的地物类型,实现耕地类型与非耕地类型的自动识别。基于影像窗口子区的耕地类型自动识别算法的具体流程如图1所示。

图1 耕地自动化识别流程

2 数据源与实验结果

实验数据源选择0.4 m空间分辨率的Pleiades卫星遥感数据,共4个波段,分别为蓝光波段B1、绿光波段B2、红光波段B3和近红外波段B4。

研究区位于我国东北地区的望奎县、大庆市、梅河口市和嫩江县4个典型区,分别位于东北地区的不同方位,典型地物类型主要包括耕地、林地、居民地和水体等,基本反映了东北地区的主要地物类型。研究区位置分布及遥感影像如图2和图3所示。其中嫩江县有3个时相数据。

图2 地物类型及研究区位置

(a) 望奎县影像 (b) 大庆市影像 (c) 梅河口市影像

(d) 嫩江县影像1 (e) 嫩江县影像2 (f) 嫩江县影像3

如图2和图3所示,在研究区内,包含了成片的耕地和非耕地区域,其中非耕地类型主要是林地和居民地。因此本文提出的算法主要以识别耕地、林地和居民地为主要目标。

2.1 地物类型和样本选取结果

由土地利用/土地覆盖数据,得到研究区内耕地、林地和居民地类型所占面积比例分别约为65%,35%和5%,以此作为样本选取的依据。

为获取纯净窗口子区大小,通过统计窗口子区尺度与纯净度的关系曲线,获得不同尺度下地物的纯净度。本文随机选择256像元×256像元,384像元×384像元,512像元×512像元,640像元×640像元和768像元×768像元的影像窗口子区各150景,目视判别其是否为纯净窗口子区,并分别计算纯净度,统计结果曲线如图4所示,图中红色点为实验最终选取的纯净窗口子区尺度,蓝色点为未选取的其他纯净窗口子区尺度。

图4 不同尺度纯净度统计

从图4可以看出,随着影像窗口子区尺度不断增大,地物纯净度不断降低。在保证影像窗口子区纯净度的前提下,考虑算法模型的效率问题,则影像窗口子区大小选取512像元×512像元,纯净度为85.3%,对应实际地面尺寸为200 m×200 m,基本符合东北地区耕地类型的空间展布尺度。依据该影像窗口子区尺度,通过对高空间分辨率影像的随机切分,构建实验数据集,各地物类型影像窗口子区如表1所示。

表1 各地物类型影像窗口子区

2.2 样本容量选取结果

为了获取训练/验证数据集样本容量大小,本文从实验数据集中选取容量大小分别为572,385,291,197,143和100的样本,测试数据集样本总容量保持883不变。各类型样本数依据土地利用/土地覆盖面积百分比选取,训练/验证数据集样本容量统计如表2所示。以不同训练/验证数据集样本容量,按照本文提出的自动识别算法进行对比实验,获得各方案分类精度,统计结果如图5所示。

表2 各类型样本容量

图5 样本容量与分类精度关系

本文主要研究对象为耕地类型,因此将林地和居民地进行合并,作为非耕地类型。从图5中可以看出,随着训练/验证数据集样本容量的增加,居民地分类精度大幅上升,林地和非耕地分类精度有一定幅度的提高,耕地分类精度也有上升趋势。为保障各类型识别精度要求,训练/验证数据集样本容量选择为572,耕地分类精度为97.0%,林地分类精度为81.6%,居民地分类精度为63.6%,非耕地分类精度为79.5%,总体精度为90.8%。

2.3 不同特征库条件下的自动识别精度

在确定了影像窗口子区尺度和样本容量后,选择了2套不同特征库的构建方案进行对比实验,分别对多光谱数据的多波段多图像以及合成单图像进行特征提取构建特征库,并对构建的特征库进行了多次精度验证。各方案模型在验证阶段的分类精度均值和方差如表3所示。

表3 各方案模型分类精度均值和方差

从表3可以看出,选择多波段多图像的自动识别方法精度较高,在验证阶段达到84.0%,远高于合成单图像的自动识别方法。

2.4 基于特征库的耕地类型识别精度

利用训练所得模型,对测试数据集进行识别分类,并将类型识别结果与已知标签对比获取其分类精度。各方案模型在测试阶段的不同地物类型识别精度如表4所示。

表4 各方案模型识别精度

从表3可见,多波段多图像的自动识别方法总体精度较高,在测试阶段达到了90.8%,具有较为理想的自动识别效果。利用该方法,以构建某一区域特征库为基础,实现对耕地类型的非监督分类,大大增强了分类方法的自动化程度。

3 结论与讨论

本文提出了一种遥感影像自动识别耕地类型的机器学习算法,基于对影像的规则切分获取一定大小的影像窗口子区,通过提取其多光谱和多层次特征,利用机器学习算法,实现耕地和非耕地类型的自动判别。通过研究,得到了以下结论:

1)与传统基于像元和面向对象分析方法相比,本文算法仅以规则切分后的影像纯净窗口子区作为研究对象进行识别,无需对单一像元进行分析处理,也避免了对高空间分辨率影像进行复杂的分割操作。研究表明,窗口子区尺度和样本容量的选择是决定分类精度与效率的主要参量,即窗口子区尺度选择的纯净度和样本容量选择的代表性是分类精度的关键,为了兼顾工作效率,应选择满足纯净度要求的最大窗口子区尺度和满足分类精度要求的最小样本容量。本文中研究区典型地物纯净窗口子区的尺度选择为200 m×200 m,纯净度可达85.3%,是较为合理的影像窗口子区可识别尺度;随机获取该尺度下的影像窗口子区,训练/验证数据集样本容量选择572,测试数据集样本容量为883,是兼顾精度与效率的较好选择。

2)通过对图像提取多光谱和多层次特征信息,构建特征库,利用机器学习算法,实现了对高空间分辨率遥感影像任意窗口子区耕地类型的自动识别,精度达到了90.8%。通过不同特征库条件下的对比实验发现,训练过程中所采用的策略会对分类精度产生影响,在只利用合成单图像进行多层次特征提取与识别分类时,精度下降到了87.1%。可见基于多光谱和多层次特征的地类识别机器学习算法可充分利用多光谱数据特征,提高分类模型的性能。

3)通过特征库的构建,使遥感影像分类过程中主要关注纯净窗口子区的规则切分以获取样本对象,同时本文算法所选取的训练样本并不局限于同一景影像中,因此适用于某一区域内大量遥感数据的自动化分类处理。在得到影像块数据集后进行特征提取,即可利用特征库进行地物类别自动识别,简化了分类阶段的训练过程,实现非监督的耕地识别,提高了分类算法的自动化程度,同时也可以用于从遥感影像中某一种纯净地物类型的快速提取。

本文研究也发现了一些不足之处,如识别的精度受到训练样本代表性及纯净度的限制。若训练样本中耕地和非耕地的混合样本数超过15%,不满足窗口子区纯净度要求时,会导致获取特征的不稳定,从而对分类精度有一定影响。因此,在训练阶段需要采用一定训练样本的选取策略才能保证分类结果的精度。今后的研究工作将着重探讨纯净窗口子区的自动获取与快速高效的自动分类研究。

猜你喜欢
样本容量自动识别尺度
基于数据挖掘的船舶航迹自动识别系统
财产的五大尺度和五重应对
采用无核密度仪检测压实度的样本容量确定方法
基于卫星遥感图像的收费站位置自动识别与校核
船舶自动识别系统对船舶救助的影响
蒙特卡罗模拟在计量经济学中的应用
自动识别系统
分层抽样技术在课堂满意度调查中的应用研究
宇宙的尺度
浅谈混凝土强度合格性评定