基于三种机器学习算法的面向对象土地覆被分类

2022-02-19 09:20刘东杰
科学技术创新 2022年1期
关键词:面向对象贝叶斯决策树

刘东杰

(兰州大学资源环境学院,甘肃 兰州 730000)

1 概述

遥感影像分类是近年来遥感卫星影像应用的研究热点之一[1,2],对于进一步开展土地利用/覆被信息调查、分析土地利用类型变化具有重要意义。最早人们通过目视解译作为分类方式进行提取,但其严重依赖判读人员的先验知识,易受个人差异影响,且时效性差[3]。随着技术的不断进步,计算机视觉领域的图像分割技术逐渐被应用于遥感影像的分类识别中。图像分割是一种通过纹理、灰度与空间几何等不同特征对图像不同区域进行分割,并增强同一区域内特征一致性的技术[4],根据影像的最小处理单元可以分为基于像元的分类和基于对象的分类两种方法。

基于对象的图像分析 (Object-Based Image Analysis,OBIA),是一种高效、可靠的自动化图像分割分类技术,能够通过纹理、形状、大小等特征在目标图像中生成包含多个像素的矢量对象。目前已有大量学者针对面向对象进行了相关应用研究[5,6]。其基本原理为通过多尺度影像分割,生成内部有较小差异的同质目标[7]。与基于像元的传统分类方法相比,OBIA 可以充分利用不同对象间几何信息、结构信息与光谱信息的差异进行信息提取,克服基于像元分类中常见的椒盐现象[2],从而在中高分辨率影像上取得更好的分类结果。

机器学习技术通过多年来的不断发展,已经成为了人工智能领域的重要研究方向,并广泛应用于信号处理、模式识别、大数据分析等多个领域。传统的机器学习研究方向主要包括随机森林[8]、人工神经网络[9]等。结合面向对象与机器学习对遥感影像进行信息提取有助于提升分类效果,提取到更有价值的地物信息。本文将结合贝叶斯网络、J48决策树与随机森林对比三种方法在landsat-8 卫星影像上的分类效果。

2 数据准备

选择landsat-8 OLI 卫星影像作为本文使用的数据,裁剪其中1024*1024 的区域作为目标研究区。多光谱波段空间分辨率为30 米,成像时间为2017 年7 月26 日10 点56 分13 秒,影像的中心坐标为30°18' 7.16'' N 113°50' 22.17''E。本文使用的Landsat 8 影像采用WGS84椭球体模型,UTM投影分带号为49,整体云量小于3%,整体质量较高,如图1。

图1 目标研究区

研究区坐落于为湖北省洪湖市与嘉鱼县交界地区,海拔在23 至28 米之间,以南部较高,北部较低的特点形成自东南向西北缓慢倾斜的地势。境内河道交错密集,布满大小不一的湖泊,境内主要地物类型有耕地、河流、森林、公路、湖泊、裸地、城镇居民地等。为了消除研究区影像中大气散射导致的辐射误差,对数据依次进行辐射定标、FLAASH 大气校正以完成预处理。

3 原理与方法

3.1 贝叶斯网络

贝叶斯网络[10]本质上是一种有向无环图,包含多个代表变量的节点,并利用不同节点间连接的有向边表示节点之间的相互关系,可以很好地表达抽象、模糊的信息,在对概率性事件或不确定性较大事件的分析上有十分广阔的应用前景。可以通过使用概率测度权重描述不同数据之间的相关性来处理带有噪声的数据,同时,其本身也具有多元知识图解可视化表达的分析能力,易于按照信息的相关关系进行融合,有助于先验知识和概率的结合[11]。

3.2 J48 决策树

决策树是一种贪心算法,基本原理是从根节点开始自顶向下结合样本集遍历每个非叶结点以决定决策属性。而J48决策树是1993 年在ID3 算法的基础上进行改进提出的一种更高效的算法。分类规则直观可靠、易于理解,主要通过信息增益率进行属性选择,通过筛选信息增量最大的特征值作为子节点,确定最佳分裂的指标。相比于之前的ID3 算法,其通过剪枝减少过拟合概率,并具有处理连续属性值或含有缺失属性样本的能力[12]。

3.3 随机森林

随机森林[13]作为一种改进的决策树算法,在样本和属性两个方面都具有一定的随机性,常用于处理分类、回归问题。算法利用bootsrap 技术随机有放回地抽取多个样本,并根据每组取得的样本建立决策树,随机组合以得到随机森林,最后通过投票概率得到最优分类结果。每一棵树个体的分类能力以及各树之间的相关性都与整体算法误差息息相关,可通过改变不同剪枝方式或修改树的数量来对分类精度进行优化。目前随机森林已广泛应用于土地覆被分类[14]、农业[15]、林业[16]等众多领域。

4 基于三种方法的面向对象土地覆被分类

4.1 面向对象分割

使用多尺度分割算法进行面向对象提取,将目标影像分割成具有高内部同质性,高外部异质性的影像对象。多尺度分割包含三个重要的影响参数:尺度因子(scale)、形状因子(shape)和紧凑度因子(compactness)。形状因子越高,图像分割效果越整齐,紧凑度因子越低,地物分割效果越细碎。同时考虑采用不一致评价法对多尺度分割参数进行优化,结合欧几里得距离与尺度特征的关系对影像参数进行最终的确定。

4.2 分类体系的建立

样本类型及解译标志如表1 所示,暂时将道路归为building 类中;水田与鱼塘也都暂时归入到Farmland-wet 类中。根据研究区地理特征、自然状况,结合Google Earth 高分影像应用目视解译的方法选取研究区训练样本,经面向对象分割后研究区一共得到11539 个对象。选取其中每一类不少于50 块的七类对象集作为训练样本,并为后续工作建立分类规则。

表1 样本解译标志对照

4.3 特征优选

特征选择利用样本集内部信息,从待选特征集合中筛选一个最优特征子集,从而达到降低特征空间维数,提高分类器实际分类性能的作用。 以 WEKA 自带的ReliefFAttributeEval 作为属性评测算法,结合光谱、几何、纹理等特征集合进行特征优选,选取特征类型见表2。最后将多尺度分割结果结合优选特征属性利用贝叶斯网络、J48 决策树与随机森林进行分类。

表2 候选特征集

5 结果分析

5.1 多尺度分割与特征优选结果

尺度因子阈值范围设为30-100,通过多组实验对比发现,尺度30 和50 出现了明显过分割,很多地物类型分的过小过细;而尺度80 和100 的分割结果又有着欠分割状况,综合来看在60 尺度下分割结果与实际地物拟合程度最高。在目视解译的基础上,通过不一致性评价法结合ED2 与尺度因子的相互关系综合考虑,对多尺度分割参数进行优选,最终将shape 值设为0.1,compactness 值设为0.5,得到的多尺度分割局部影像见图2。

图2 多尺度分割后的局部影像(底图为假彩色合成影像)

如表3 所示,取计算结果中相关性排名前八的特征作为输入特征,分别为:归一化植被指数(NDVI)、近红外波段(Mean Layer 5)、归一化差异水体指数(NDWI)、差异环境植被指数(DVI)、比值植被指数(RVI)、标准差(Standard deviation Layer)、红光波段(Mean Layer 4)与波段间最大差异指数(Max. diff.)。将优选结果结合贝叶斯网络、J48 决策树以及随机森林对目标研究区进行土地覆被分类。

表3 特征优选结果

5.2 三种算法分类结果

基于对象的贝叶斯网络、J48 决策树与随机森林算法的分类结果见图3,贝叶斯网络与J48 决策树分类器都将研究区西北部含水量较大的水田标识为湖泊,且对于湖心岛以及水稻田的提取效果较差,而针对村庄与水田之间的道路的提取也存在着较为突出的问题。整体来看随机森林算法优于另外两种方法,水田与湖泊误分情况明显减少,影像中局部道路等细节也较好,但是依然有部分地物(如湖心岛中的未开发土地)存在识别误差。总的来说对于三种分类方法,与实际地物类型相比误差集中出现在:水田- 湖泊;裸土- 建筑物;旱地- 森林之中;旱地- 裸土中。其中收到季节影响,部分作物正处于收割期或播种期,可能会导致旱地大面积呈裸土状,从而影响最终的分类效果。

图3 基于对象的贝叶斯网络结果(右上)、J48 决策树结果(左下)与随机森林分类结果(右下)

5.3 精度评价

由表4 可知,在相同检验样本的条件下,随机森林算法的整体分类精度为92.54%,Kappa 系数为0.901,误差主要出现在建筑物、裸土之中,而湖泊、河流整体提取效果较好。相比于贝叶斯分类器与J48 决策树的分类结果,随机森林取得了更高的分类精度。

表4 精度评价对比

6 结论

本文结合了面向对象以及三种不同机器学习算法,基于典型地物训练样本进行了覆被分类研究,均取得了不错的分类效果。其中基于随机森林的算法相比贝叶斯网络和J48 决策树有更好的典型地物识别准确率和更高的Kappa 系数。实验结果表明结合机器学习与基于对象的遥感影像分类算法可以有效利用不同对象间几何信息、结构信息与光谱信息进行特征提取,从而达到提升土地覆被分类准确性的目的。分类识别的过程中,三种分类算法都遇到了针对复杂地物类型错误识别的问题,比如设置的水田和旱田都远远不够代表研究区内复杂的作物类型,如何有效提升分类精度还需进一步进行讨论与研究。

猜你喜欢
面向对象贝叶斯决策树
GEE平台下利用物候特征进行面向对象的水稻种植分布提取
基于深度学习与融合地形特征的黄土陷穴面向对象提取方法
简述一种基于C4.5的随机决策树集成分类算法设计
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯网络概述
贝叶斯公式的应用和推广
决策树学习的剪枝方法
基于Web的科研项目管理系统的设计与实现
从面向过程到面向对象思维方式的教学引导