随机森林对遥感高分辨率图像沿海地貌检测的应用

2015-07-02 00:17张作淳
山东工业技术 2015年12期
关键词:随机森林高分辨率遥感

摘 要:伴随遥感技术的发展,高分辨率遥感开始得到普遍应用,数据丰富,遥感检测对象目标细化,高分辨率遥感图像开始成为遥感变化检测的主要数据来源。高分辨率遥感图像拥有着庞大的信息量,这些庞大的信息也会导致繁杂的背景和复杂的内部结构,这对目标检测提出了新的挑战。针对这一挑战问题,近年来涌现出了很多不同的新方法,而这其中就有作为一种叫做随机森林的新兴机器学习方法,有着准确、方便、快速并能分析数据特点等方面的诸多优点,能对目标检测提供新的思路。

关键词:随机森林;高分辨率;遥感;沿海地貌

沿海地貌有许多种类,如沙滩,灰色沙丘,白色沙丘、沿海植被、森林等,这些依次分布在沿海。而在遥感图像上很多情况他们几乎没有区别,在图像上沙丘和植被可以比较清晰的区分,但是沙丘和沙滩之间的混乱则是完全存在的。此外,白色沙丘和灰色沙丘之间的边界也很难进行区分。同时其他因素也影响了分类,如湿砂。我们希望能精确地检测到沿海地貌,即划定海滩和沙丘之间的边界。普通边界的划分我们可以通过监督分类过程来检测。对于复杂的环境,如沿海地貌,传统方法生产可能不能胜任,我们提出随机森林的方法来解决这个分类问题,以实现的沿海区域分类检测。

随机森林(Random Forests,RF)算法是美国科学院院士 Leo Breiman等人提出的一种基于分类与回归决策树(Classification And Regression Tree,CART)的集成算法。随机森林中的每一棵决策树相当于一个分类器,而这个森林则是所有分类器的集成。每一个决策树都是一个独立存在,不受外界干扰,而我们将它们捏合在一起,使得单独存在变成集合存在,将偶然变成必然。这让随机森林有需要人工干预少、分类表现优异、能对数据提供额外的刻画以及运算非常快等许多优点。正是这些特点,随机森林在沿海地貌检测中得到了良好的效果。

1 数据获取

采用SPOT5高分辨率图像和实地采样检测相结合的方法。对SPOT5遥感图像进行处理的同时,利用GPS在实地对沙滩与沙丘,沙丘与森林、植被,白色沙丘与灰色沙丘的分界线进行打点定位,在实地得到不同地物的分类情况和界线。

2 随机森林算法

沿海地区分类的方法是基于高分辨率多光谱图像随机森林监督分类的方法。随机森林的两个主要参数为m和T,m是在在判定决策树节点随机分割选择输入变量的数量(默认,其中p是属性的数量),T是在随机森林中决策树树木的数量。在本研究中,M = 2,因为它使用四个属性,分别是四个光谱波段(R,G,B,NIR)。此外,随机森林需要的预测能力可以从袋外数据(Out-Of-Bag)进行误差估计。袋外数据样品是一组没有被用于当前决策树约37%的训练数据。该样品用于预测估计误差,并评估操作变量的重要性。

随机森林算法:

输入:S——训练集; T——在森林决策树的数量;m——在随机分割选择输入变量的数量。

输出:所有树木组成的随机森林

(1)从1到T进行循环处理。

(2)随机从训练集S中选取部分数据Si 来建立树木。

(3)只有根节点的树木,也就是空树,作为森林的第一棵树。

(4)通过参数Si,m,从树木的根节点开始建立每一棵树木。

(5)将树木添加森林,组成森林。

(6)回到森林。

(7)通过计算袋外数据和混淆矩阵得到误差。

3 数据分析

采样数据被分为五类:沙滩、白色沙丘、灰色沙丘、灌木和森林(如下表所示)。可以看到采样数据分布并不均匀,森林的采样点数量较其他类别多,所以在之后的数据处理中尽量要避免类别不平衡而导致分类误差过大。

数据集被分为两部分:训练集和测试集,训练集大小设定为数据的75%,测试集大小设定为基准数据的25%(如下表所示)。

4 检测结果

我们设置不同的随机森林参数来对沿海地貌测试分类。以下列出的所有结果都来源于平均超过10次的计算。

决策树的数量从1,25,101,251到501依次变化测试,并通过混淆矩阵评价每一组误差的情况。以此分析,分类精度随着决策树树木数量的提高而增加。 在25树木的情况下,袋外数据预测误差为23.83%和对测试样本的误差为23.03%(±10%)。使用501树木,袋外数据误差减小到20.24%,而在试验样品的误差为13.43%(±4%)。

袋外数据和测试集的混淆矩阵(如上表所示)的行是实际的类和列是预测的类。可以注意到,大部分类都有较低的错误率,低于20%。然而灌木位于边界,是海滩和沙丘的部分界限,数量较少,所以分类误差较大。而白色沙丘和灰色沙丘因为性质相似,所以分类上也存在一定困难。

5 结论

机器学习是遥感影像智能处理的一个核心问题和热点问题,而Leo Breiman 等人提出的随机森林是一种新兴的机器学习方法,具有坚实的理论基础,方便、准确、快速并具有分析数据特点等优点。这个方法在沿海地貌这个数据量大,较为复杂的地区有着良好的表现,计算速度、精度远超过传统方法,是一个值得谈到和研究的机器学习方法。

参考文献:

[1]Breiman L.(2001). Random Forests. Machine Learning, 45:5-32.

[2]Guo L., Boukir S.(2011), Une nouvelle méthode délagage densemble de classifieurs basée sur le concept de marge, Traitement du signal, 6:491-514.

[3]Guo L.(2011), Classifieurs multiples intégrant la marge densemble. Application aux données de télédétection, thèse de Doctorat, université de Bordeaux 3.

作者简介:张作淳(1986-),男, 浙江杭州人 ,硕士研究生,助教,研究方向:遥感研究。endprint

猜你喜欢
随机森林高分辨率遥感
高分辨率CT+人工智能在新型冠状病毒肺炎诊断与疗效评估中的应用研究
探讨高分辨率CT在肺部小结节诊断中的应用价值
基于异常区域感知的多时相高分辨率遥感图像配准
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
中国“遥感”卫星今年首秀引关注
基于遥感数据的雾物理属性信息提取
基于DDS的波形发生器设计