基于ENVI的唐山湾三岛土地利用遥感分类方法的比较分析

2014-03-07 07:12黄海军杨曦光
海洋科学 2014年1期
关键词:训练样本决策树波段

付 佳, 黄海军 杨曦光

(1. 中国科学院海洋研究所, 山东 青岛 266071; 2. 中国科学院研究生院, 北京 100049)

基于ENVI的唐山湾三岛土地利用遥感分类方法的比较分析

付 佳1,2, 黄海军1, 杨曦光1,2

(1. 中国科学院海洋研究所, 山东 青岛 266071; 2. 中国科学院研究生院, 北京 100049)

对唐山湾三岛2010年10月10 m分辨率的SPOT5多光谱数据源, 采用不同分类方法进行识别和判断, 并对比不同分类器在遥感影像分类中的应用效果和分类精度。有针对性地探究海岛土地利用遥感分类过程中不同方法的优劣, 获取最适于岛陆地区土地利用的遥感分类方法。根据土地利用现状分类标准(GB/T 21010-2007)和海岛陆域土地利用类型划分的相关规定, 将唐山湾三岛主要分为滩涂、裸地、林地、草地、居住区、内陆水体和潮间带(潮水覆盖区)6类。并分别构建结合人为控制的非监督分类、监督分类和基于专家知识的决策树分类系统, 参照更高分辨率影像、先验知识和野外调查资料, 评价分类结果与实地调查结果的吻合程度, 最终通过总体分类精度和Kappa系数等指标对各分类器精度进行评价和对比分析。

唐山湾三岛; 土地利用分类; 遥感; 监督分类; 决策树分类

土地利用在一定程度上决定了人类的生产和生活, 而人类活动也正在快速地改变着土地利用类型的分布和属性。随着海洋资源的进一步开发, 海岛作为开发海洋基地的作用愈显重要。尤其海岛陆域面积较小, 土地资源就显得更加珍贵了。因此, 科学地进行土地利用分类, 不仅有助于弄清楚岛陆现有的土地利用状况, 建立和加强国家对海岛土地的管理规划, 满足调查研究以及制图的需要, 也有利于因地制宜, 合理制定岛陆及周边地区经济建设和发展计划, 可持续地开发和使用海洋资源。

近年来, 遥感技术被广泛用于海岛土地利用分类和环境调查及景观变化监测等工作中。遥感图像分类就是将图像中每个像元根据其在不同波段的光谱亮度、空间结构特征或者其他信息, 按照某种规则或算法划分为不同的类别[1]。文中分别采用人为控制的非监督分类、监督分类和基于专家知识的决策树三种方法的多种算法, 对唐山湾三岛的土地利用状况进行了分类, 并针对该研究区对各分类方法的分类结果和精度进行了系统的对比分析。

1 数据准备与处理

1.1 研究区概况及实验数据预处理

研究区选取在唐山湾三岛, 位于河北省唐山市东南的渤海湾内, 乐亭县西南部, 西邻曹妃甸新城,东接海港开发区, 为京津唐秦四市所环抱。包括三个无居民海岛: 石臼坨岛(菩提岛)、月坨岛(月亮岛)和打网岗岛(祥云岛), 位于 118°48′32′~118°59′10′E, 39°05′36′~39°11′13′N范围内, 三岛总面积37.75 km2,其中石臼坨岛面积 4.04 km2, 月坨岛 11.96 km2, 打网岗岛22.41 km2。

本文采用的数据源为研究区2010年10月14日的SPOT5多光谱遥感影像, 空间分辨率10 m, 为二级产品, 已完成辐射校正和几何粗校正处理。然后在ENVI软件中对数据源影像进行了影像-影像模式的配准处理, 并裁减出唐山湾三岛的陆域研究区域影像。SPOT5多光谱遥感影像包括4个波段, Ms1(近红外波段)、Ms2(红色波段)、Ms3(绿色波段)和Ms4(短波红外), 图1为SPOT影像中第1、2、3波段的标准假彩色合成影像。

1.2 结合人为控制的非监督分类

非监督分类是在没有选取训练样本的前提下,主要根据像元特征相似程度的大小进行归类合并。非监督分类方法是计算机对图像的统计特征进行的自动分类, 不需要具体地物的已知知识, ENVI执行非监督分类时, 常用的是最大似然分类(ISODATA)和聚类分析(K-Mean)两种方法。结合人为控制主要是指预先将类数定义为多于目标类数的值, 执行非监督分类后通过参照研究区原始影像和更高分辨率遥感影像, 将部分类别进行删除或合并的操作, 得到目标分类结果。

图1 研究区域的标准假彩色合成影像Fig. 1 The standard false color composite image of the sample area

1.2.1 最大似然分类结果

利用该方法对标准假彩色合成影像进行计算机自动分类, 结果共分出 17类, 通过合并子类共得到6类岛陆地物, 分别是滩涂、潮间带(涨潮有水)、内陆水体、林地、草地和裸地。结合研究区原始影像、0.61 m高分辨率Quick bird影像和野外实地调查数据分析分类结果, ISODATA分类方法虽然可以大致区分出研究区域内的不同土地利用类型, 但是地物属性错分、不同地物类型尤其是相似地物类型混淆情况较为严重。如人工地物(包括建筑物、公路等)和裸地混淆严重, 难以区分; 内陆水体和高潮时的潮间带地区也有较严重的混淆。

1.2.2 聚类分析分类结果

与最大似然分类过程一样, 首先利用计算机自动分类识别出17类, 然后将子类合并为滩涂、潮间带(涨潮有水)、林地、草地、裸地和内陆水体。通过原始影像和更高分辨率影像的目视判别以及野外调查资料的对照, 可以发现, K-Means分类结果同样呈现出较严重的混淆情况。

非监督分类方法虽然不需要对研究区域有先验知识, 但分类产生的光谱集群组与本文目标产生的裸地、滩涂、林地、草地、内陆水体、人工地物和潮间带(潮水覆盖地区)这7类之间不能一一对应, 混淆和错分情况较严重。尽管在子类合并过程中加入了人为控制因素, 在一定程度上提高了分类精度, 但结果仍不甚理想, 在裸地与人工地物、内陆水体和覆有海水的潮间带的区分上没有太大的实际应用价值。

1.3 监督分类

监督分类, 又称训练分类法, 即用被确认类别的样本像元去识别其他未知类别像元的过程。在这种分类中, 分析者在图像上对每一种类别选取一定数量的训练区, 计算机计算每种训练样区的统计或其他信息, 每个像元和训练样本作比较, 按照不同规则将其划分到和其最相似的样本类中[1]。

根据研究区土地利用的实际情况, 在 SPOT遥感影像中定义了7种土地利用类型: 滩涂、裸地、潮间带(涨潮覆水)、居住区、林地、草地和内陆水体。从SPOT影像中可以看出, 滩涂分布面积较广泛, 因含水颜色较裸地暗; 裸地反射率高, 多为高亮, 形状不规则, 无特殊纹理特征; 涨潮后被海水覆盖的潮间带地区与外海相连, 呈宽度不规则的条带状分布在岸线附近, 光谱特征与内陆水体相近, 但属开放式, 不封闭; 居住区主要包含居民区和交通用地等人工地貌, 在影像上同样反映出高亮度、高反射率的特征, 大都具有规则形状, 尤其交通用地表现出细长平滑的规则特征; 林地为不规则形状, 簇状纹理;草地的色调在影像上接近于林地, 但色彩比林地亮;内陆水体大多为暗色, 无明显棱角, 河流、沟渠等为细长型, 湖泊等为不规则形状, 水库、养殖池等多为规则形状, 区域内颜色均匀较少变化。根据上述特征,在研究区影像内选取各类别的训练样本, 并对各样本进行了可分离度计算(表 1), 结果表明, 裸地与居民地可分离程度较低, 混淆较多; 内陆水体与潮间带、滩涂与居住区之间存在少量混淆, 可分离程度一般。其他地物类样本之间均具有较好的分离性。下面就利用该训练样本对研究区影像进行监督分类。

根据选取的训练样本, 本文运用了平行六面体、最小距离、马氏距离、最大似然、支持向量机 5种监督分类器对研究区 SPOT影像进行了土地利用类型分类。其中平行六面体和最小距离分类器分类结果中包含未分类像元, 无法简单将其归并到某一类中。其他监督分类器运算结果均未出现未分类像元。

平行六面体算法的基本思想是: 根据训练样本的亮度值形成一个n维的平行六面体数据空间, 其他像元的光谱值如果落在平行六面体任何一个训练样本所对应的区域, 就被划分到其对应的类别中。平行六面体的尺度是由标准差阈值所确定的, 而该标准差阈值则是根据所选类的均值求出的。最小距离算法的基本思想是: 利用训练样本数据计算出每一类的均值向量和标准差向量, 然后以均值向量作为该类在特征空间中的中心位置, 计算输入图像中每个像元到各类中心的距离, 到哪一类中心的距离最小, 该像元就归入到哪一类。马氏距离算法的基本思想是: 计算输入图像到各训练样本的马氏距离(一种有效的计算两个未知样本集的相似度的方法), 最终统计马氏距离最小的, 即为此类别。最大似然算法的基本思想是: 假设每一个波段的每一类统计都呈正态分布, 计算给定像元属于某一训练样本的似然度,像元最终被归并到似然度最大的一类当中。支持向量机算法(SVM)是一种建立在统计学习理论基础上的机器学习方法, 其基本思想是: 自动寻找那些对分类有较大区分能力的支持向量, 由此构造出分类器, 可以将类与类之间的间隔最大化, 因而有较好的推广性和较高的分类准确率[2]。其中, 平行六面体、最小距离和马氏距离分类方法均是通过设置均值、标准差或马氏距离等阈值对图像像元进行归类判别的, 最大似然算法是利用相似程度最大的原则对像元进行归并的, 支持向量机运用统计学习理论确立了每一类特征最为显著的支持向量, 使不同的地物类型尽可能地得到区分。

对标准假彩色合成影像进行各种监督分类, 分类结果如图2(a, b, c, d, e), 分别对应五种监督分类器结果。

表1 训练样本的可分离程度计算Tab.1 Calculation of the separability of the training samples

1.4 基于专家知识的决策树分类

基于专家知识的决策树分类是基于遥感图像数据及其他空间数据, 通过专家经验总结、简单的数学统计和归纳方法等, 获得分类规则并进行遥感分类[2]。本文主要运用了逐层逻辑判断的方式, 在各波段或波段运算模式下, 通过尽可能避免或减少每种土地利用类型的光谱统计特征值域的交叉重叠, 而将各地物类型逐一区分、识别出来。各地物类型的分布特征复杂多变, 给土地利用遥感分类带来了许多难题。针对这些光谱统计特征和分布范围大相径庭的景物或现象, 不可能用一个统一的分类模式来判别、区分和识别。因而, 在实际分类过程中往往需要深入研究各区域景物的总体规律及其内在联系, 理顺其主次或因果关系, 建立一种树状结构的框架。即通过建立决策分类树对各种土地利用类型进行分层分类。

1.4.1 遥感影像统计特征分析

首先, 对监督分类时选取的训练区内各已知类别进行各波段数据的统计分析, 主要地物类型的统计信息包括: 各波段下的最大值、最小值、均值、方差等。这是对遥感图像亮度值的随机变量概率分布状况较完整的描述(表2)。

本文分别提取了典型地物在 1、2、3波段和归一化植被指数运算(INDV)的统计特征值。归一化植被指数是近红外波段和红光波段两个通道反射率的差除以它们的和, 计算公式表示为:

其中,RNI为近红外波段的反射率,R为红光波段的反射率。INDV能反映出植物冠层的背景影响, 如土壤、潮湿地面、枯叶、粗糙度等, 且与植被覆盖有关。通常, -1≤INDV≤1。

各波段的统计特征显示, 内陆水体、滩涂和裸地基本可以通过SPOT红波段加以区分; 林地、草地和居住区可以通过SPOT绿波段区分出来; SPOT蓝波段能够将潮间带和裸地区分出来。但无论通过哪个波段, 裸地与居住区、滩涂与居住区以及内陆水体与潮间带之间都存在一定的混淆, 区分过程中有不同程度的困难。过程中期望通过波段运算的方法可以进一步区分出这些地物类型之间的混淆, 虽然可以从一定程度上减少混淆, 但由于光谱特征较为类似,实际统计结果并不能彻底区分有混淆的地物类别。

1.4.2 决策树的建立

结合以上的统计分析情况, 采用单波段统计特征值与NDVI相结合的方式建立分类决策树(图3)。首先利用 SPOT绿波段区分林地和非林地部分, 然后利用 SPOT红波段区分出混淆在林地中的内陆水体。随后再利用 SPOT红波段区分滩涂, 并结合SPOT绿波段、SPOT红波段及NDVI区分出混淆其中的草地, 其中的居住区与裸地、滩涂之间仍存留部分混淆, 未能完全区分。最后利用SPOT红波段区分其他类型中的内陆水体和潮间带, 同样内陆水体与潮间带之间也存在部分混淆, 不能彻底区分开来。

1.4.3 决策树分类结果

在 ENVI中对标准假彩色合成影像执行决策树分类, 得到基于专家知识的决策树分类方法的分类结果, 见图2(f)。

图2 5种监督分类器得到的监督分类结果和基于专家知识的决策树分类结果Fig. 2 Results of the five classification and decision tree classification based on expert knowledge

表2 研究区影像上提取的各地物类型的统计特征信息Tab.2 The statistic characteristic information of all the surface features drawn from the image of the research area

2 分类结果评价

遥感图像的分类精度评价通常是对分类结果图与标准图件或地面实测值进行比较, 以正确分类的百分比来表示精度, 是遥感数据分类过程中不可缺少的工作[3]。

本文主要通过与同期的野外实测验正点和更高分辨率的Quick bird影像进行比较, 对各种监督器分类结果和基于专家知识的决策树分类结果展开精度评价。对分类数据采用混淆矩阵法, 行代表实地调查验证的地物点, 列代表被评价分类结果显示的地物类型。在混淆矩阵中, 对角线位置处的数值为正确分类样本数目, 非对角线上的数值为混淆分类样本数目。因此, 每类地物在对角线处的数值越接近实地采样点总数, 该地物的单类分类精度就越高。本次研究运用混淆矩阵进行精度评价的主要参数及其计算公式参考文献[3]。

Kappa系数与分类质量的对应关系见表3。

以上各参数中, 总分类精度和 Kappa系数反映的是整个遥感分类结果图的分类精度, 用户精度和制图精度则反映的是各个类型的分类精度。下面就以这些参数为标准对本研究监督分类器和专家决策树算法的分类结果进行精度评价。表 4反映了不同分类器的总体分类精度和Kappa系数。

以上数据显示, 无论是分类精度还是地物类型的可分离性都是决策树分类方法明显优于其他分类方法。可见, 基于专家知识的决策树分类系统具有相对较高的区分和识别能力。此外, 本文还对某一种土地利用类型比较了不同分类方法的制图精度和用户精度(表5、表6)。

图3 决策树结构图Fig.3 Decision tree structure diagram

表3 Kappa系数与分类质量的对应关系Tab.3 The correspondence between Kappa and classification quality

表4 各分类方法分类精度比较Tab.4 Comparison of the accuracy among all the classification methods

表6 各地物类别在不同分类方法下的用户精度Tab.6 The user accuracy of all the classification methods

3 结论

本文运用非监督分类、监督分类和基于专家知识的决策树分类等多种单分类器对唐山湾三岛研究区域的SPOT5影像进行了遥感土地利用分类, 分析和讨论了不同遥感分类方法对岛陆地物类型识别和判断能力的差异。通过对比不同分类器的制图精度、用户精度和 Kappa系数, 总结了其对各种地物类型的区分和识别能力, 提取出针对唐山湾三岛地区土地利用遥感分类效果最理想的单分类器。

结果表明, 非监督分类虽不需要预先对所要分类的区域有广泛的认知和了解, 且人为误差少, 但产生的光谱集群组与最终想要获取的类别在匹配上存在较大差距。本研究在非监督分类过程中加入了人为控制子类合并这一过程, 精度较计算机自动分类的精度提高了许多, 但实际分类结果仍然存在较大的混淆和误分。在这一点上, 监督分类就可以根据应用目的和区域,人为控制训练样本的选取, 有针对性地决定分类类别,但该方法需耗费较多的人力和时间来选取和评估训练样本, 加大了人为误差, 且只能识别训练样本中已定义的类别, 未定义类别就会出现不能识别和混淆的状况。而基于专家知识的决策树分类具有灵活、直观、清晰、强健、运算效率高等特点, 在遥感分类问题上表现出巨大的优势。与其他分类算法相比, 决策树分类速度快, 计算量相对较小, 容易转化成分类规则。只要沿着“树根”向下一直走到“叶”, 沿途的分裂条件就能够唯一确定一种土地利用类型。此外, 挖掘出的分类规则准确性高, 便于理解, 决策树可以清晰地显示哪些波段或波段运算统计特征值在区分不同类别时比较重要。但决策树分类法也存在一定弊端, 由于进行深度优先搜索, 所以算法受内存大小限制, 难以处理大训练集, 伸缩性差。

精度评价结果显示, 本研究采用的几种基于统计学习的分类方法都不甚理想, 基于专家知识的决策树分类结果相对较好, 精度也较高, 与外业实地验证点的对应情况也最为理想。该研究对居住区、草地、裸地、滩涂而言, 所有分类方法获得的结果都不甚理想。推断主要是因为岛陆上的居住区分布零散, 影像上呈现出零碎斑块的特征, 而且其间夹杂着小块的其他地物, 如草地、林地和小面积的水体等, 这部分信息也混淆了居住区本身的光谱属性。在光谱特征上, 沙坝、沙堤等裸地也与主要为砂质、水泥制的居住区具有相似相近的特点, 反射率较高, 为计算机分类和识别带来了困难, 在提取训练样本时也易产生人为目视误差。野外调查研究发现, 在部分滩涂和裸地上分布有小片草地和树木, 但由于面积较小, 在10 m分辨率的SPOT5多光谱影像中未达一个像元或受下垫面土地利用类型的影响, 难以区分和识别。此外, 地物边界的多样性,使得判定类别的边界往往是很困难的事。滩涂与被潮水覆盖区域、林地和草地的边界不明显, 裸地与滩涂之间还存在着过渡地带, 要精确将其边界区分出来并非易事。相比较而言, 对于今后海岛土地利用遥感分类任务,若采用单分类器进行分类且在地物类型数目不是很多的前提下, 建议选择基于专家知识的决策树分类法。

[1] 赵英时等. 遥感应用分析原理与方法[M]. 北京: 科学出版社, 2003: 194.

[2] 邓书斌. ENVI遥感图像处理方法[M]. 北京: 科学出版社, 2010: 132.

[3] 田金苓. 土地利用遥感分类计数探讨[J]. 科技创新导报, 2010, 9: 18.

(本文编辑: 刘珊珊 李晓燕)

Comparison of land use classification methods used in analysis of the Tangshan Bay three islands using remote sensing images based on ENVI

FU Jia1,2, HUANG Hai-jun1, YANG Xi-guang1,2
(1. Institute of Oceanology, Chinese Academy of Sciences, Qingdao 266071, China; 2. Graduate School, Chinese Academy of Sciences, Beijing 100049, China)

Apr., 1, 2012

the Tangshan Bay three islands; land use classification; remote sensing; supervised classification; decision tree classification

In this paper, different classification methods were used to recognize the SPOT5 multispectral images of the Tangshan Bay three islands in October, 2010 with a resolution of 10 meters. The application and classification accuracy among different classifiers were compared. To find out the best remote sensing classification method for land usage analysis, we compared the advantages and disadvantages of all the methods used in land using classification analysis. According to the standards of land using classification and relevant rules about main land using classification of islands, we divided the Tangshan Bay three islands into tidal flat, bare land, forest, grass land, residential district, inland water and intertidal zone. Referring to high resolution images, future knowledge and field investigation data, we shave uccessfully set up the artificially controlled unsupervised classification and supervised classification and decision tree classification system based on expert knowledge. Then we evaluated the match condition between classification results and the results of actual investigation. At last, we evaluated and analyzed the accuracy of all the classifiers by some indicators such as Kappa.

P283.8

A

1000-3096(2014)01-0020-07

10.11759/hykx20120401001

2012-04-01;

2013-11-28

海洋沉积与环境地质国家海洋局重点实验室开放基金资助项目(MASEG200807); 海洋公益性行业科研专项经费项目(200905004)

付佳(1984-), 女, 山东东营人, 硕士研究生, 主要从事黄河三角洲地面沉降和海岛土地利用遥感分类方法的研究, 电话: 0532-82898531, E-mail:dy1014311e@163.com; 黄海军, 通信作者, E-mail: hjhuang@qdio.ac.cn

猜你喜欢
训练样本决策树波段
人工智能
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
基于决策树的出租车乘客出行目的识别
M87的多波段辐射过程及其能谱拟合