最优特征选择下多层次分割的城市道路提取

2022-04-20 09:47雷惠敏张和生
中国空间科学技术 2022年2期
关键词:特征选择分类器精度

雷惠敏,张和生

太原理工大学 矿业工程学院,太原 030024

1 引言

道路是基础地理信息的重要组成部分,道路提取的相关方法和理论具有较大的探索前景。随着遥感技术的发展,遥感影像的分辨率不断提高,影像所包含的几何特征以及纹理信息也不断增加,因此利用高分辨率影像进行道路提取的方法也获得了很大的发展。目前最常用的道路提取的方法有基于像元的方法、面向对象的方法和深度学习的方法。陈立福等利用数学形态学和MRF分割的方法对高分辨率SAR影像的道路进行提取,有效的提取出了道路轮廓,但未能充分利用影像的光谱信息、纹理信息,在复杂场景的道路提取中不具有普适性[1]。王文庆、袁伟等利用深度学习方法实现了道路的自动化提取[2-3]。但深度学习方法对计算机性能要求较高,需要的数据集较多,模型搭建复杂,对于普通的道路提取效果一般。面向对象作为道路自动提取中最常用的方法,现阶段仍具有重要的意义。例如,Ding等发现道路局部区域通常具有一致性,将像素合并到具有相似主方向的对象中,以计算几何测量值,然后,使用线段连接算法提取其中的道路对象[4]。Huang等基于对象多尺度结构特征,利用SVM对不同地物进行分类,利用多数投票机制识别道路对象[5]。Maboudi、Stein等利用面向对象方法提取道路获得了较好的效果[6-7]。面向对象的方法充分利用了影像信息对道路进行提取,虽然避免了仅利用光谱像元分类造成的影像“同谱异物和”“椒盐现象”,取得了很好的效果[8]。但同时参与道路提取的特征增多,也造成了特征维数的增大,在一定程度上降低了道路提取过程中影像的分类精度,因此在分类前需要对特征进行选择降低其维度[9]。

随机森林算法是一种机器学习分类算法,可以直接处理高维数据的降维问题[10]。目前与随机森林结合使用的特征选择算法主要有过滤式(Filter)和封装式(Wrapper)。温小乐等通过随机森林封装算法进行特征选择对乔木林树种进行分类,提高了树种的分类精度[11]。马玥、姚登举等利用随机森林算法封装式特征选择方法对特征变量进行降维,将降维后的变量用于影像分类,提高了分类的精度[12-13]。但封装式算法对分类器和搜索算法的依赖性较大,根据原始特征集在分类器上的性能评估特征子集的优劣,效率较低。Filter方法具有较好的预测能力,并独立于封装式算法,将其与封装式算法结合使用构成过滤式-封装式特征选择方法,能充分利用两者的优势。例如,刘舒等采用ReliefF过滤式算法和基于随机森林的封装式多目标遗传算法相结合的方法优化特征集,将所得的特征集用于湿地提取,取得了较好的效果[14]。传统随机森林分类在选择特征时具有随意性,会忽略特征对类别的重要性,很难选择出随机森林的最优参数组合并且选择过程效率低。因此本文在前人的基础上提出了将PSO搜索算法与优化的随机森林算法结合使用构成PSO_OPRF封装式特征选择方法并和ReliefF过滤式算法共同使用。在充分考虑特征间相关关系的同时选择最优的随机森林的参数组合,来提高影像分类和道路提取的精度。

2 研究区概况及数据准备

2.1 研究区概况

研究区位于山西省太原市城区内部,位置为112°30′29″-112°32′37″E,37°52′27″-37°53′47″N(如图1),根据城市生态用地的分类经验将研究区分为水体、植被、主干路、次干道、支路、建筑、阴影和其他8类地物[15]。

2.2 数据来源及预处理

数据选用2020年7月7日获取的全色分辨率为1 m,多光谱分辨率为4 m的GF-2遥感影像(如图1)。利用ENVI平台对GF-2遥感影像进行正射校正、几何配准,将配准后的影像进行融合、裁剪得到研究区初始影像,进一步采用中值滤波去除噪声提高影像对比度,利用改进的双阈值canny算子对研究区影像进行边缘提取[16],将提取的边缘和原始影像叠加得到最终研究区图像(如图2)。最终图像在不减少光谱信息的情况下同时拥有了边缘信息,能得到更好的影像分割效果。

图1 研究区示意图Fig.1 Schematic diagram of the study area

图2 添加边缘算子图Fig.2 Add edge operator graph

3 研究方法及原理

3.1 影像多尺度分割算法

多尺度分割算法是一种自底向上的区域生长算法[17]。其依据异质性准则,将单个像元逐层合并成具有相似性特征的影像对象,具体流程为:设置影像的尺度参数、光谱、形状的权值,将影像的局部区域异质性与给定阈值大小进行对比,当异质性小于给定阈值时进行迭代合并,依次循环,当异质性大于给定阈值时,停止合并。使得影像分割后对象内部同质性和对象间异质性达到最大[18]。多尺度分割根据影像中各个地物特征的不同,选择不同的尺度对遥感影像进行分割[19],形成不同地物间的层次等级网络体系,在特定影像层上提取出特定地物。本文在不同的尺度层次上对3种类型的道路进行了提取,首先根据ESP插件获得影像多尺度分割的大致尺度为120、180、210、260、300,再根据RMAS指数法[19]结合目视方法分别获得各个地物的尺度参数、形状与紧致度因子的参数见表1。

表1 各个地物最佳分割尺度和形状紧致度因子参数

3.2 特征初选

研究共选择93个特征,其中包括光谱特征8个,几何特征15个,纹理特征51个,语义特征16个 ,自定义特征3个。光谱特征包括4个波段的均值和标准差;几何特征包括面积、边界长度、长宽比、宽度、不对称性、密度等;纹理特征包括GLCM和GLDV方向的均值、标准差、熵、同质性、对比度、非相似性、角二阶矩、相关性等;语义特征包括距离相关性和相邻边界相关性等;自定义特征包括建筑指数(BAI)、自定义水体指数(NDWI)以及自定义植被指数(NDVI)。

3.3 特征选择的方法

(1)ReliefF特征选择

ReliefF是由Kononeill通过改进Kira提出,Relief得到的一种过滤式特征选择算法,可以解决多类别问题。它基于特征和类别之间的相关性来确定权重,滤除权重小于阈值的特征。具体过程为:随机选取训练样本集中的一个特征样本R,分别选择样本R的k个同类最近邻样本和异类最近邻样本构成样本集H和样本集T,求出H和T中特征与原始样本R中特征的差值,将其定义为特征权重W[20]。对于任意特征样本集m,进行n次抽样的特征权重Wm计算式[21]如下:

(1)

式中:c为异类样本集类别;R[m]代表特征集R中特征为m的值;p(c)为异类样本类别c的概率;Hj[m]为同类样本中距离m的第j个最近邻特征的值;class(R)代表对象集R的类别,p(class(R))是所有样本中与R相同的概率;T(c)j[m]为距离c类样本第j个最近邻特征m的值。

(2)粒子群优化搜索算法

Kennedy和Eberhart在1995年提出的粒子群优化算法(PSO)是一种群体协作式的随机搜索算法[22]。根据粒子的适应值和速度与其他粒子协作共享信息寻找解空间中的最优解。本文中将粒子群优化算法作为封装式算法中的搜索算法,在预处理后的特征集中选择更优的特征。

(3)PSO_OPRF封装算法

首先按权重大小对原始特征子集进行排序,利用ReliefF过滤式算法对排序后的特征子集进行筛选,去除权重较小的特征,保留权重较大的特征用参与到下一步的特征选择。然后,利用PSO算法和OPRF算法共同构成封装式(Wrapper)子集评估器对预选出的特征进一步降维。将PSO算法作为封装算法中的搜索算法,对经过ReliefF过滤式算法筛选出的特征的重要性进行评估判断,对冗余特征进一步消除,降低其维度。利用OPRF作为封装算法中的分类器, 对随机森林的参数进行自动选择,同时考虑特征之间的相关性,删除PSO算法中重要性较低的特征,逐次迭代,依据分类精度的大小对特征选择的优劣进行判断,建立分类精度变化与特征维度之间的关系,最终选择出最优的特征子集。并利用十折交叉验证法验证该特征选择方法对地物的分类精度。

3.4 影像分类

(1)J48决策树分类

J48决策树的基本理论算法为ID3算法,如图3所示。基于从上到下的递归策略,构造决策树的分支,依次循环,对连续属性进行离散化处理[23]。以J48决策树构建分类规则集对影像进行多层次分类,进一步在多层次分类的基础上提取城市道路。与通过优化随机森林分类器分类的结果进行对比。

图3 ReliefF_PSO_OPRF特征选择流程图Fig.3 ReliefF_PSO_OPRF feature selection flow chart

(2)随机森林算法(RF)分类

随机森林算法是由多个决策树组成的一种机器学习的分类算法。该算法对训练数据中随机选取的子训练样本构建决策树,并对决策树每个节点上特征进行随机抽取。根据选取的特征信息量分裂和增长决策树的节点,重复循环此过程,直到不再继续分裂。对各决策树进行分类,并对其结果进行投票,得到最终的投票分类结果[24]。

(3)优化的随机森林(OPRF)分类

现有的随机森林算法通常构建大量决策树,对内存消耗较大计算效率较低。使用遗传算法优化随机森林中决策树的个数,选择高质量的个体树来作为遗传算法的初始种群,可以提高随机森林的算法精度[25]。首先将OPRF作为封装算法中的分类器,对选择后的特征集合进行评估,在剩余的特征中选择出最优的特征集,再依据分类规则对三个等级的道路分别进行提取。

3.5 分类后道路拓扑处理

利用ArcGIS软件对提取后的道路进行细化处理,对树木、房屋阴影造成的道路断裂问题,进行拓扑处理实现道路连接,对提取出的道路面进行线化处理细化道路,去除粗提取产生的道路毛刺,对道路进行平滑。道路提取流程图如图4所示。

图4 道路提取流程Fig.4 Flow chart of road extraction

4 实验与结果分析

本文采用FNEA分割算法按RMAS指数法获得的各个地物的分割尺度和形状紧密度因子,利用eCognition9.1对遥感影像进行逐层分割,在分割好的影像的基础上共选择903个样本点,选择其中2/3作为测试数据,1/3作为验证数据,利用weka3.9平台设计对初始特征进行选择,得到最优特征参与后续分类过程,在不同层级上对不同尺度的道路进行粗提取。

4.1 ReliefF_PSO_OPRF特征选择

对原始空间特征利用weka3.9平台设计实验首先利用ReliefF过滤算法进行初始选择,保留与目标类别相关性较大的60个特征,再利用粒子群优化算法对预选出的特征重要性进行排序,同时优化随机森林算法,选择最优随机森林子树组合对特征子集进行评估,得到最终的26个特征(如表2)。其中包括光谱特征3个,几何特征5个,纹理特征7个,语义特征9个,自定义特征2个。总个数比仅使用ReliefF少34个,比ReliefF_PSO_RF选择出的特征少8个,比ReliefF_PSO_J48少了10个。ReliefF_PSO_OPRF特征选择方法选择出了最少的特征子集参与后续的影像分类,减少了计算时间,提高了影像分类的精度。

表2 ReliefF_PSO_OPRF选择的特征

4.2 不同特征选择方法分类结果对比

为了进一步验证ReliefF_PSO_OPRF方法的可靠性,将其与ReliefF_OPRF、PSO_RF、PSO_J48等方法的结果对比分析,见表3。从表3中可以看出4种方法中ReliefF_PSO_OPRF分类的总精度和kappa系数最高。相比于ReliefF_OPRF分类精度高出4%左右,kappa系数也高出0.04,验证了在封装算法中引入PSO搜索算法的必要性。发现ReliefF_PSO_OPRF方法的分类精度分别提高了3.87%、3.21%、10.3%,kappa系数提高了0.047 6、0.039 4、0.124 8。利用PSO_ORPF构成封装式算法选择的特征分类精度比PSO_RF构成封装式算法选择的特征分类精度高3%,kappa系数高出0.04;比PSO_J48构成封装式算法选择的特征分类精度高出10%,kappa系数高出0.12,验证了将OPRF作为封装式算法中分类器的有效性。实验证明ReliefF_PSO_OPRF构成的过滤式-封装式特征选择方法选出的特征最优。将该特征集依据分类器构建的分类规则参与到影像的多层次分类中能将道路与其他地物很好地区分开(如图4),提高了道路提取的精度。

表3 不同特征选择方法分类精度对比

5 道路提取的质量评价

利用以上多种特征选择方法及分类方法在多个层次上对不同类型的道路进行提取,在此过程中将选出的不同特征集的阈值构造作为规则集写入易康软件中作为分类的依据,建立分类模型。通过对道路提取的查全率、查准率、F-measure,三个指标来判断道路提取的质量。

查全率(Recall):指道路提取的完整程度,用于衡量正确分类的道路总面积与目视解参考道路总面积之比:

(2)

查准率(Precision):指正确提取道路数据的百分比,即算法分类之后的得到的正确分类的道路总面积与提取的道路网总面积之比:

(3)

F-Measure(F度量):是查准率和查全率的调和平均数,是查准率和查全率的综合表示:

(4)

式中:TP代表道路提取中将正类判定为正类;FP是指将负类判定为正类,即“存伪”;FN是指将正类判定为负类,即“去真”。

由表4可知,本文提出的ReliefF_PSO_OPRF方法选择的特征参与影像分类后,提取出的道路具有较好的效果,主干道和支路的查全率、查准率、F度量值都达到了0.9以上,次干道的查全率、F度量都达到了0.8以上,查准率达到了0.85以上,支路的查准率、查全率和F度量值都达到了0.9以上,高于其余几种方法。ReliefF_PSO_RF特征选择方法选取的特征提取出的道路精度次之,查准率、查全率和F度量都低于本文提出的方法。结合图6可以明显看出基于ReliefF_PSO_RF选择的特征提取出的道路存在错提,漏提的现象。验证了优化的随机森林算法的有效性。仅使用ReliefF算法与优化的随机森林算法结合使用选择出来的特征提取出来的道路的质量低于ReliefF_PSO_OPRF、ReliefF_PSO_RF方法选择出来的特征提取的道路质量。单独使用ReliefF算法进行特征选择,只能依据特征权重过滤掉权重较低的特征,不能充分考虑特征子集之间的关系对其进行准确的评估,选择出的特征对道路提取的质量较低。利用J48作为封装式算法的分类器评估特征子集,选择出的特征对道路的提取效果相较于前三种方法最差。验证了随机森林算法作为分类器选择特征时,具有较高的预测准确性。

表4 不同方法道路提取质量对比

图5 四种特征选择方法分类结果对比Fig.5 Comparison of classification results of four feature selection methods

图6 四种特征选择方法部分道路提取对比图Fig.6 Comparison diagram of partial road extraction of four feature selection methods

6 结论

本文针对GF-2遥感影像道路提取中遇到的特征冗余的问题, 提出了ReliefF_PSO_OPRF特征选择方法,将选择的特征应用于面向对象的道路提取中,取得了较好的效果,对主干道的提取质量达到了0.959,对次干道的提取质量达到了0.853,对支路的提取质量达到了0.931。通过四个试验对比可知:特征选择可以降低特征维度,提高道路的提取精度;封装式算法的分类器选择中本文选用的OPRF分类器相较于RF分类器和J48分类器选择出的特征集更优,对道路的提取效果更好;结合过滤式-封装式算法选择的特征对道路的提取精度高于仅使用过滤式算法选择的特征提取的道路精度。验证了本文方法在特征选择方面的可行性。由于城市中地物类型复杂,本文对主干道、支路的提取效果较好,在次干道的提取质量中还有待精进。

猜你喜欢
特征选择分类器精度
分类器集成综述
基于不同快速星历的GAMIT解算精度分析
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
近似边界精度信息熵的属性约简
基于AdaBoost算法的在线连续极限学习机集成算法
电力系统短期负荷预测方法与预测精度
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究