基于特征重选择的高光谱图像分类

2014-01-17 05:46徐超冯燕
电子设计工程 2014年23期
关键词:搜索算法特征选择子集

徐超,冯燕

(西北工业大学 陕西 西安 710129)

随着高光谱遥感技术的发展,高光谱图像的谱间分辨率越来越高,从而可以更好地对地物进行分类[1-2]。极高的谱间分辨率同时也带来了一些问题,如增大了存储压力,更大的计算量等。在这些问题中,最严重的应是小样本问题或Hugh现象[3]。最大似然分类器由于具有多分类、概率输出的特点在遥感图像分类中得到广泛应用,而在使用最大似然分类器进行分类时,为了有效的估计协方差矩阵,样本集的大小应大于数据维度。由于高光谱数据的维度高达几十甚至上百,且遥感图像地物样本的采集相对困难,从而导致了小样本问题。为了解决小样本问题,通常的做法是在分类前对数据进行降维。常用的降维方法有特征提取[4-6]和特征选择[7-8]。特征提取对原始特征进行组合得到新的特征,在保持有用信息的同时最大限度降低维度。特征选择使用分离度准则和搜索算法从原始特征中挑选合适特征组成特征子集,从而在保持数据分离度的同时降低数据维度[9]。相对于特征提取,特征选择更加简单,且能在降维的同时保持数据的物理意义,从而广泛应用于高光谱数据降维中。

现有文献对特征选择的研究主要集中在分离度准则和特征搜索算法,即提出新的准则描述类别间的分离度或改进特征搜索算法提高效率和性能。在我们看来,特征选择应由分离度准则、搜索算法与特征选择框架三部分组成。特征选择框架的作用在于对分离度准则与搜索算法进行有效集成,从而最大限度的利用原始数据。传统的特征选择框架是在分类之前选取特征子集,并在分类过程中保持特征子集不变。该方法虽然简单,但适应性差,不能充分利用高光谱数据,造成误分类概率增大。通过对最大似然分类器的概率输出进行观察,我们发现,大多数情况下目标所属类别获得的概率值在所有类别中排在前两位,换言之,若误分类情况出现,即目标所属类别没有获得最大的概率值,它也很可能获得第二大概率值,且与最大概率值相差不大。我们将这个现象称为混淆现象。利用这个现象,我们提出一种新的特征选择框架,命名为特征重选择框架。新框架在初始阶段针对所有类别选取一个通用特征子集,并对目标进行预分类,若概率输出满足混淆条件,则针对当前目标选择特征子集,并进行最终分类。相对于传统的特征选择框架,提出的框架在特征选择中不仅考虑地物类别总体,同时考虑地物类别个体,从而可以兼顾同一类别中不同个体的差异,适应性更强,可以更准确的对地物进行分类。

1 特征重选择框架

1.1 传统的特征选择方法

首先对传统的特征选择方法进行简单介绍。特征选择方法主要由三部分组成,分离度准则、搜索算法和特征选择框架。

分离度准则的作用在于定量描述类别间的可分性,从而指导特征的选取。常用的分离度准则主要有欧式距离、马氏距离和J-M距离等。选定合适的距离测度后,通过式(1)即可算出类别的分离度D。

式中m代表类别总数,p(wi)代表第i类的先验概率,Dij代表第i类与第j类之间的距离。

特征搜索算法寻找一个特征子集使得类别分离度达到最大,即

其中 Λ 代表指标集,Λ⊂{1,1, …,t}(t是图像的光谱维度),DΛ指的是各类别在特征子集Λ下的分离度,|Λ|代表特征子集的大小,Λopt是最终选取的特征子集。可以看出,特征搜索是一个组合最优化问题,通常使用贪婪算法求解,这里回顾一种前向序列搜索算法,该算法思路清晰,使用简单。前向序列搜索算法首先选择一个使类间分离度达到最大的特征,并将其加入特征子集,进而将剩下的特征挨个放入特征子集,计算分离度,最终保留分离度最大的特征子集。重复该操作,直到特征子集大小满足要求。

特征选择框架主要研究如何更好地使用分离度准则与搜索算法。传统的特征选择框架选择一个特征子集使得类间分离度达到最大,并在分类过程中对所有目标使用该特征子集。该框架简单,计算量小,但是没有考虑到目标个体的差异,适应性不强,没有充分利用数据。为了解决这些问题,本文提出一种新的特征选择框架。

1.2 提出的特征选择框架

首先给出混淆条件的定义。对于最大似然分类器的概率输出,令第i类获得的概率为pi,对各个类别的概率值进行排序,不失一般性,假设第m类和第n类获得最大的两个概率值,计算它们之间的距离,即

若Pd小于给定的阈值,则称该概率输出满足混淆条件。

从混淆条件的定义可以看出,当概率输出满足混淆条件时,分类器无法有效地对目标进行分类,这时若简单的将概率最大的类别作为最终类别,则很可能造成误分类。考虑到特征提取可能造成的信息损失,面对混淆情况时,我们可以针对混淆的两类重新进行特征选择,即选择特征子集使得当前两类的分离度最大,从而最大程度利用数据,提高分类精度。具体方法如下。

在分类前,首先用传统的特征提取方法进行特征选择,得到类别意义上最优的特征子集,称其为全局最优特征子集。使用最大似然分类器对目标进行分类,得到概率输出,并确定概率最大的两类,不失一般性,令Pm>Pn,若不等式

成立,则概率输出满足混淆条件。为了消除混淆情形,重新选择一个特征子集使得当前两类分离度最大,即

使用重选择的特征子集再次对目标进行分类,得到概率输出,令第m类的概率为Pmm,第n类的概率为Pnn,假设Pmm>Pnn,则最终确定目标类别为m,对应的概率为

最后给出算法的流程图,如图1。

图1 算法流程图Fig.1 The flow chart of the algorithm

2 理论分析

这里给出新框架的理论分析,从分析的角度验证新框架相对于传统框架的有效性,首先给出引理和假设。

引理:设针对多类选择的特征子集为Λ1,针对m,n两类选择的特征子集为Λ2,两个特征子集关于两类的分离度分别为 DΛ1mn和 DΛ2mn,则 DΛ1mn≤DΛ2mn成立。

证明:为了使得多类的分离度达到最大,Λ1满足

为了使得两类的分离度达到最大,则Λ2满足

从Λ1和Λ2的表达式可以清楚的看出,

假设:对于最大似然分类器来讲,若类间分离度变大,分类正确率随之提高。

现在分析提出的框架。若最大似然分类器输出满足混淆条件,即目标真实类别的概率排在所有类别概率的前两位,从而通过特征重选择,可以使易混淆的两类的分离度变大,根据我们的假设,分类度越大,分类正确率提高,从而我们给出的框架分类正确率优于传统的分类框架。

3 实验结果

本节通过实验验证特征重选择框架的有效性,选用的高光谱数据为Indian Pines数据集。该数据及其对应的真实类别图可以从GIC下载。Indian Pines高光谱图像谱间维度为220,空间分辨率为145×145。该高光谱图像共包含16个地物类,选取其中最大的13个地物类进行实验。

在实验中,使用序列前向搜索算法作为特征搜索算法,并使用J-M距离作为分离度准则。在实验中,随机挑选像素点加入样本集和测试集。为了更好地测试框架,使用不同的样本容量和特征集大小,对于随机生成的样本集与测试集,重复实验20次,使用平均结果作为最终结果。样本集容量分别为真实分类图容量的10%和20%,测试集容量为真实分类图容量的30%。使用相应的训练集和测试集对框架进行测试,分类精度在图2中给出。

从实验结果可以看出,对于不同的样本集大小和特征集大小,本文提出方法 (FHRC)的分类精度高于传统方法(FSHC),从而验证了本文方法的有效性,并与理论分析一致。这同时说明,相对于传统的特征选择框架,提出的框架可以更好地利用数据。在特征维度较小时,提出方法相对于传统方法分类精度提升很大。这是因为初始的特征集类间分离度很小,通过特征重选择后,类间分离度得到很大的提升,从而分类精度随之提升。

图2 特征选择框架测试结果Fig.2 The experiment result feature selection framework

4 结 论

基于特征重选择,本文给出了一个新颖的高光谱图像特征选择框架。通过特征重选择,地物的类间分离度得到了提高,从而提高了分类精度。通过理论分析和实验,算法的有效性与稳定性得到了验证。可以看出,针对易混淆两类的特征选择算法在本框架中起着重要的作用,故设计相应的分离度准则与搜索算法是一项有意义的工作。

[1]RUIZ P,MATEOS J,CAMPS-VALLS G,et al.Bayesian active remote sensing image classification[J].IEEE Ransactions on Geoscience and Remote Sensing,2014,52(4):2186-2196.

[2]陈善静,胡以华,石亮,等.空-谱二维蚁群组合优化SVM的高光谱图像分类[J].光谱学与光谱分析,2013,33(8):2192-2197.CHEN Shan-jing,HU Yi-hua,SHI Liang,et al.Classification of hyperspectral imagery based on ant colony compositely optimizing SVM in spatial and spectral features[J].Spectroscopy and Spectral Analysis,2013, 33(8):2192-2197.

[3]HUGHES G.On the mean accuracy of statistical pattern recognizers[J].IEEE Transactions on Information Theory,1968,14(1):55-63.

[4]WEI Li,PRASAD S,FOWLER JE,et al.Locality-Preserving discriminant analysis in Kernel-Induced feature spaces for hyperspectral image classification[J].IEEE Geoscience and Remote Sensing Letters,2011,8(5):894-898.

[5]LUNGA D,PRASAD S,CRAWFORD M M,et al.Manifold-Learning-Based feature extraction for classification of hyperspectral data:a review of advances in manifold learning[J].Ieeesignal Processing Magazine,2014,31(1):55-66.

[6]HSIAO-YUN H,BOR-CHEN K.Double nearest proportion feature extraction for Hyperspectral-Image classification[J].IEEE Transactions on Geoscience and Remote Sensing,2010,48(11):4034-4046.

[7]SHEN Lin-lin,ZHU Ze-xuan,SEN Jia,et al.Discriminative gabor feature selection for hyperspectral image classification[J].IEEE Geoscience and Remote Sensing Letters,2013,10(1):29-33.

[8]CHEN Yang,LIU Si-cong,BRUZZONE L,et al.A Feature-Metric-Based affinity propagation technique for feature selection in hyperspectral image classification[J].IEEEGeoscience and Remote Sensing Letters,2013,10(5):1152-1156.

[9]MAGHSOUDI Y,COLLINSM J, LECKIE D.On the use of feature selection for classifying multitemporal Radarsat-1 images for forest mapping[J].IEEE Geoscience and Remote Sensing Letters,2011,8(5):904-908.

猜你喜欢
搜索算法特征选择子集
拓扑空间中紧致子集的性质研究
改进的非结构化对等网络动态搜索算法
改进的和声搜索算法求解凸二次规划及线性规划
连通子集性质的推广与等价刻画
关于奇数阶二元子集的分离序列
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
每一次爱情都只是爱情的子集
基于逐维改进的自适应步长布谷鸟搜索算法