TM影像分类算法比较与评价

2015-06-09 14:21魏华锋刘士文
黑龙江工程学院学报 2015年1期
关键词:波段光谱向量

杨 洁,魏华锋,刘士文

(中国矿业大学地球科学与测绘工程学院,北京 100083)

TM影像分类算法比较与评价

杨 洁,魏华锋,刘士文

(中国矿业大学地球科学与测绘工程学院,北京 100083)

基于迁安市的TM影像,综合比较分析常用的6种分类算法——K-Means、Iterative Self-Organizing Data Analysis Technique(ISODATA)、最小距离(Minimum Distance,MD)、波谱角制图(Spectral Angle Mapper,SAM)、人工神经网络(Artificial Neural Network,ANN)和支持向量机(Support Vector Machine,SVM),得到SVM精度最高,但是其时间消耗也很大。随着大数据时代的到来,更加要求算法精度与效率兼顾,而现有的遥感影像分类评价指标大都忽略算法的时间效率。因此,提出分类综合评价指数L,并成功应用于此6种分类算法,得出MD算法最佳。

TM影像;分类;分类综合评价指数;大数据;Kappa系数

随着传感器的更新和遥感科学与技术的进步,遥感技术已经被逐步应用到许多行业。在气象学中,可以运用遥感影像预测未来天气;在航海渔业,人们利用卫星影像追踪鱼群;在农业中,遥感影像可以带来精确的土地利用分类,便于各种决策。而众多应用的前提是对遥感影像的解译和分类,解译多指目视解译,与解译者的经验密切相关。遥感影像的分类是重中之重,也是学者们研究的重点。

目前的分类算法可以分为两类:非监督分类和监督分类。常用的非监督分类算法有:K-Means[1]、Iterative Self-Organizing Data Analysis Technique(ISODATA)、贝叶斯分类法[2];监督分类有:平行六面体(Parallelepiped)、最小距离(Minimum Distance,MD)、最大似然(Maximum Likelihood)、波谱角制图(Spectral Angle Mapper,SAM)[3]、人工神经网络(Artificial Neural Network,ANN)[47]、支持向量机(Support Vector Machine,SVM)[8-11]等。这些算法各有利弊,如K-MEANS操作简单速度快,但精度较低;神经网络分类算法精度高,效率低。在大数据到来的时代,现有的分类评价方法,如总体精度[12]、Kappa系数[13]、PABAK指标[14]、混肴矩阵等均为考虑算法的时间效率,因此,本文通过研究K-Means、ISODATA、MD、SAM、ANN和SVM 6种分类算法的时间效率和精度,提出了一个综合评价指数L用于评价分类算法的优劣,并得到成功应用。

1 理论与方法

1.1 K-Means

K-Means最早是由James MacQueen在1967年提出的,它是一种得到最广泛使用的基于划分的聚类算法,把n个对象分为k个簇。算法首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心,对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇,然后重新计算每个簇的平均值,这个过程不断重复,直到准则函数收敛。它的准则函数为

式中:Si为第i个簇,μi为群组Si内所有元素xi的重心。

1.2 ISODATA

ISODATA使用最小光谱距离方程产生聚类,此方法以随机的类中心或已知信号集中。其实质是用某种算法生成初始类别作为“种子”,依据某个判别规则进行自动迭代聚类的过程。在两次迭代之间对上一次迭代的聚类结果进行统计分析,根据统计参数对已有类别进行取消、分裂、合并处理,并继续进行下一次迭代,直至超过最大迭代次数或者满足分类参数,完成分类过程。

1.3 最小距离分类

最小距离分类是一种监督分类的方法。它是求出未知类别向量到要识别各类别代表向量中心点的距离,将未知类别向量归属于距离最小一类的一种图像分类算法。

假定c个类别代表模式的特征向量,用R1,…,Rc表示,x是被识别模式的特征向量,|x-Ri|是x与Ri(i=1,2,…,c)之间的距离,如果|x-Ri|最小,则把x分为第i类。

1.4 波谱角制图

波谱角制图又称光谱角分类法,它将光谱数据视为多维空间矢量,通过比较解析方法计算像元光谱与已知光谱数据中参考光谱之间矢量的夹角,根据夹角的大小确定光谱间的相似程度,以达到识别地物的目的。

1.5 人工神经网络

人工神经网络是一种运算模型,由大量的“神经元”和相互连接构成。每个“神经元”代表一种特定的输出函数,称为激励函数(activation function)。每两个“神经元”间的连接都代表一个对于通过该连接信号的加权值,称之为权重(weight),这相当于人工神经网络的记忆。一个“神经元”的结构如图1所示。

图1 神经元结构

其中,a1~an为输入向量的各个分量,w1~wn为神经元各个突触的权值,b为偏置,f为传递函数,t为神经元输出。

因此,ANN的数学表示为

1.6 支持向量机

SVM的机理是寻找一个满足分类要求的最优分类超平面,在保证分类精度的同时使得超平面两侧的空白区域最大。

比如给定训练样本(xi,yi),x∈Rn,y∈{± 1},i=1,2,…,k,超平面(w·x)+b=0,计算分类间隔并转化为在约束条件下求

为了解决这个问题引入Lagrange函数

1.7 分类综合评价指数

分类精度作为分类的最佳评价指标无可厚非,但是随着遥感数据的“爆炸”,“云数据”逐渐崭露头角,仅仅通过精度评价分类是不足的,分类算法的时间效率也应加以考虑。因此,本文在实验的基础上提出了一个分类综合评价指数L,其定义为

式中:n为影像像元个数,k为分类后的Kappa系数,a为一个像元调节参数,δ为精度指数,τ为时间指数。a的大小与像元个数有关,δ,τ由实验确定,L越大分类算法越好。

2 实验与评价

2.1 实验数据

实验数据是河北北部迁安市的Landsat 5TM影像数据,该TM影像共有7个波段,分别是蓝色波段0.45~0.52um、绿色波段0.52~0.60um、红色波段0.62~0.69um、近红外波段0.76~0.96um、中红外波段1.55~1.75um、热红外波段10.4~12.5um、中远红外2.08~3.35um,除热红外波段的空间分辨率为60m,其它各波段的空间分辨率均为30m,图幅大小为1250×1179。迁安处于环渤海、京津“两环战略”的前沿地带。其地处燕山余脉,地势西北高,东南低,山地和丘陵约占全县面积的55.4%,有滦河、青龙河、冷口沙河、西沙河等河流相伴,其TM影像如图2所示。

图2 迁安市的TM影像

2.2 分类与分析

首先对下载的TM影像进行波段融合,并去除第6波段,然后进行辐射校正、Flaash大气校正等预处理工作,最后利用K-Means、ISODATA、MD、SAM、ANN和SVM 6种分类算法对TM影像分类,分为五类:植被Plant、水体Water、建筑物Building、道路Road和裸地Land,其结果如图3所示。

从图3可以看出,K-Means和ISODATA误将影像左上方的植被分成了水体,而SAM分类过于保守,出现很多未分类区域。利用混淆矩阵得到精度统计如表1所示,并统计这些算法的运行时间,其中,K-Means和ISODATA的迭代次数选择为5,分类类别为6,其它均为默认。

表1 精度统计

若仅仅从精度方面考虑算法的优胜,由表1可以得出分类精度由好到坏依次是SVM、ANN、MD、SAM、ISODATA、K-Means。

随着数据量的增加,有些算法的时间消耗剧增,此时算法的选择不能仅考虑精度也要考虑时间效率,可以通过计算分类综合评价指数L来选择算法。针对迁安市的TM影像,分别取100×100、200×200、400×400的3幅影像进行实验,建立线性回归分析,确定δ,τ的最佳值为12、0.2,针对本文1250×1179的影像,a的最佳值为8.25E-6。因此,可以依次计算这些分类算法的L,结果如表2所示。

表2 综合评价指数计算

由表2可知,MD分类算法最好,既兼顾精度又兼有效率,其次是SVM,因此,在数据“爆炸”的信息时代分类时应最先考虑MD算法,不建议采用精度较高L较低的ANN算法。

2.3 L的普适应性检验

2.3.1 检验数据

检验数据是河北某地区的Landsat 7的ETM+影像数据,该影像共有8个波段,其中热红外波段的空间分辨率为60~120m,全色波段为15m,其它波段为30m。图幅大小为2200×2000,如图4所示。

2.3.2 分类评价

分别用此6种分类方法对检验影像分类,其中,K-Means和ISODATA的迭代次数选择为5,分类类别为6,其它均为默认。分为六类:植被、水体、建筑物、道路、裸地和云,仍然保持δ,τ的值不变,a取2.75E-6,得到分类评价如表3所示。

图4 ETM+影像

表3 分类评价

从表3数据可知,MD仍是最佳,其次是SAM、SVM。比较实验数据和检验数据可知,随着数据量的进一步增大,MD优势更加明显,因此,在数据“爆炸”的信息时代MD是最佳选择,同时验证了L的普适应性合格。

3 结束语

遥感影像分类作为其它应用的基础,在诸多行业有着重要应用。学者们对分类算法的研究也较多,并提出了许多分类算法。文章利用迁安市的TM影像比较分析了K-Means、ISODATA、最下距离(MD)、光谱角制图(SAM)、神经网络(ANN)和支持向量机(SVM)分类算法,得出监督分类的精度比非监督分类好,其中SVM、ANN的分类精度最高,但是它们的时间消耗也最大。为了更好地迎接大数据时代的到来,首次提出分类综合评价指数L,并应用于此6种分类算法,得出MD算法兼顾效率与精度,是大数据到来的最佳分类选择。

[1]MCQUEEN J B.Some Methods for classification and Analysis of Multivariate Observations[C].Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley,University of California Press,1967:281-297.

[2]杜培军.遥感原理与应用[M].徐州:中国矿业大学出版社,2006.

[3]PETRIPOULOS G P,VADREVUB K P,KALAITZIDIS C.Spectral angle mapper and object-based classification combined with hyperspectral remote sensing imagery for obtaining land use/cover mapping in a Mediterranean region[J].Geocarto International,2013,28(2):114-129.

[4]DIANE M,EDIT J,SORAYA R.Neural network classification of Remote sensing data[J].Computers&Geosciences,1995,21(3):337-386.

[5]任军号,吉沛琦,耿跃.SOM神经网络改进及在遥感图像分类中的应用[J].计算机应用研究,2011,28(3):1170-1172.

[6]林剑,鲍光淑,敬荣中,等.FasART模糊神经网络用于遥感图象监督分类的研究[J].中国图象图形学报,2002,7(12):42-47.

[7]BARALDI A,BINAGHI E.Comparison of the multilayer perceptron with neural-fuzzy techniques in the estimation of cover class mixture in remotely sense data[J].IEEE Transactions on Geoscience and Remote Sensing,2001,39(5):994-1005.

[8]谭琨,杜培军.基于支持向量机的高光谱遥感图像分类[J].红外与毫米波学报,2008,27(2):123-128.

[9]丁胜锋,孙劲光,陈东莉,等.一种改进的SVM决策树及在遥感分类中的应用[J].计算机应用研究,2012,29(3):1146-1148.

[10]李冬萍.基于混沌粒子群优化的SVM分类器研究[J].计算机仿真,2010,27(4):185-187.

[11]HUANG C,DAVISLS,TOWNSHEND R G.An assessment of Support Vector Machines for Land Cover Classification[J].International Journal of Remote Sensing,2002,23:725-749.

[12]吕超,吕游.遥感影像信息提取技术的研究与实现[J].黑龙江工程学院学报,2014,28(1):34-37.

[13]COHEN J.A coefficient of agreement for nominal scales[J].Educational and Psychological Measurement,1960,20(1):37-46.

[14]田苗,王鹏新,严泰来,等.Kappa系数的修正及在干旱预测精度及一致性评价中的应用[J].农业工程学报,2012,28(24):1-7.

[责任编辑:郝丽英]

Comparison and evaluation of TM image classification algorithm

YANG Jie,WEI Hua-feng,LIU Shi-wen

(College of Geoscience and Surveying Engineering,China University of Mining &Technology(Beijing),Beijing 100083,China)

Based on the TM images of Qian'an city,the six classification algorithms,named as K-Means,Iterative Self-Organizing Data Analysis Technique(ISODATA),Minimum Distance(MD),Spectral Angle Mapper(SAM),Artificial Neural Network(ANN),Support Vector Machine(SVM)are compared and analyzed comprehensively.It is concluded that the accuracy of SVM is the highest and it also costs much time.With the arrival of the era of big data,both precision and efficiency of the algorithm are needed,but most of evaluation index of current remote sensing image classification cannot take the time efficiency of the algorithms into consideration.So an index L is put forward for classified comprehensive evaluation,which is applied successfully to the six kinds of classification algorithms,finally getting the optimal algorithm MD.

TM image;classification;comprehensive evaluation index of classification;big data;Kappa coefficient

P237

A

1671-4679(2015)01-0016-05

2014-09-25

中央高校基本科研业务费专项资金(2009QD02)

杨 洁(1990-),女,硕士研究生,研究方向:遥感与GIS科学及其应用.

猜你喜欢
波段光谱向量
基于三维Saab变换的高光谱图像压缩方法
向量的分解
聚焦“向量与三角”创新题
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
M87的多波段辐射过程及其能谱拟合
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
星载近红外高光谱CO2遥感进展
日常维护对L 波段雷达的重要性