广义回归神经网络在空间数据聚类中的应用

2020-04-13 08:46卢建青陈银珠刘玉珠
导航定位学报 2020年2期
关键词:空间数据广义均值

卢建青,陈银珠,刘玉珠,张 锦

广义回归神经网络在空间数据聚类中的应用

卢建青1,陈银珠1,刘玉珠1,张 锦2

(1. 浙江省测绘大队,杭州 310030;2. 中国地质大学 地理与信息工程学院,武汉 430074)

针对空间数据聚类中由于空间数据本身的特点造成模糊C均值聚类算法无法满足使用要求的问题,提出1种改进的空间数据聚类算法:将模糊C均值聚类算法与广义回归神经网络相结合,得到结合广义神经网络的模糊C均值聚类算法;并将结合广义神经网络的模糊C均值聚类算法应用到空间数据的聚类中。实验结果表明,结合广义神经网络的模糊C均值算法在空间聚类方面比模糊C均值有着更好的效果,可以满足实际空间数据聚类的要求。

空间数据;空间聚类;模糊C均值聚类算法;结合广义神经网络的模糊C均值聚类算法;聚类效果

0 引言

随着我国遥感、测绘、地理信息等各种空间数据获取技术的快速发展,空间数据的量越来越大。空间数据由于其自身的特点,往往具有较高的复杂度,处理空间数据也相对困难。海量的空间数据无法得到有效的处理,造成了空间数据利用率低的现象[1-2]。于是空间数据挖掘被人提出[3-4],空间数据挖掘就是指如何在海量的空间数据中得到与空间数据相关的空间数据结果或者非空间数据结果,探索空间数据背后的规律,最大限度地发挥空间数据潜在的价值。空间聚类作为空间数据挖掘的一部分,可以发现空间数据的分布特点,分析空间数据的集中规则,并可以进一步判断和预测空间数据的分布位置的变化[5-6]。目前较为常用的空间聚类算法有:K均值聚类算法(K-means)[7]、模糊C均值聚类算法(fuzzy C-means, FCM)[8-10]、自组织特征映射网络(self-organizing feature map, SOM)聚类算法[11-12]、期望最大化聚类算法(expectation maximization, EM)[13]。由于空间数据本身的量较大且空间数据较为复杂,目前常用的空间聚类算法都无法完全满足各种空间数据聚类的需求。如K-means作为被使用最为广泛的空间聚类算法,其主要不足在于K均值聚类的初始点是随机选择的,这可能会导致即使是相同的数据每次聚类时的结果也不完全相同,甚至可能由于初始点的选择造成聚类结果错误。此外,其对于离散的空间数据处理能力不足,且K均值聚类不具备较高的抗噪声性能。SOM作为1种全连接神经网络聚类算法,可以进行非监督、完全自主的空间数据聚类。其大致原理是通过神经网络的自主学习能力使某1种神经元只对符合某1种特征的输入数据敏感,从而达到空间数据非监督聚类的目的。但是SOM需要较多的输入参数,若输入参数设置数量不足或参数选取错误,聚类结果会有较大的偏差。所以对于SOM最大的难点在于输入参数的确定。FCM在处理空间数据分类时1个数据在2个类的重叠区域部分有着极大的优势,但是空间数据的分布情况会对聚类结果产生较大的影响,并且可能存在会局部极值的现象导致无法得到准确的聚类结果。本文提出将广义回归神经网络(generalized regression neural network, GRNN)引入空间数据聚类中,将FCM和GRNN相结合,建立1种新的空间数据聚类算法即结合广义回归神经网络的模糊C均值聚类算法(generalized regression neural network-fuzzy C- means,GRNN-FCM),并通过实际的空间数据检验GRNN-FCM的聚类效果。

1 FCM 聚类算法

FCM算法通过模糊聚类的目标函数将数量为的空间数据聚类成数量为的模糊类,当函数达到最小时便可确定每类的聚类中心。模糊聚类目标函数为

FCM聚类算法具体步骤如下:

1)设置模糊聚类的需要得到类别数,模糊权重指数和初始聚类中心;

2)利用式(2)计算得到空间数据的模糊隶属度矩阵;

3)利用式(3)计算出数量为的小类别中每1个的类别中心v

4)利用式(1)计算模糊聚类目标函数值,若目标函数值到达最小,则结束计算,否则返回步骤2)。

FCM聚类算法是1种以模糊隶属度作为聚类标准的聚类算法,每个空间数据都是通过模糊隶属度矩阵确定其所属类别。

2 GRNN-FCM聚类算法

2.1 广义回归神经网络

图1 GRNN网络拓扑结构

网络共分为4个层,具体作用如下:

1)输入层。本层的作用为输入学习的样本并将输入参数传入模式层,输入层的神经元分布简单且神经元的数目为训练输入样本的维数。

2)模式层。本层作用是利用本层的神经元对输入的训练样本数据进行学习,所以本层中神经元数目等于训练样本数,训练函数为

式中:为全部训练样本;X为第个神经元的训练样本。

3)求和层。本层的作用是对模式层的数据分别进行算法求和及加权求和,公式为

式中权y为训练输出样本的对应元素。

4)输出层。输出层的作用为计算并输出结果,因此本层的神经元数为训练输出的样本维数,结果计算函数为

2.2 GRNN-FCM模型

本文提出的GRNN-FCM空间聚类算法是采用GRNN和FCM相结合的方式进行空间聚类。先通过模糊聚类将空间数据分为类再选取每1类中最具有代表性的组样本数据作为网络的训练输入数据,以每个样本数据的类别为网络的训练输出。GRNN通过训练输入数据和训练输出数据对空间数据的聚类规律进行学习。最后利用学习后的GRNN网络对所有的输入数据和输出数据聚类,得到每个空间数据所处的类别。算法的具体流程如图2所示。

3 实验与结果分析

3.1 实验概况

实验所使用的空间数据来自于浙江省测绘大队的自然资源大数据建设项目,自然资源大数据建设项目整合了各个部门收集自然资源数据样本数据,包括国土资源数据、住房和城乡建设数据、水利数据、农业数据、林业数据、测绘地理信息数据和海洋数据。自然资源大数据建设项目需要这些数据进行分类、分析,因此也为本次实验提供了丰富的空间数据。本次实验采用全国34个省级行政区的国土资源空间数据。国土资源数据由于其自身的复杂性,数据特征参数较多且有部分空间数据分布较为集中;因此使用一般的空间聚类方法处理此类空间数据有一定的困难。为了将空间数据导入MATLAB中计算和显示,对空间数据进行质心化处理得到结果如图3所示。

图2 GRNN-FCM算法流程

图3 国土资源质心化

为了对GRNN-FCM聚类算法进行分析,本文分别采用GRNN-FCM和FCM聚类算法对国土资源空间数据进行聚类,并将2种聚类算法得到的结果进行分析比较。

3.2 结果分析

参数设置时将2种聚类算法的聚类数均设为5。得到GRNN-FCM和FCM的聚类结果如图4、图5所示,为了对比2种聚类方法的效果计算得表1、表2。

图4 FCM聚类结果

图5 GRNN-FCM聚类结果

表1 聚类结果表

表2 聚类效果对比表

从图4和表1中可以清楚地发现,由于空间数据较为复杂、属性较多的原因,FCM聚类没有能够区分出第1类和第2类,最终FCM聚类算法仅仅只聚类出了4种空间数据的类别。从图5和表1中可以发现GRNN-FCM聚类算法在FCM的基础上有效地将第1类和第2类区分开,根据实际情况将空间数据聚类成5个类别。GRNN-FCM较FCM聚类算法可以更好地区分出复杂空间数据中属性的细小差异,并且根据聚类要求得到需要的聚类结果。从表2中也可以发现GRNN-FCM的聚类结果中每个小类的空间数据离中心点更加近,这表示GRNN-FCM得到的小的类别内部更加紧凑。因此可以证明GRNN-FCM和FCM相比有着更好的聚类效果,聚类结果更加准确。并且从表2中可以发现GRNN-FCM由于其先期利用具有一定代表性的数据进行了学习,所以GRNN-FCM的聚类时间相较于FCM明显较短,算法也更加高效。

4 结束语

FCM作为1种广泛使用的聚类算法,在对空间数据进行聚类的过程中,由于空间数据自身具有较为复杂、参数较多并且数据量较大的特点,某些情况下可能无法有效地按照聚类要求完成空间数据的聚类。针对FCM聚类算法在空间数据聚类方面的不足,本文提出在FCM中引入GRNN,将2者结合得到了全新的GRNN-FCM空间聚类算法。并利用空间数据进行实验,比较GRNN-FCM和FCM聚类效果。结果证明GRNN-FCM聚类算法在空间数据聚类时比FCM有着更好的聚类效果、更加准确的聚类结果。同时GRNN-FCM比FCM进行聚类时所需时间更少,算法的效率更高。实验证明GRNN-FCM在空间数据聚类中有一定的实际应用价值,同时本文的研究也为其他空间聚类算法研究提供了参考。

[1]王家耀, 苗国强, 成毅. 空间信息系统数据的获取[J]. 海洋测绘, 2004, 24(2): 1-4.

[2]裴韬, 周成虎, 骆剑承, 等. 空间数据知识发现研究进展评述[J]. 中国图象图形学报, 2018, 6(9): 854-860.

[3]李德仁, 王树良, 李德毅. 空间数据挖掘理论与应用[M]. 北京: 科学出版社, 2013.

[4]李德仁, 王树良, 李德毅, 等. 论空间数据挖掘和知识发现的理论与方法[J]. 武汉大学学报(信息科学版), 2002, 27(3): 221-233.

[5]汪闽. 空间聚类挖掘方法研究[D]. 北京: 中国科学院地理资源研究所, 2006.

[6]马飞. 数据挖掘中的聚类算法研究[D]. 南京: 南京理工大学, 2008.

[7]张建辉. K-means聚类算法研究及应用[D]. 武汉: 武汉理工大学, 2007.

[8]周开乐. 模糊C均值聚类及其有效性检验与应用研究[D]. 合肥: 合肥工业大学, 2014.

[9]BEZDEK J C , EHRLICH R , FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2/3): 191-203.

[10]孙晓霞, 刘晓霞, 谢倩茹. 模糊C-均值(FCM)聚类算法的实现[J]. 计算机应用与软件, 2008, 25(3): 48-51.

[11]齐志. 基于SOM神经网络的聚类可视化方法研究[D]. 长春: 东北师范大学.

[12]周欢, 黄立平. 基于SOM神经网络的C-均值聚类算法[J]. 计算机应用, 2007, 27(6): 51-52.

[13]MOON T K. The expectation-maximization algorithm[J]. Signal Processing Magazine, 1996, 13(6): 47-60.

[14]温爱华, 李松. 基于广义回归神经网络的铁路货运量预测[J]. 铁道运输与经济, 2011, 33(2): 88-91.

[15]周昊, 郑立刚, 樊建人, 等. 广义回归神经网络在煤灰熔点预测中的应用[J]. 浙江大学学报(工学版), 2004, 38(11): 1479-1482.

[16]SENG T L, MARZUKI K, RUBIYAH Y, et al. Adaptive neuro-fuzzy control system by RBF and GRNN neural networks[J]. Journal of Intelligent & Robotic Systems, 1998, 23(2-4): 267-289.

Application of generalized regression neural network in spatial data clustering

LU Jianqin1, CHEN Yinzhu1, LIU Yuzhu1, ZHANG Jin2

(1. The Institution of Geological Surveying and Mapping, Hangzhou 310030,China; 2.School of Geography and Information Engineering,China University of Geosciences, Wuhan 430074, China)

Aiming at the problem that it is difficult to meet the requirement of spatial data clustering for the fuzzy C-means clustering algorithm due to the characteristics of spatial data itself, the paper proposed an improved spatial data clustering algorithm: the fuzzy C-means clustering algorithm was combined with the generalized regression neural network to get the generalized regression neural network-fuzzy C-means (GRNN-FCM) clustering algorithm, and GRNN-FCM was applied in spatial data clustering. Experiments showed that the proposed method would have better effect than the fuzzy C-means algorithm in spatial clustering, which could meet the requirements of actual spatial data clustering.

spatial data; spatial clustering; fuzzy C-means; generalized regression neural network-fuzzy C-means (GRNN-FCM); clustering effect

P228

A

2095-4999(2020)02-0031-05

卢建青,陈银珠,刘玉珠,等. 广义回归神经网络在空间数据聚类中的应用[J]. 导航定位学报, 2020, 8(2): 31-35.(LU Jianqin, CHEN Yinzhu, LIU Yuzhu, et al. Application of generalized regression neural network in spatial data clustering[J]. Journal of Navigation and Positioning, 2020, 8(2): 31-35.)

10.16547/j.cnki.10-1096.20200206.

2019-09-20

卢建青(1979—),男,广东饶平人,硕士,注册测绘师,高级工程师,研究方向为地理信息系统平台设计开发及其应用技术。

张锦(1995—),男,安徽合肥人,硕士研究生,研究方向为GNSS数据处理。

猜你喜欢
空间数据广义均值
The Last Lumberjacks
10项空间数据与信息传输领域国家标准正式发布
GIS空间数据与地图制图融合技术
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
一类特别的广义积分
任意半环上正则元的广义逆
均值不等式的小应用
应用均值定理“四”注意
如何使“等号”成立