基 于可靠性的鲁棒模糊聚类

2021-04-29 04:06潘金艳高云龙谢有为熊裕慧
控制理论与应用 2021年4期
关键词:鲁棒性方差聚类

潘金艳 ,高 朋 ,高云龙 ,谢有为 ,熊裕慧

(1.集美大学 信息工程学院,福建 厦门 361021;2.集美大学 航海学院,福建 厦门 361021;3.厦门大学 航空航天学院,福建 厦门 361101)

1 引言

聚类分析是一种重要的无监督学习方法,在模式识 别、机器学 习、数据挖 掘等领 域有着 广泛的 应用[1–3].其目的是在一组分布未知的数据中,按照某种相似程度,尽可能地将相同性质的数据点归为一类.根据数据的集聚规则,聚类算法可以分为4类:基于划分、基于层次、基于密度和基于网格[4–5].其中基于划分的聚类方法,因其直观的几何意义和良好的数学模型可描述性而一直受到广泛关注,最具有代表性的基于划分 的聚类方法就是模糊 C 均值聚类 (fuzzy Cmeans,FCM).但是传统FCM聚类算法也存在许多缺陷,如:对噪声点和孤立点敏感、对不平衡数据集敏感等.

针对FCM算法存在的这 些问题,近年来,研究者们展开了广泛的研究.有研究将FCM对噪声点和孤立点敏感问题归结为样本点对各数据簇隶属度之和为1这一约束条件,该约束条件下噪声点也会获得较高的隶属度[6,9],继而在下一步的迭代过程中对聚类结果造成影响.于是,Krishnapuram等提出了可能C均值聚类模型 (possibilistic C-means clustering,PCM)[7],该模型考虑各个样本的“各异性”及其与聚类中心的内在联系,通过松弛样本点到聚类中心的隶属度来降低噪声和异常样本点的影响.然而PCM没有考虑不同数据簇之间的相互作用,而且对初始聚类中心的设置极其敏感,易出现聚类中心趋同的情况.Pal等人提出了一种将FCM与PCM相结合 的模糊可能C均值聚 类模型(fuzzy possibilistic C-means clustering,FPCM)[8],该模型不仅考虑了不同数据簇之间的相互作用,而且利用了PCM能够降低噪声异常值影响的优良特征,因此能够得到较高质量的聚类结果.但是,当样本量十分庞大时,由于FPCM全体样本点对同一聚类中心可能性之和为的约束条件使得每个样本点的作用将微乎其微,模型难以收敛[9].为了解决这个问题,Pal等人又 提出了 可能模 糊C均值聚 类算法(possibilistic fuzzy C-means clustering,PFCM)[10],该模型的改进之处在于均衡考虑了各样本点的隶属度以及可能性,放松了可能性之和为1的约束条件.但同时该模型引入了需要用户设置的超参数,使得模型变得复杂且不具有自适应特征.相对熵模糊C均值聚类算 法 (relative entropy fuzzy C-means clustering,REFCM)[11]在FCM框架下,采用相对熵正则技术,引入朗伯函数求解模型,松弛了样本的隶属度约束条件,降低噪声和异常样本点的影响,但算法同样存在模型复杂和收敛性不好的问题.

FCM算法对非平衡数据集敏感的问题也引发了众多研究,其中Noordam等人从数据统计角度出发,提出了簇大小不敏感模糊 C 均值聚类算法 (cluster size insensitive fuzzy C-means clustering,csiFCM)[12],算法在聚类过程中确定数据簇大小的比值,来平衡大数据簇对小数据簇的影响.但是,由于csiFCM对数据簇初始化聚类中心位置和相邻簇之间的距离都很敏感,于是Lin等人从数据簇完整度和纯度的统计特征角度提出了基于完整性的簇大小不敏感模糊C均值聚类算 法 (size-insensitive integrity-based fuzzy C-means,siibFCM)[13]算法,很好的解决了csiFCM存在的问题,但是该算法对噪声点和孤立点不鲁棒,在处理含噪声的数据集时准确率会大大降低.

此外,本课题组在研究中发现,FCM模糊隶属度具有拖尾和翘尾的结构特征,这一特征造成离群样本的隶属度会陷入“极端模糊”状态,这种状态使得数据簇的内聚程度以及可分性下降.因此针对这些问题,本文提 出了一 种新的 基于可 靠性的 鲁棒模 糊聚类算法 (reliability-based of robust fuzzy flustering,RRFCM),通过分析样本点的可靠性来降低噪声点、孤立点和数据簇不平衡问题对聚类结果的影响,提高聚类的质量.

2 相关算法分析

2.1 模糊C均值聚类算法(FCM)

自FCM[14]被提出以来就一直展现出强大的生命力,后人在其基础上不断提出各种各样的衍生算法,来改进其存在的缺点.FCM基本思想是将包含n个样本点的数据集X={x1,x2,···,xn},按照模糊的方法划分到c个不同的数据簇,通过最小化簇内加权误差平方和得到目标函数

对模型(1)通过拉格朗日乘子法求解,得到

其中:c为数据簇的个数,n为数据点的个数,m为模糊控制系数(m >1),uij表示第j个样本点xj隶属于第i类vi的程度,即隶属度.则表示其 欧氏距离的平方.

2.2 模糊隶属度的“拖尾与翘尾”结构特征

在FCM算法中,模糊控制系数m的取值对聚类结果的影响很大.当m过小时,聚类的模糊程度将会减小,进而导致数据簇之间的作用力减小;当m=1时,算法退化为k-means算法;而当m过大时,聚类的模糊程度增大,所有数据点趋向于分为一类[15–16].因此,m的取值通常为[1.1,2.5][14–15],一般取值为2[17].

图1 m取值对隶属度的影响Fig.1 The influence ofm value on membership degree

2.3 噪声点、孤立点对聚类结果的影响

在无监督学习中,因为缺少数据整体结构特征的先验知识,通常根据样本点与整体样本的偏移程度来判断其是否为噪声点,即:如果某一样本点远离大部分样本点,且欧式距离相对较大时,那么该点为噪声的可能性就会变得很大,反之,则不认为是噪声;但是,如果数据点周围也存在较多近邻样本点时,实验中将其视为噪声点处理显然会造成较大的误差.

由式(1)(3)可知,由于模糊隶属度和为1的约束,噪声点的存在会使聚类中心发生偏移,具体表现为:将噪声点归为某一类,则该类的聚类中心会偏移向噪声点方向.当噪声点距离数据簇较远时,由于模糊隶属度的拖尾与翘尾特征会造成本该被舍弃的离群点,陷入了“极度模糊”的状态,从而造成该数据簇的类内聚程度降低,同时也降低了数据簇间的可分性.下面通过 图2来说明 这种情 况,如 图2(a)中有标记为“o”和“*”的两类数据簇,但是由于噪声点的存在,FCM算法错误的将噪声点作为新的一类,而本该分开的两个数据簇却重叠在了一起,如图2(b)这样的聚类结果显然不符合实际情况.

2.4 非平衡数据集聚类结果的影响

数据不平衡主要表现在不同数据簇样本容量或数据簇分布特征(方差)的差异上.以图3二分类为例,选取正类的样本数量远大于负类的样本数量,且分布特征不一致.由于FCM天生趋向于将数据簇均等分,因此数据簇之间的分界线将明显偏移向样本容量和方差较大的数据簇.如图3(b)所示,黑色实线为理论分界线,虚线为实际分界线.

图2 噪声对聚类结果的影响Fig.2 Influence of noise on clustering results

通过以上分析可知,如何确定哪些点为噪声点,并排除它们对聚类结果带来的影响就显得尤为重要.在目前众 多对噪声鲁棒 性的FCM算 法中,如:PCM[7],FPCM[8],PFCM[10],REFCM[11]等 等,都是通 过描述样本点与聚类中心的偏移程度,即假设的先验模型来辨识样本点是否为噪声点.然而,根据式(3)可以看出聚类中心的计算也容易受到噪声点的影响,聚类中心估计不准确,会对噪声的判别带来误导.因此,这类算法的鲁棒性对聚类中心的估计依赖性较强.

图3 数据集不平衡对聚类结果的影响Fig.3 Influence of data sets imbalance on clustering results

与 Fisher 线性判别分析(Fisher linear discriminant analysis,Fisher LDA)思想相似,好的聚类算法应当使得同一簇内的对象彼此相似,不同簇间的对象相异.而目前对噪声鲁棒性强的FCM算法中,都过度强调同一簇内对象的相似性,而忽略了不同簇间的相异性,无法同时实现类内聚程度大,类间可分性强的组合最优性.基于这个问题,本文提出了基于全局与局部的不确定性聚类模型.

3 改进算法分析

3.1 基于全局不确定性的聚类模型

模糊不确定性是指样本点类别 属性的不确定性.在当前聚类中心确定的条件下,一个样本点距离不同数据簇交叠区域越远,则该样本点的类别不确定性越小,基于这一几何意 义,本文中 把任意一个样本 点xj的模糊不确定性建模为

其中n为不确定性因子.基于上述不确定性公式,聚类过程应当使得不确定性最小,即有

图4是一个最简单的带有噪声的二分类的数据集.对于距离聚类中心较近的点,如点C,它隶属于某一类的隶属度值会很大,即具有明确的类别特征;而对于距离数据簇较远的噪声点和两个数据簇交界处的数据点,如点A和点B,表现在图1中即为横轴中间和两端位置,由隶属度可知它们的类别特征不明显.根据式(4)可知,对于任意xj,模糊不确定性aj的取值与样本点的类别属性无关,其值大小仅取决于样本点xj与聚类中心vi的欧氏距离.因此 参数aj的引 入,进一步的加强了类别特征不明显样本点的影响力,提高了数据簇间的可分性;另外对于具有明确类别特征样本点,式(5)的权重aj较小,相对削弱了噪声点和边缘点对聚类结果的影响,因此提高了算法的鲁棒性.

图4 带有噪声的二分类数据集Fig.4 Noisy binary data sets

3.2 基于局部不确定性的聚类模型

第3.1节在分析样本点的不确定性过程中,依赖当前FCM的聚类中心,对每一个数据点的aj进行 分析,因此将其称作基于全局不确定性的聚类模型.

相对于全局不确定性的聚类模型,此处基于FCM对数据的划分,寻找数据点近邻点信息,建立局部不确定性的聚类模型.通过局部不确定性聚类模型挖掘不同数据簇之间交叠区域样本的不确定性,挖掘局部聚类结构特征,从而在聚类过程中,突出不同数据簇交叠区域样本的可分性.依据这一思路提出基于模糊理论建立局部不确定性的聚类为

3.3 基于可靠性的鲁棒模糊聚类

将模型(5)–(6)与FCM相结合,建 立如下基于可靠性的鲁棒模糊聚类算法为

其中:uij,vi,xj与FCM算法中符号代表的含义相同,λ为全局不确定性比例系数,γ为局部不确定性比例系数,aj代表数据点的模糊不确定性程度,n为不确定性模糊因子,表示数据点xj的K个近邻中,与xj标签相同数据点的均值.很显然,当λ,γ的值为0的时候,算法退化为FCM.本文中的符号以及定义总结在表1中.

表1 模型中符号及其代表含义Table 1 Notations used in this paper

3.4 优化过程

基于式(8),利用拉格朗日乘子法,建立带有拉格朗日约束项的辅助函数

函数L对辅助参数βj求偏导数得到

函数L对隶属度uij求偏导数得到

令式(11)为零,得到

将式(12)代入式(10)得到βj,并将βj代回式(12)得到

函数L对聚类中心vi求偏导数得

令式(14)为零,得到

4 实验分析

4.1 时间复杂度分析

表2中给出几种不同算法的时间复杂度,其中,N表示数据点的个数,c表示聚类簇的个数,t表示迭代的次数,w表示选取近邻窗口的大小,q在FRFCM算法中表示灰阶的个数.

表2 不同算法时间复杂度Table 2 Time complexity of different algorithms

可以看 出 FCM[14],csiFCM[12]和 siibFCM[13]3种算法有较低的计算复杂度.而FRFCM (fast robust fuzzy C-means clustering)[18],FLICM (fuzzy local information C-means clustering)[19]和RRFCM3种算法均引入局部近邻约束,FRFCM算法将基于像素点聚类的方式改 为基于 灰阶聚 类,q的取值 为 [0,255](q ≪N),因此相较其他聚类算法复杂度要小得多.虽然FRFCM算法也引入了近邻约束,但仅在算法收敛后,只对隶属度进行一次隶属度中值滤波,而FLICM和RRFCM算法的局部信息需要在每次迭代中更新,因此计算代价都很高,优点就是相较于其他几种方法,都能得到较好的聚类结果.

4.2 算法步骤

算法可以通过以下步骤迭代得到聚类结果.

步骤1确定m,c,λ,γ的取值,最大迭代次数iteration和目标函数收敛阈值ϵ,初始化迭代次数t=0;

步骤2初始化聚类中心vi;

步骤3第1次迭代时,根据式(2)求隶属度;若t>1,则根据式(13)更新隶属度uij;

步骤4根据式(4)更新aj;

步骤5根据式(15)更新聚类中心vi;

步骤6若Jt−Jt+1<ε且t

步骤7根据隶属度矩阵U得到聚类结果.

4.3 实验设置

分别在人造数据集、UCI数据集[20]进行实验,来验证算法对含噪声数据集、不平衡数据集和真实数据集的鲁棒性,并进一步验证算法在图像分割实验中的实用性.

实验环境:

PC:HUAWEI

CPU:1.60 GHz–1.80 GHz RAM:8 GB

应用软件:MATLAB R2019a

选取相关算法进行对比,以验证本文算法的有效性,参考文献 [21–22],文中RRFCM及其对比算法的模糊控制系数m均取2,全局和局部模糊不确定系数λ,γ通过寻优得到.

4.4 评价指标

为了验证算法的好坏,人造数据集和UCI实验结果用兰德指数(Rand index,RI)作为评判标准:

兰德指数是利用样本点之间的关系来衡量聚类结果,其中:a是样本点中原来属于同一类,聚类后仍属于同一类的数据对个数;b表示原来不属于同一类,聚类后仍然不属于同一类的数据对个数;n表示数据点的个数,分母表示所有样本点所组成的数据对总个数.RI∈[0,1],RI的值越大,表示聚类效果越好.

4.5 人造数据集验证鲁棒性和类大小不敏感性

4.5.1球形数据集

FCM算法对数据集的分布比较敏感,对于凸集或类球形数据集,往往有好的聚类结果.本文首先在球形分布数据集上进行实验.其中包括两个可分性较好的高斯分布的数据簇.此外,为了验证算法的鲁棒性,在数据集中加入了3个高斯分布的噪声点.具体参数如表3所示.

表3 球形数据集及噪声分布Table 3 Spherical data sets and noise distribution

实验中λ的取值为0.4,n的取值为2 (不确定因子),γ的取值为1e−6;因为算法对初始值很敏感,这种不确定性会导致聚类结果出现较大的偏差,因此,本文对FCM和RRFCM两种算法分别进 行10次重复实验,取RI的平均值作为实验最终结果,来减小误差,得到实验结果如图5所示.

图5 RRFCM算法在球形数据集上的聚类分析Fig.5 Clustering analysis of RRFCM algorithm on spherical data sets

表2中两个高斯分布的均值为理论的聚类中心,因此算法得到的vi偏移越小,则表示受噪声的影响越小.在图5(b)(c)中分别用“*”来表示理论聚类中心,“□”表示算法聚类结果.从图5(b)可以看出FCM将3个噪声点分给了第1类,由于噪声点的“拉扯力”,因此,聚类中心向噪声点的方向发生较大的偏移.FCM算法分别得到的聚类中心为(2.488,4.911)和(4.786,2.041),兰德指数RI为60.82%.如图5(c)所示为RRFCM算法的聚类结果,得到的 聚类中心为 (2.825,4.500) 和(4.714,2.043),兰德指 数RI为63.40%.算法在对第2类的聚类中心几乎没有影响的情况下,使第1类的聚类中心更加靠近真实值,可以看出,算法在没有降低精度的同时,还对噪声点表现出了良好的鲁棒性.

学生党支部作为高校基层党组织的重要组成部分,理应是高校开展思想政治工作的战斗堡垒,然而,目前理工科院系学生党支部建设却面临着一些突出问题。从个人的角度来讲,理工科学生对政治的淡漠和参与度较低,一定程度导致了入党积极性不足;而“务实”的“功利主义”又导致部分入党学生动机不纯,更看重入党带来的现实回报,而非党组织所要求的政治意识和应当承担的责任。此外,还有部分学生党员党性意识不高,对党组织归属感不强,参与党支部活动积极性不高等。

4.5.2非球形数据集

FCM算法能很好地识别球形数据集,但对于非球形数据集的识别能力较差.为了验证RRFCM算法是否具有很好的泛化性能,设置如图6所示两个棒状的高斯分布数据簇,方差均为,通过改变它们的中心距来判断算法对数据簇形状变 化的鲁 棒性.如 图6(a),当两个 棒状数 据簇中 心距为2.8时,由图6(b)和图6(c)可 见FCM和RRFCM算 法都可以很 好的正确分类;进一步缩小中心距为2.4,如图6(e)所示,FCM算法分界线发生了倾斜,更加倾向于将两个数据簇分为上、下两类来平衡数据簇形状变化带来的影响,这种现象在中心距缩小为2.2时更加明显,如图6(h)所示,FCM算法分界线几乎变为水平方向,聚类中心也由数据簇的中心位置偏移到中间空白位置,这样的分类结果显然是不理想的;而RRFCM算法在3种不同的中心距时,均能正确地将数据集分为左右明显分离的两个簇(图6(c)(f)(i)).实验结果说明算 法不但 对噪声具有鲁棒性,而且不受数据簇的形状变化带来的影响,即对数据分布也有较好的鲁棒性,当数据集分布非类球形时,仍然能得到较好的聚类结果.

图6 RRFCM算法在非球形数据集上的聚类分析Fig.6 Clustering analysis of RRFCM algorithm on non-spherical data sets

4.5.3 非平衡数据集

上述鲁棒性验证实验是在平衡数据集上进行的,本节改变数据簇的样本容量,来验证RRFCM算法对非平衡数据集的有效性.

选取两个服从高斯分布的球形数据集,不平衡度设置为20 (正负类样本容量的比值),数据簇具体参数如表4 所示.对比算法为 FCM[14],csiFCM[12]和 siib-FCM[13].结果如图7所示,从隶属度等高线可以看出FCM算法和csiFCM算法的聚类中心明显偏向较大的数据簇,siibFCM虽然比较好的解决了聚类中心偏移的问题,但是依然存在少量错分点.而RRFCM算法对数据集大小不敏感,能准确地将两个簇分开.

图7 不同算法在非平衡数据集上的聚类效果Fig.7 Clustering effect of different algorithms on size imbalance data sets

表4 非平衡数据集分布Table 4 Size imbalance data sets distribution

4.6 UCI数据集

UCI 数据库 是加 州大 学欧文分 校 (University of California Irvine,UCI)提供的用于机器学习常用标准测试数据集[20].本文选取了12个UCI数据集,来检验RRFCM 算法在处理真实数据时的表现.

实验选 取 FCM[14],PFCM[10],GIFP–FCM[23–24],csiFCM[12],siibFCM[13]和 RBI–FCM[25]作为对比算法.其中基于改进模糊划分的广义模糊C均值聚类(generalized fuzzy C-means clustering algorithm with improved fuzzy partitions,GIFP–FCM) 算法是 Zhu 等人提出的,文章通过引入新的隶属度约束,解决了基于改进模糊划分的模糊C均值聚类(improved fuzzy partitions for fuzzy regression models,IFP–FCM)[26]算 法模糊指数m的一般化问题,同时算法从Voronoi距离和竞争学习的角度对其鲁棒性和快速收敛性进行了合理解释;簇间可分的鲁棒模糊C均值聚类(robust fuzzy C-means clustering algorithm integrating between cluster information,RBI–FCM)算法是Gao等人提出的,文章利用k-means算法对模糊隶属度的稀疏特征,降低簇之间相互作用,提高了簇间可分性,另外算法的鲁棒性,也有效降低了FCM 对数据簇分布差异性和抽样不均衡的敏感性,得到理想的聚类结果.该组实验的评价指标为兰德指数RI,实验结果如表5所示,实验结果表明,RRFCM算法 在12个UCI数据集上均取 得最高的兰德指数,充分说明RRFCM算法在真实数据上的实用性.

4.7 图像分割

图像分割是指将图像分成若干互不重叠的子区域,使得同一个子区域内的特征具有相似度高,不同子区域的属性呈现较为明显的差异,是图像处理与机器视觉的基本方法之一[27],在图像分析的预处理阶段具有十分重要的作用[28],也是图像后期分析的基础.

4.7.1人造合成图像分割

首先在有噪声的人造图像上进行实验.

实验选 取 FCM[14],csiFCM[12],siibFCM[13],FLICM[18]和FRFCM[19]作为对 比算法.其 中,FLICM和FRFCM算法都是通过引入图像近邻信息来优化算法,FLICM利用模糊局部(空间和灰度)相似性度量,来提高算法 对噪声 的不敏 感性和 图像细 节保留能力;FRFCM通过引入基于灰阶聚类和隶属度中值滤波器,使得算法不需要像FLICM那样计算近邻信息,因此大大降低了计算代价,并且中值滤波还起到了对噪声鲁棒的作 用.实验选 取分割精度 SA (segmentation accuracy)作为图像分割结果的评价指标其中:c为类的个数,Ai表示通过算法迭代后属于第i类像素点,Ci表示在原始图像中属于第i类的像素点.显然,当图像完美分割的时候,SA的值应该无限接近于1.

表5 各算法在UCI数据集的RI指数(%)Table 5 RI index of each algorithm on UCI data sets (%)

第1张图像大小为128×128,分为平衡的两类数据集,左侧区域灰度值为20,右侧灰度值为140.为了验证算法鲁棒性,依次加入均值为0,方差为0.05,0.15和0.3的高斯噪声.从图9可以看出,当方差为0.05时,5种对比算法都可以准确分类,但只有FLICM和FRFCM两种算法几乎可以完全去除噪声;当方差为0.15和0.3时,随着噪声方差的增大,前3 种算法虽然能准确分类,但都变得模糊不清.FLICM算法仍能较好的去除噪声,对比FRFCM右侧区域则抑制噪声较差,这种趋势随着噪声方差的增大表现得更加明显;而RRFCM则受高斯噪声方差变化的影响较小,只有在方差为0.3时才会出现少量噪点,RRFCM算法在准确分类的同时也有效的去除了噪声,表现出较好的鲁棒性.

从图8分割精度折线图可以看出,随着噪声方差的增大,除了FLICM和RRFCM算法,其他算法的精度都有所下降,因此SA随噪声变化的折线图更加直观反映了算法对噪声较好的鲁棒性.

第2张图片大小为512×512,分为不平衡的四类数据集,其中左上角小正方的灰度值为0,记为I;右上角矩形灰度值为85,记为II;右下角大正方灰度值为255,记为III;左 下角矩形灰度值为170,记为IV;和图9 一样依次加入均值和方差均相同的高斯噪声.由图10可以看出,无论噪声方差多大,所有对比算法都不能将I和II分界很好的分出来,并且III和IV的噪声都无法去除;而本文算法,在当噪声方差为0.05和0.15时,I和II都能正确分类,且IV的噪声几乎被完全的去除掉;当噪声方差为0.15时,尽管III和IV被错分到一起,但是整体噪声仍然得到较好的抑制.

图8 高斯噪声方差对SA的影响Fig.8 The influence of Gaussian noise variance on SA

相比于二分类图像分割,各对比算法在数据不平衡时均出现错分的情况,并且对噪声鲁棒性也会变得很差.而RRFCM算法仅在噪声方差较高时才会出现错分,并且在噪声抑制上要优于其他算法.从图10的SA折线图可以观察到,在噪声方差变大时,只有FRFCM算法和RRFCM算法仍能保持较高的分割精度,但就分割正确性来说,显然RRFCM算法要表现的更好.

图9 人造二分类图像分割Fig.9 Artificial binary image segmentation

图10 高斯噪声方差对SA的影响Fig.10 The influence of Gaussian noise variance on SA

4.7.2 彩色真实图像分割

接下来选取Berkeley图库作为测试对象,选取的图像为#238011,#15088和#135069.

从 图12(b)(d)(e)(f)可以看 出,由于月 亮数据簇较小,因 此FCM,siibFCM,FLICM和FRFCM错误的 将月亮与周围天空错分为一类,导致分割结果中月亮和背景天空融合到一起,并且天空也不能完整分割.虽然 图12(c)显 示csiFCM算法将 月亮很好地分割出 来,但是与边缘天空错分为一类,而且仍然未解决划分结果均衡这一问题,即并没有解决对数据集大小敏感这一问题;而RRFCM算法在 正确分 类的前提下,如 图12(g)准确地将月亮分割出来;图13所示水中船只,为了得到图片主体船,需要将水面和水波作为噪声划为一类.在对比算法中,只有FLICM和FRFCM算法可以较好的去除波纹,而其他算法虽然也能正确分类,使主体与背景分割开来,但仍然存在少量水波无法去除.如图13(g)所示,本文算法完全去掉了波纹,并得到清晰的湖船主体.

图11 人造四分类图像分割Fig.11 Artificial quad-classification image segmentation

图12 各算法对Berkeley图库图像分割结果Fig.12 Algorithms on Berkeley library image segmentation results

图13 各算法对Berkeley图库图像分割结果Fig.13 Algorithms on Berkeley library image segmentation results

图14和图15为算法在常用图像分割数据集上的实验结果,选取的c值为2和3.实验选取的对比算法及参数与图13和图14实验均相同.

在这些 结果中 可以 看到,siibFCM和FLICM算 法在一些数据不均衡或分布不均匀的图像取得较好的分割结果.而在部分数据不均衡图像上,siibFCM算法却并不能很好的解决该问题.对于一些背景“纯净”,但分布不均匀的图像,FLICM算法的分割结果也不是很理想.FRFCM相较于其他对比算法的优点是计算速度快,但也仅在个别图像上取得较好的分割结果.而RRFCM算法面对这些图像存在问题,均可以得到较好的分割结果.

在 原图中加入 均值 为0,方差为0.15的高斯噪 声,如图16所示.可见FCM,siibFCM和FRFCM算法仅能看清鹰的轮廓,而不能很好的抑制噪声;csiFCM算法在加入高斯噪声后,当噪声方差较低时,聚类效果和FCM算法相差不大,随着方差的增加,所有簇将会聚为一类,无法得到可观测的聚类结果(为了方便观察,图16(c) 加入了热图),因此在 真实图像分割 中,csi-FCM算法几乎不具备鲁棒性;FLICM优于以上对比算法,对噪声 具有一 定的抑 制作用,但相比 于RRFCM算法仍存在均衡分类的现象,结果如图16(e)所示将一部分背景天空错分到主体鹰这一小数据簇上.为了便于观察RRFCM算法的鲁棒性,如图16(g)所示加入未加噪声的分类结果,对比图16(h)可以看出,RRFCM算法在真实图像分割中,在解决数据簇大小敏感问题的同时,可以较好地抑制噪声,结果优于对比算法.

图14 c=2图像分割Fig.14 c=2 image segmentation

图15 c=3图像分割Fig.15 c=3 image segmentation

5 结束语

由实验结果可知,本文所提出的RRFCM算法,在保证模糊C均值聚类算法优点的同时,提高了算法的鲁棒性,也有效解决了算法对数据大小敏感的问题,并在人造数据集、真实数据集和图像分割上取得较好的结果.但算法也存在局限性,对初始聚类中心较为敏感,对初始化聚类中心位置依赖性较强,并且由于要计算数据点近邻约束信息,因此算法计算代价较高,今后将在解决该问题上进行研究,就其初始化聚类中心不敏感性和算法实现快速性做出更为合理的分析与解释.

猜你喜欢
鲁棒性方差聚类
概率与统计(2)——离散型随机变量的期望与方差
武汉轨道交通重点车站识别及网络鲁棒性研究
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
方差生活秀
一种基于三维小波变换的鲁棒视频水印方案
揭秘平均数和方差的变化规律
方差越小越好?
基于鲁棒性改进理论的大面积航班延误治理分析