水文学中的模糊聚类问题的讨论与研究

2015-10-21 19:10李晓伟

科技与企业 2015年14期

【摘要】对模糊聚类分析的产生，发展概况进行说明，简要介绍了进行模糊聚类分析的一般方法，以及目标函数法的基本过程，同时也对水文学中模糊聚类研究可能遇到的问题进行探讨。

【关键词】水文学；模糊聚类；目标函数

一、引言及基本理论

水文学以研究地球上水体的起源、分布以及其循环运动变化规律等为基本内容的一门学科；在整个水文系统中，其输入一般有降水，污染物等等，流域或区域作为一个整体的演变系统，流域或区域出口的径流，污物扩散等作为输出。从整个水文系统来看，它是一个开放的巨大的复杂的系统，而且由于整个系统的运动规律影响因素多，而且其物理机理也非常复杂，导致整个水文系统具有不确定的特性。而水文系统中存在的种种不确定性主要表现在随机性、模糊性等方面。

在多元统计分析当中，聚类分析是其中的一个分支；它就是对一个没有在类别上进行标记区分的集合或者是样本，将它划分成为按照所选的某种规则进行标记区分的若干个子集或者类，尽量使样本或者集合中相似的元素或子集划分到同一类别当中，而尽可能的将其中不相似的元素或子集划分到不同的类别中。但是，伴随着社会的进步发展，人类的认知领域也在不断的拓展，其中，人们发现在现实世界中并不存在非常严格的界限来区分很多的事物或现象，他们在性态和类属方面存在着某种统一性或者说中介性，他们不是简单的“非此即彼”的关系，而是带有“亦此亦彼”的性质，我们将这种情况下的分类称为软分类，在这种情况下，简单的聚类分析已不能满足人们的需求。

1965年Zadeh[1]针对事物广泛存在的模糊性提出了模糊集合理论（Fuzzy Set Theory），人们开始尝试用这种方法来处理聚类问题，而且取得了较大的成功，并将这种用模糊集合理论处理聚类问题的方法称为模糊聚类分析。

通过对样本或集合的模糊聚类分析，不仅可以得到各样本或子集分别从属于各个类别的隶属度，又能够得到各个样本类属之间所具有的中介性。通过模糊聚类分析，得到了样本在不同类别中的不确定性描述，所得到的结论也更能够对现实世界进行客观的反映。所以模糊聚类分析成为了聚类分析研究的主流，也成为了近年来不断发展的一个研究热点[2]。而模糊聚类分析也为了对水文学中的不确定问题进行处理的重要的工具。

二、发展概况

自从1965年Zadeh提出模糊集合理论以来，该理论得到了长足的发展，而且理论的本身的内容也得到充实和完善；而模糊聚类分析作为模糊集合理论在应用实践方面的重要领域之一，也在基础理论研究上获得了很大的进展，并且在实际工程的应用过程中取得了很好的成绩。而且模糊c均值法作为模糊聚类分析中的一种算法，由于其本身强大的实用性和理解上的通俗易懂性，使得模糊c均值法得到广泛应用，并迅速成为了对聚类问题进行研究的重要方向。下面对模糊c均值聚类的理论与算法的进展作简要的概括[3]：

（1）算法收敛性的改进：由Cannon在1986年提出的近似模糊c均值聚类法即AFCM法，使得模糊c均值算法的收敛速度得到了大大提高。

（2）目标函数的修改：Trauwaert等人在1991年，根据最大相关性的原则，将模糊聚类算法中的目标函数进行了修改。

（3）目标函数在距离公式方面的改进：距离公式的改进能够使得算法聚类的数据类型的范围扩大。基于目标函数的聚类算法中，大部分情况下都会采用欧氏距离。而Gusatafson[4]在1978年，将协方差引入到了目标函数的距离公式的表达式中，提出了基于协方差的模糊聚类算法，从而使得在进行模糊聚类分析时，数据聚类的效果得到明显提高。

三、方法分类

从方法的实现上来看，进行聚类分析的方法一般可分为以下几种类型[5]：基于谱系的聚类方法、基于等价关系的聚类方法、基于图论的聚类方法和基于目标函数的聚类方法。聚类方法可认为是将包含在样本集中的所有可能划分成为子集的并将子集按某种规则进行分类的处理数据的方法。如要得到理想的聚类结果，必须在采用聚类方法和选取聚类准则的时候进行谨慎的比选论证。但是，由于上述的前三种方法不适用于处理数据量比较大的情况，并且它们在实时性要求较高的场合不能满足使用要求，因此在进行实际问题分析的时候应用不是很广泛，目前，有关这三种聚类方法的研究已经逐渐减少了。而基于目标函数的聚类法则是将问题归结为一个非线性规划的问题，并且带有约束条件，通过采用以优化进行求解的方式获得样本数据集的最优模糊划分和聚类。这种聚类分析的方法在设计过程方面操作比较简单，而且所能解决的问题的范围方面也更加广泛，还可以将所处理的问题转化为有关优化的问题从而借助数学的非线性规划的理论进行求解。由于算法可以运用计算机将整个求解过程实现，所以这种方法的实用性很强。

数据聚类分析一般包括四个过程：（l）模式表示；（2）模式相似性的定义；（3）聚类算法的设计；（4）聚类有效性评价。

四、问题与结论

在有关模糊聚类分析的问题中，由于需要聚类的对象的多样性，即遇到的水文的问题的多样性，使得需要用到的模糊聚类的算法也具有多样性。在聚类分析中一般需要解决以下几个问题：

（1）聚类样本集的多样性。由于实际问题中的样本的类型具有多样性，如样本的球形分布、线性分布、椭球形分布、等等，所以其聚类的方法也具有多样性，需要针对具体的问题采用相应的聚类算法。

（2）聚类分析时确定聚类类别个数。就是将所给的样本集划分为多少个类别更加科学，更加合理。

（3）表征樣本特征的数据，在进行聚类分析时大部分数据处理方法都是基于欧氏距离的，故只能处理一些具有数值属性的数据或已经数值化的样本，对于一些符号属性或者很还没有数值化的信息就很难计算。

（4）提取样本特征。聚类时需要根据样本元素（子集）的影响特征来进行划分，有时找到这些能够有效区分类别的有效特征是困难的，而且有时就算找到了特征，但是却很难用数据将其表达出来等。

（5）当聚类样本输入顺序不同时会对聚类算法产生影响。也就是说即使聚类的样本相同，当样本的输入顺序不同时，所得到的聚类结果也会不同。

参考文献

[1]L.A.Zadeh.Fuzzy Sets.Information and Control[J]，1965，338-353.

[2]何青.模糊聚类分析理论与应用研究进展[J].模糊系统与数学，1998，12（2）：89-94.

[3]高新波.模糊聚类分析及其应用[M].西安电子科技大学出社，2004.

[4]甄文智，抑制式模糊聚类算法及其应用[D]，西安电子科技大学硕十学位论文，2003，01，P2-4，35-41.

[5]胡宝清.模糊理论基础[M].武汉大学出版，2004，271-279.

作者简介

李晓伟，（1991-）男，河北省石家庄市人，重庆交通大学河海学院，在读硕士研究生.研究方向：港口海岸及近海工程.

科技与企业2015年14期

科技与企业的其它文章: 国企改革加速局面下的中国经济格局; 循环经济发展背景下工业园区发展与规划探讨; 当前村镇银行发展面临的制约因素及对策建议; 广州市地下空间开发与利用研究; 浅谈商业银行的经济增加值; 当前变电运行设备巡视管理分析