Ward系统聚类法在农村居民收入情况分析中的应用研究

2015-03-23 07:41陈江丽

大理大学学报 2015年6期

陈江丽

（临沧师范高等专科学校信息科学与技术系，云南临沧 677000）

Ward 系统聚类法是一种聚类分析方法。聚类分析是根据分类样本数据特征的相似性，按照一定的规则将样本分成若干类，使同一类中的样本之间具有高相似度，而不同类的样本间高度相异〔1〕。聚类分析已经广泛应用于数据分析、模式识别和图像处理等许多领域。

聚类分析中主要通过距离来度量样本间的相似性，可利用系统聚类法对样本进行聚类。聚类开始时将n 个样本各自作为一类，并计算样本间的距离、类与类之间的距离。然后将距离最近的两类合并为一个新类，计算新类与其它类间的距离。重复将距离最近的两类进行合并，直至所有的样本合并为一类。其中类与类间距离的定义可采用7 种不同的方法，分别是最短距离法（single）、最长距离法（complete）、中间距离法（median）、重心法（centroid）、类平均法（average）、可变类平均法（weighted）和离差平方和法（ward）〔2〕。文中主要研究Ward 系统聚类法及其在农村居民收入情况分析中的应用。

1 Ward系统聚类法

Ward 系统聚类法是指利用离差平方和法计算距离的一种聚类方法，类中各元素到类重心（即类均值）的平方欧式距离之和称为类内离差平方和。假设类GK与GL聚成一个新类GM，则GK、GL和GM的类内离差平方和分别为公式（1）、（2）、（3）〔3〕。

当 GK和 GL合并成新类 GM时，WM＞ WK+WL，即类内离差平方和增大。若GK和GL距离较近，则离差平方和增加的值应该较小。因此GK和GL的平方距离根据公式（4）计算。

因此，离差平方和法是将方差分析的思想应用于分类中，使同一类中的离差平方和小，表示样本间的相似度高；而不同类间的离差平方和大，则样本间的相似度低〔4〕。通过离差平方和的大小来度量样本间的相似性，符合聚类分析的要求。

2 Ward系统聚类法的Matlab实现

利用Matlab 相关的系统聚类函数进行聚类分析，主要分为以下4个步骤。

2.1 样本预处理为了保证分析结果的准确性，需要对样本数据进行一些预处理，如平滑处理、标准化变换和极差归一化变换等。在实际应用中，可根据数据特征进行选择处理。一般较常用进行数据的标准化变换，主要针对多元数据中各元间的量纲和数量级不一致的情况。Matlab提供了常用的zsocre函数进行数据的标准化处理。

2.2 计算样本间距离聚类开始时，需要计算n个样本间的距离，距离的计算方法包括明氏距离、兰氏距离、马哈拉诺比斯距离和斜交空间距离等。其中最常用的是明氏距离中的欧式距离。第i个样本Xi和第j 个样本Xj之间的欧式距离计算如公式（5）所示。

Matlab 中使用pdist 函数计算样本间的欧式距离，调用格式为y=pdis（tX）。其中X 为输入的样本矩阵，每一行对应一个样本，每一列对应样本的一个分量。输出y 是一个包含n(n-1) 2 个元素的行向量，分别对应第i 个（其中i=2，3，…，n）和第j 个（其中j=1，2，…，n-1）样本间的距离。

2.3 利用Ward 系统聚类法创建聚类树通过Ward 系统聚类法进行聚类是聚类分析中的关键环节。通过创建系统聚类树可以完整地反映聚类的过程。Matlab工具箱中提供了linkage函数创建系统聚类树，调用格式为Z=linkage（y，‘ward’）。其中输入参数y是上一步计算的样本间距离，‘ward’表示使用离差平方和法进行系统聚类。输出参数Z是创建的系统聚类树，包含(n-1)×3 个元素的矩阵，它的每一行对应一次聚类，其中前两个元素为聚类的两个类编号（初始类编号为1～n，每聚成一个新类，类编号依次增加1），第3个元素为聚类时的距离。

创建好的系统聚类树可利用Matlab工具箱中的dendrogram 函数生成系统聚类树形图，使聚类过程和结果更加清晰直观。聚类树形图由许多连接聚类对象的倒U形线组成，线的高度表示聚类距离。树形图中的叶节点对应原始聚类样本。

2.4 计算系统聚类树的不一致系数系统聚类树的不一致系数可用来确定最终的分类个数。在保证最终聚类个数尽量少的前提下，可通过不一致系数的变化确定最终的分类个数。若不一致系数较上次的变化越大，则聚类效果越差。

系统聚类树的不一致系统可使用Matlab 工具箱中的inconsistent 函数进行计算。调用格式为Y=inconsistent（Z），输入参数Z是由linkage函数创建的系统聚类树，输出参数Y 是一个包含(n-1)×4 个元素的矩阵，其中的第4 列为每一次聚类的不一致系数。

2.5 创建聚类结果根据创建好的系统聚类树，以及由不一致系数确定的聚类个数，创建聚类，并输出聚类结果，完成聚类过程。

创建聚类可利用Matlab工具箱中的cluster函数实现，其调用格式为T=cluster（Z，‘maxclust’，n），输入参数Z是由linkage函数创建的系统聚类树，创建一个最大聚类数为n 的聚类，输出参数T 为每一个样本的所属的类序号。

3 利用Ward系统聚类法分析农村居民收入情况

中国作为一个农业人口和农民经济占主体的国家，农民收入水平及其分配状况直接关系扩大内需政策的落实，关系国民经济持续快速增长，关系国民经济发展战略目标的实现。由于地域差异和经济基础等因素的影响，农民人均纯收入在地区间形成显著的差异。根据各地区农村居民人均纯收入的构成情况，包括工资性收入、经营性收入、财产性收入、转移性收入等部分，如表1 中列出2012年全国31个省、市、自治区和直辖市的农村居民人均纯收入数据，利用Ward 系统聚类法进行聚类分析，将地区按收入情况划分为不同的类，根据同一类地区间农村居民收入情况的相似性，不同类地区间收入情况的差异性，为地区经济分析与研究提供重要依据，对经济政策和扶持的制定提供科学的指导。

表1 2012年各地区农村居民人均纯收入

3.1分析步骤及结果

1）读取表1 中的工资性收入、家庭经营纯收入、财产性收入和转移性收入4 个主要变量数据放入矩阵 X 中，X 就是一个 31×4 的矩阵。读取表 1 中的地区数据放入矩阵city 中，city 是一个包含31 个元素的列向量。

2）X=zscore（X）；%数据标准化（减去均值，除以标准差）。

3）y=pdist（X）； %计算样品间欧氏距离，y为距离向量。

4）Z = linkage（y，‘ward’）； % 利用离差平方和法创建系统聚类树。

5）H = dendrogram（Z，0，‘orientation’，‘right’，‘labels’，city）；%绘制聚类树形图，方向从右至左，显示所有叶节点，用城市名作为叶节点标签，叶节点标签在左侧，返回线条句柄H。创建的系统聚类树树形图。见图1。

图1 2012年各地区农村居民人均纯收入聚类树形图

6）inconsistent 0=inconsistent（Z）；%计算不一致系数，计算结果如下所示。

7）inconsistent 0矩阵中的第4列为不一致系数，通过观察和比较每次聚类过程的不一致系数。考虑倒数第4 和5 次聚类的不一致系数的变化，不一致系数大幅增加1.132 6，说明倒数第5 次的聚类效果是比较好的，对照图1的系统聚类树形图可看出，此时样本被划分为4类。即可认为聚为4类是最合适的。

8）T=cluster（Z，‘maxclust’，4）；%由系统聚类树创建聚类，最终聚为4类。

9）obslabel（T==1）；%查看第1 类所包含的地区，结果如下。

第1类地区为：天津、江苏、浙江、广东。

10）obslabel（T==2）；%查看第2 类所包含的地区，结果如下。

第2 类地区为：内蒙古、辽宁、吉林、黑龙江、福建、江西、山东、河南、湖北、海南、新疆。

11）obslabel（T==3）；% 查看第 3 类所包含的地区，结果如下。

第3 类地区为：河北、山西、安徽、湖南、广西、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏。

12）obslabel（T==4）；% 查看第 4 类所包含的地区，结果如下。

第4类地区为：北京、上海。

3.2 分析结论利用Ward 系统聚类法对2012 年全国31 个地区的农村居民人均纯收入情况进行聚类分析，最终划分为4类地区。从结果可以发现，不同地区的农村居民收入水平与地理位置、资源、人口、经济发展水平等方面有相应的关系。

第1类中，天津是中国4 个直辖市之一，是首都北京的门户，中国国家中心城市。江苏是我国著名经济大省。浙江是中国经济比较发达的沿海对外开放省份，以民营经济的发展带动经济的起飞。广东是中国经济总量最大和发展最快的省份。4个省的城镇企业、民营企业较多，政府扶持，发展良好。故这4个省的农村居民家庭人均纯收入位居全国前列〔5〕。

第2类中，辽宁、吉林、黑龙江3省土地肥沃，水资源丰富，农业产值和农民收入较高。山东、河南是我国的农业大省，交通发达，使得经济迅速发展，农村居民生活水平进一步提高。福建、江西、湖北、海南是一个雨量丰沛的地区，气候温和，适合农作物生长，农业发展较快，农村居民家庭人均纯收入相对较高〔6〕。内蒙古和新疆两省国家扶持力度大，财政支出持续向民生倾斜，农村居民家庭人均纯收入相对较高〔7〕。

第3 类中的14 个地区农村居民家庭人均纯收入较低，且多数是西部地区，贵州、云南等属于丘陵地带〔8〕。陕西、甘肃的土地资源中旱地占主要部分〔9-10〕。青海、西藏属高原地带，由于受地理位置和气候条件的影响，农业产值较低，农村居民家庭人均纯收入较低。

第4 类中，北京是中国的首都，也是中国的政治、文化、科教和国际交往中心，中国经济、金融的决策和管理中心〔11〕。上海是中国的经济、交通、科技、工业、金融、贸易、会展和航运中心〔12〕。不仅如此，旅游业等副业的繁荣也是农村农民高收入的原因，因而农村居民家庭人均纯收入位于全国最前列。

因此，分析结果可以为进一步研究影响收入水平的因素和提高不同地区农民收入水平的措施提供科学合理的依据。

4 结语

利用Ward 系统聚类法根据数据特征的相似性进行分类的特点，对不同地区按农村居民的人均纯收入情况进行聚类，划分为不同的区类，为深入研究和政策的制定提供决策支持，在现实环境中具有较高的应用价值。

〔1〕Han Jiawei，Kamber Micheeline，Pei Jian.数据挖掘概念与技术〔M〕. 范明，孟小峰，译. 北京：机械工业出版社，2010：10-100.

〔2〕周涛，陆惠玲.数据挖掘中聚类算法研究进展〔J〕.计算机工程与应用，2012（12）：100-111.

〔3〕于秀林，任雪松.多元统计分析〔M〕.北京：中国统计出版社，2008：30-50.

〔4〕郑红英. 数据挖掘聚类算法的分析和应用研究〔D〕. 重庆：重庆大学，2002.

〔5〕官琳琳，门可佩.中国农村居民家庭人均纯收入的聚类分析〔J〕.安徽农业科学，2009（31）：49-51.

〔6〕陶兢强，许能锐.中国农村居民纯收入聚类分析〔J〕.江西农业大学学报：社会科学版，2010，9（2）：42-48.

〔7〕刘鑫鑫.中国农村居民收入区域差距研究〔D〕.长春：吉林大学，2010.

〔8〕杨小伟.甘肃省不同地区农村居民收入差距研究〔D〕.兰州：兰州大学，2012.

〔9〕万波琴.陕西农村居民收入差距研究〔D〕.西安：西北大学，2010.

〔10〕杨文俊.陕西省农村居民收入差异分析〔D〕.西安：长安大学，2011.

〔11〕刘瑜.我国农村居民收入构成研究〔D〕.哈尔滨：黑龙江大学，2014.

〔12〕杨威.中国农村居民收入区域不平衡研究〔D〕.广州：暨南大学，2013.