K-means聚类方法在黑龙江省低山丘陵区坡耕地类型区划分中的应用

2015-03-12 06:30吕志学孙雪文刘凤飞
水土保持通报 2015年1期
关键词:坡耕地

吕志学, 孙雪文, 刘凤飞

(黑龙江省水土保持科学研究所, 黑龙江 哈尔滨 150070)

K-means聚类方法在黑龙江省低山丘陵区坡耕地类型区划分中的应用

吕志学, 孙雪文, 刘凤飞

(黑龙江省水土保持科学研究所, 黑龙江 哈尔滨 150070)

摘要:[目的] 探索K-means聚类方法在黑龙江省坡耕地类型区划分上应用的可行性,为各市(县)坡耕地水土保持规划和治理提供依据。[方法] 利用K-means聚类方法对黑龙江省70个低山丘陵区市(县)进行科学区划。[结果] 低山区市(县)共21个,丘陵区县市共49个。[结论] 所选16个分类指标的显著性均小于0.05,证明分类结果令人满意。

关键词:K-means聚类方法; 低山丘陵区; 坡耕地; 类型区划分

中国人口众多,人均资源较少,特别是作为人类赖以生存的耕地资源十分匮乏,人均只有0.09 hm2,为世界平均水平的1/4,美国的1/9。而且这些耕地资源中大多为低山丘陵区坡耕地,耕地质量差,环境恶劣,直接影响中国的粮食安全[1]。中国东北黑土区是目前世界上仅有的3大黑土区之一,该地区是中国的主要商品粮基地,年生产粮食约占全国粮食总产量的20%,黑龙江省约占其中的1/2[2],如何提高作为全国重要商品粮基地—黑龙江省坡耕地的粮食产量,对确保中国粮食安全将起至关重要的作用。黑龙江省幅员面积较大,地貌类型多样,坡耕地水土流失各具特色,治理措施差异显著,特别是低山区坡耕地与丘陵区坡耕地。如低山区耕地作为山地的延伸部分,坡度大、汇流急,雨滴溅蚀地表土壤,而后出现超渗产流,产生水土流失。在治理措施上因该区域主要土壤以棕色针叶林土和山地暗棕壤为主,土层薄而不易于修筑水平梯田,多采用复合地埂[3]等措施进行坡耕地水土流失治理;丘陵区坡耕地坡长坡缓,汇流面积大,地表径流大,降雨出现超渗产流后易形成股状汇流,不仅面蚀严重,在坡面汇水线处更易发生沟蚀。治理措施上因坡耕地黑土层较厚,一般根据不同坡度选择梯田、地埂和改垄措施进行治理[4]。因此,如何科学界定黑龙江省低山区和丘陵区市县,对科学选择、布设水土保持措施将起至关重要的作用。本文在黑龙江省已经确定的70个低山丘陵区市县的基础上,选取影响坡耕地质量的16项指标,运用成熟的聚类方法,对低山丘陵区市县进行了分类,旨在为不同类型区进行科学治理创造条件。

1材料与方法

1.1 划分指标的选取

影响坡耕地质量的因素很多,根据已掌握的资料,选取了市县高程>200 m耕地加权高程、年均气温、5—9月平均气温、年降雨量、5—9月降雨量、年日照时数、≥10 ℃积温、全氮含量、全磷含量、全钾含量、有机质含量、土地人口承载密度、粮食产量、农用化肥施用折纯量、农用机械总动力、耕地侵蚀面积占总耕地面积比共16项指标作为类型区划分指标。这些指标分别来自于黑龙江省遥感调查数据、黑龙江省农业地图集[5]及研究数据。

1.2 K-means聚类方法原理

K-means聚类是聚类方法中的一种,是常见4类聚类方法(划分方法、层次方法、基于密度的方法和基于网络的方法)中最典型的“划分方法”,又称作K中心聚类,属硬聚类算法。通常我们要预先确定分类数,然后才能进行这个聚类分析。基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值或达到给定的迭代次数[6]。

K-Means聚类算法主要分为3个步骤:

第1步是为待聚类的点寻找聚类中心。

第2步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去。

第3步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心。

反复执行第2,3步,直到聚类中心不再进行大范围移动或者聚类次数达到要求为止。

1.3 具体操作步骤

具体操作步骤:(1) 先准备好数据,在打开软件的菜单栏上选定“K-均值聚类”分类方法; (2) 输入聚类用到的指标变量和市县名称; (3) 设置聚类的类别数目。这个数目的确定主要依据工作经验和前人的研究证明。本研究欲将黑龙江省低山丘陵区市县划分成2个类型区,所以设置的类别数为2; (4) 在主对话框中,设置最大迭代次数,默认值一般为10,但是数据量越大,迭代次数就应该越多,所以我们设置为100; (5) 点击“确定”按钮,开始运行数据,并输出数据结果。具体操作步骤详见图1。

图1 K-means聚类具体操作步骤

2结果与讨论

黑龙江省低山丘陵区坡耕地类型划分初始聚类中心见表1。它列出每一个类别初始的中心点,如低山区这个类别中,16项指标中的“市(县)高程>200 m耕地加权高程”这个指标的初始中心点为-0.365 91,即该类别中所有市县的该项指标都是距离这个中心点相对较近,而距离丘陵区0.347 78这个中心点相对较远,其他15项指标也是如此,最终根据16项指标的“综合距离”确定某个市县应该划归为那个类别中,即确定初步分类结果。这些中心点都是SPSS自动生成的。

表1 黑龙江省低山丘陵区坡耕地类型划分初始聚类中心

黑龙江省低山丘陵区坡耕地类型划分最终聚类中心见表2。它列出每一个类别最终的中心点,如低山区这个类别中,16项指标中的“市县高程>200 m耕地加权高程”这个指标的最终中心点为-0.188 21,即该类别中所有市县的该项指标都是距离这个中心点相对较近,而距离丘陵区0.690 09这个中心点相对较远的,其他15项指标也是如此,最终根据16项指标的“综合距离”确定某个市县应该划归为那个类别中,即确定最终分类结果。依据这些最终中心点,即可自动生成最终聚类结果表。

表3是我们根据最终聚类结果表整理后的聚类结果。从表3中我们可以看出,低山区这个类别中主要包含尚志市、鸡西市、鸡东县等21个市县,主要位于黑龙江省北部和东南脚的大小兴安岭及张广才岭、老爷岭低山区。该区耕地为山地的延伸部分,坡度大、汇流急,耕地总面积27 329.55 km2,耕地水土流失面积14 842.50 km2,占耕地总面积的54.31%,主要土壤以棕色针叶林土和山地暗棕壤为主;丘陵区主要包含哈尔滨市、方正县、木兰县等49个市县,主要位于松嫩平原和三江平原内。该区耕地总面积104 726.52 km2,耕地水土流失总面积36 232.48 km2,占耕地总面积的34.60%。该区地势波状起伏,坡长坡缓,汇流面积大,地表径流大,主要土壤为黑土、黑钙土。

表2 黑龙江省低山丘陵区坡耕地类型最终聚类中心

表3 黑龙江省低山丘陵区坡耕地类型聚类结果

表4给出了计算机的原始方差分析结果。从表4中看出,自由度为一组数据中能独立变化数据的多少。本文欲将70个市县划分成2类,因此总的自由度为70-1=69,即最多有69个市县可自由划分为1类,其余自然确定为另一类。并且,因为只划分为2类,所以类间自由度为1,即最多只有1类可自由确定,剩下的自然为另一类;类内自由度为68,即每类中最多有68个能独立变化的数据[7]。F检验值即为类间平均方差与类内平均方差的比值,该F值越大,即类间均方大于类内均方,也就是类间变异量大于类内变异量,说明各类间的差异远超出总期望值离差,代表各类的平均数存在明显的差异,同时,F值越大说明其在分类中所起的作用越大[8]。如表中≥10 ℃积温、年均气温等。判断文中所选影响坡耕地质量的16项指标是否具有代表性取决于其显著性检验结论,显著性水平一般确定为0.05,即当显著性计算结果小于0.05时,所选指标对整体具有很好的代表性,否则代表性不强[9]。从表4中看,所选分类指标的显著性均小于0.05,说明该分类指标在统计学有意义,即所选分类指标具有很好的代表性,分类结果有效。

3结 论

最初我们选择了21个分类指标进行上机运算,经多次反复,筛选确定其中的16个指标为最终分类指标,指标涵盖了地形地貌、自然条件、经济条件、社会条件和水土流失等方面。其中“市县高程>200 m耕地加权高程”来自于课题研究结论,“耕地侵蚀面积占总耕地面积比”来自于遥感调查数据,其他来自于黑龙江省农业地图集。该图集资料比较完整、系统,虽然年代较早,但仍是目前最新的图集,其中的指标能很好的代表黑龙江省70个低山丘陵区市县耕地整体质量。

表4 黑龙江省低山丘陵区坡耕地类型原始方差分析

K-means聚类算法是一种比较成熟的聚类方法,本文将该方法首次应用在黑龙江省低山丘陵区市县划分上,采用计算机程序进行运算,获得了较为理想满意的分类结果,通过对划分的2个类型区进一步统计分析。

可以看出低山区与丘陵区的平均数差异显著,如山区平均土地人口承载密度为68人,市县高程>200 m耕地加权高程为341 m,耕地侵蚀面积占总耕地面积比为54.31%。

丘陵区平均土地人口承载密度为156人,市县高程>200 m耕地加权高程为256 m,耕地侵蚀面积占总耕地面积比为34.60%,也进一步验证了分类结果的可信性,这对今后不同类型区坡耕地采取分类治理具有十分现实的意义。

同时由于影响坡耕地质量的因素很多,很多因素还在不断变化,因此今后应根据掌握的最新数据进一步对分类结果进行核试验证。

[参考文献]

[1]崔秀珍,吴国梁.新时期我国耕地资源总量动态平衡的维持与可持续利用的途径[J].安徽农业科学,2006,34(2):298-299.

[2]刘兴土,阎百兴.东北黑土区水土流失与粮食安全[J].中国水土保持,2009(1):17-19.

[3]屈远强,勇丽波.穆棱市水保生态建设措施体系构建与实践[J].水土保持应用技术,2010(3):24-26.

[4]王树清.拜泉县生态农业发展战略与实践[J].中国生态农业学报,1995(4):77-78,76.

[5]黑龙江省地图集编纂委员会.黑龙江省农业地图集[M].哈尔滨:哈尔滨地图出版社,1999.

[6]张建辉.K-means聚类算法研究及应用[D].武汉:武汉理工大学,2007.

[7]卢淑华.社会统计学[M].北京:北京大学出版社,2005.

[8]靳庭良,张宝青.回归分析中t检验与F检验关系的进一步探讨[J].统计与决策,2009(21):7-9.

[9]孙逸敏.利用SPSS软件分析变量间的相关性[J].新疆教育学院学报,2007,23(2):120-123.

Application of K-means Clustering Method in Regionalization of Slope Farmland in Low Mountain and Hill Area of Heilongjiang Province

LÜ Zhixue, SUN Xuewen, LIU Fengfei

(HeilongjiangProvincialSoilandWaterConservationScientificResearchInstitutes,Harbin,Heilongjiang150070,China)

Abstract:[Objective] To explore the feasibility of the K-means clustering method in the classification of farmland types in Heilongjiang Province and provide support for the planning and management of soil and water conservation in slope farmland.[Methods] We made a clustering of farmlands in 70 cities(or counties) in low mountain and hilly areas in Heilongjiang Province using K-means clustering method.[Results] The cities or counties in the low mountain is 21 and hill area is 49.[Conclusion] The 16 classification indexes were significant at the level of 0.05, indicating the fitness of classification.

Keywords:K-means clustering method; low mountain and hill area; slope farmland; regionalization

文献标识码:B

文章编号:1000-288X(2015)01-0124-04

中图分类号:S157

收稿日期:2014-01-17修回日期:2014-02-17

资助项目:黑龙江省科技攻关项目“黑龙江省山丘区坡耕地综合整治措施体系研究”(GC05 B304)

第一作者:吕志学(1968—),男(汉族),黑龙江省哈尔滨市人,硕士,教授级高工,主要从事水土保持基础和应用研究。E-mail:sbslzx@163.com。

猜你喜欢
坡耕地
湖北省坡耕地现状分析及宜耕性评价
多因素影响下的喀斯特山区坡耕地分布特征
——以贵阳市花溪区为例
喀斯特坡耕地块石出露对土壤水分入渗的影响
坡耕地治理助推西和县万寿菊产业发展
南方坡耕地水土保持措施分类及效应评价最小数据集
云南省坡耕地现状调查及分析
国家坡耕地水土流失综合治理工程助力建平县脱贫攻坚
肥城市坡耕地水土流失综合防治探讨
坡耕地作物缓冲带对径流和氮流失的影响分析
三峡库区紫色土坡耕地氮磷径流特征研究