传统村落智能评估模型的设计与实现

2020-05-26 12:04耿艳妍
小城镇建设 2020年3期
关键词:决策树村落算法

耿艳妍

摘要:2019年6月,伴隨第五批中国传统村落名单的公布,全国共有6819个有重要保护价值的村落列入中国传统村落名录。在认定评审的指标体系中定量与定性评估指标参半,无可量化的评估指标体系,更缺少智能化的评估方法。文章收集整理了6000余个优秀村落的相关数据,维度包含村落的基础特征、村落历史、自然环境、选址格局、传统建筑、民俗文化六个方面。基于此数据集,采用机器学习中的监督学习方法——决策树,研究构建传统村落智能评估模型,预测村落对象是否符合中国传统村落的评价要求。同时,依据模型中各变量的关键度量值,阐述传统村落认定评估中处于关键地位的可量化特征属性,探索建立可量化的评估指标体系。此智能评估模型可作为专家评审的有力补充,提高认定工作的效率,增加认定的及时性、准确性。省、市级传统村落的评估也可借鉴此研究使用的决策树算法,基于省、市级传统村落的样本数据,构建省、市级传统村落智能评估模型,为各级政府的传统村落评估做智慧化的技术支撑。

关键词:传统村落;评估模型;机器学习;决策树;C5.0算法;R语言

doi:10.3969/j.issn.1009-1483.2020.03.011 中图分类号:TP391.41/TU982.29

文章编号:1009-1483(2020)03-0066-07 文献标识码:A

Design and Implementation of Traditional Village Intelligent Evaluation Model

GENG Yanyan

[Abstract] In June 2019, with the announcement of the fifth batch of Chinese traditional villages, a total of 6819 villages with important protection values have been included in the list of traditional villages in China. The quantitative and qualitative evaluation indicators are mixed in the identified evaluation index system. There is no quantifiable evaluation index system, and the lack of intelligent evaluation methods. In this paper, the author has collected and sorted out relevant data of more than 6,000 outstanding villages. The dimensions include the villages basic characteristics, village history, natural environment, site selection pattern, traditional architecture, and folk culture. Based on this data set, the decision tree, which is a supervised learning method in machine learning, is used to study and build a traditional village intelligent evaluation model to predict whether the village objects meet the evaluation requirements of Chinese traditional villages. At the same time, according to the key measurement values of each variable in the model, the quantifiable characteristic attributes, which are in a key position in the traditional village identification evaluation, are described, and a quantifiable evaluation index system is explored and established. This intelligent evaluation model can be a powerful supplement to expert review, improve the efficiency of identification work, and increase the timeliness and accuracy of identification. The evaluation of provincial and municipal traditional villages can also draw on the decision tree algorithm used in this research. Based on the sample data of provincial and municipal traditional villages, an intelligent assessment model of provincial and municipal traditional villages can be built as an intelligent technical support.

[Keywords] traditional village; evaluation model; machine learning; decision tree; C5.0 algorithm; R language

引言

2019年6月,伴随第五批中国传统村落(以下简称“传统村落”)名单的公布,传统村落大家族又新增了2666个新成员,传统村落的数量达到6819个。五批传统村落覆盖除港、澳、台之外的所有省份,涵盖全国309个地级市,形成了世界上规模最大的农耕文明聚集群。传统村落作为传统文化的有机载体,其保护发展受到国家的高度重视,自2012年以来,累计展开五次传统村落的摸底调查工作。由于传统村落价值的多样性及综合性,评审工作选择来自城乡规划、建筑学、文化遗产、社会学、艺术等不同领域的资深专家组成,专家综合打分后作出认定结论,这造成认定评审受主观因素影响较大,评分标准不一致,效率不高。本文意图通过分析,获得传统村落可量化评估的主要指标,建立传统村落的智能化评估模型,辅助不同阶段的传统村落评价,提高传统村落评估工作的效率,增加传统村落评估的准确性。

模型建立的基础来源于6241个村落的结构化数据,数据维度包括:是否为传统村落、所属省、所属市、所属县、所属镇、地形地貌、民族、村落形成年代、族谱、历史人物、历史环境要素的数量、古树群、传统建筑总占地面积、传统建筑的数量、文保单位的最高等级、宗祠、非遗项目的最高等级。模型采用的算法是机器学习中的监督学习算法——决策树,它的优势是易于理解,产生的模型为树状结构,容易用实际的逻辑关系进行表意。另一方面作为监督学习方法,算法本身要求样本数据有分类结论,结构化村落数据集中的“是否为传统村落”字段即可作为分类结论。根据以上两方面的分析,故采用决策树的算法。建立的模型可实现计算机智能判断村落是否满足传统村落的要求,同时可获得传统村落评估中主要的定量指标。

1传统村落评估的理解

住房城鄉建设部最初于2012年开展认定传统村落保护名录的工作。为评价传统村落的保护价值,认定传统村落的保护等级,同年公布《住房城乡建设部等部门关于印发传统村落评价认定指标体系(试行)的通知》(建村〔2012〕125号)。《传统村落评价认定指标体系(试行)》是传统村落认定评审的依据基础。此指标体系从传统建筑、村落选址和格局、村落承载的非物质文化遗产三大类描述认定指标。每大类指标的权重比例系数相同,且大类部分又包含详细的定性评估指标与定量评估指标,具体如下。

(1)村落传统建筑评价指标

描述村落中现存的、有价值的传统民居、历史建筑、文物古迹的情况。定量指标有村落传统建筑(群)的最早修建年代、文物保护单位等级、占地面积、传统建筑用地面积占全村建设用地面积比例、建筑功能种类(见表1)。另外定性指标为传统建筑(群)的保存情况、建筑的美学价值、传统建造工艺的传承。

(2)村落选址和格局评价指标

描述村落与周围自然环境和谐共生的关系,村落空间结构及格局机理很好地融入自然环境,村落选址及规划体现的文化价值、科学价值。定量指标主要是村落选址形成的年代、历史环境要素种类(见表2)。

(3)村落承载的非物质文化遗产评价指标

描述非物质文化遗产的价值,与村落及其周边环境的依存程度,以及它的传承情况。定量指标包括非物质文化遗产级别、非物质文化遗产种类、传承时间、传承活动规模、代表性传承人级别(见表3)。

进入2017年7月,住房城乡建设部发布《住房城乡建设部办公厅关于做好第五批中国传统村落调查推荐工作的通知》,展开第五批中国传统村落调查推荐工作。明确传统村落的定义:传统村落是指村落形成较早,拥有较丰富的传统资源,现存比较完整,具有较高历史、文化、科学、艺术、社会、经济价值的村落。分析第五批传统村落评价认定的要求,在村落的传统建筑、非物质文化遗产及选址格局三方面的要求基本保持不变,增加村落历史文化的要求。强调村落在政治、经济、文化、交通、军事等方面的重要地位,发生的重要事件及村落中走出的优秀的历史人物。参考《第五批传统村落调查推荐表》关于村落历史部分的内容,挖掘具有代表性的村落历史评估指标,且要求指标是可以量化的,初步选定村落形成年代、是否有族谱、村落的科举榜作为历史价值的衡量指标。传统建筑、选址格局、非物质文化遗产三个方面则结合《传统村落评价认定指标体系(试行)》的定量指标与《第五批传统村落调查推荐表》共同获得可量化的评估指标。村落中除村落形成年代,还存在传统建筑(群)的修建年代、村落现存选址的形成年代,三个年代相似度较高,故只选择村落形成年代作为评估指标。经过深入严谨的分析,最终确定村落的基本特征、村落历史、自然环境、选址格局、传统建筑、民俗文化这六个方面构成了传统村落量化评估体系(见表4)。

2模型算法的确定

依据分析数据已给出研究实例的结论类别,即是否为传统村落,构建评估的模型在分类方法中选择。分类方法属于机器学习中的监督学习,可考虑的算法包括单一结构的决策树算法,由多个决策树组成的随机森林算法。由于分析数据的维度相关性较低,且不是高维度,同时要求结论可视化,容易解释,可提取出规则,故选择决策树作为模型建构的基本方法。决策树与随机森林比较的劣势为容易发生过于拟合的问题,后面会通过剪枝的方式避免问题的发生。

决策树是最常用的分类方法,用来构建预估、预测模型。决策树模型呈树状结构,是基于特征对于实例进行分类的过程,可认为是if-then规则的树状表达。其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。它的学习过程如下。

第一步特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准;

第二步决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止;

第三步剪枝:决策树容易过度拟合,需要剪枝来缩小树的结构和规模。

目前比较流行的决策树的算法有ID3、C4.5/ C5.0、CART等,算法的主要差异在于分裂标准也就是特征选择(见表5)。

依据对传统村落评估的理解,决策树不适宜选择二叉树,树的分裂更适宜采用信息增益率的分裂标准,故确定利用决策树中的C5.0算法构建模型,分析工具选用R语言的C50算法包。

3评估模型的设计与实现

3.1数据预处理

分析传统村落数据集的内容,再结合传统村落评定的指标体系,确定可量化的指标及“是否为传统村落”组成模型的x与y变量(见表6)。

少数民族村落是传统村落大家族的一部分,它是少数民族传统文化的家园,承载着多彩的少数民族文化,也是少数民族农耕文明的精髓。民族规模越小,人口越少,村落更应受到关注与保护。变量“民族”就是依据于此,描述少数民族规模的差异,按照2010年第六次人口普查的数据,将少数民族按照人口不同阶段划分为1万人以下的少数民族,1万~10万人、10万~100万人、100万元以上的少数民族。

在《第五批传统村落调查推荐表》中明确要求村落填写村落历史人物信息,说明其历史人物的重要程度。在百度搜索中输入“进士村”,约有52万条相关结果,且百度地图可以找到全国38个进士村,进士村作为一个标签,代表村落重视教育风化,坚持耕读传教,村落历史文化积淀深厚。科举制是中国古代选拔官吏的制度,始于唐朝。变量“科举榜”记录在村落历代是否走出过进士或者一甲(状元、榜眼、探花),用此量化数值代表村落历史文化的等级。

使用SQL语言工具,利用分组、包含等统计方法,删除无效数据,获得变量取值。预处理完毕后共形成4964条合格的样本数据。

3.2算法模型构建与修剪

在样本数据中,90%作为训练集,10%作为测试集。起初建立的决策树过度分割样本空间,层次较深,泛化能力较差,需要对决策树进行剪枝。在分析过程中进行剪枝如下。

由于x变量“传统建筑总占地面积”与“传统建筑的数量”的相关性较大,删除“传统建筑总占地面积”变量。

“村落形成年代”“地形地貌”与是否入选传统村落关联性较小,在样本数据集中删除。

“民族”的细分离散值改为少数民族(0)、汉族(1)两类。

“传统建筑的数量”“历史环境要素的数量”采用连续性数值,导致树结构过于复杂,故通过计算数列分布的四分位数,以四分位数为分割点,连续数值转换为离散数值(见表7)。

变量及内容调整后,当C50模型的参数CF取值0.25,minCases =10,获得较理想的模型结果(见图1)。决策树大小为18,错误率为26.8%。

3.3模型评估

用10%的样本数据测试算法模型。交叉验证后,生成混淆矩阵结论(见表8)。

准确率:(114+591)/(114+75+184+591)≈ 73%

召回率:114/189 ≈ 60%。

模型分析评估结果准确率73%,初步判定问题所在为评估体系六个方面之一的格局风貌,研究中对它的量化指标只有“传统建筑的数量”,而此指标描述的是建筑群的规模,无法反映村落空间结构肌理,无法准确描述村落的传统风貌,巷道的空间尺度及铺装等特征,故评估结论预想提高,需加入更多描述村落空间格局与村落风貌的量化指标。

3.4规则产生

模型树的结构展示了智能评估的逻辑过程,评估指标中的基本特征、村落历史、自然环境、选址格局、传统建筑、民俗文化六类指标均衡的存在于模型树中,但关键特征属性值不同。树的首节点为“传统建筑的数量”,表达了传统建筑的规模在评估中的重要地位。当“传统建筑的数量”小于7,近80%的村落未入选国家级传统村落。当“传统建筑的数量”大于15,且“文保单位的最高等级”是国家级、省级的村落,近70%入选传统村落名录,如果没有国家级或者省级文保单位,村落中有古树群,入选传统村落名录的可能性达到70%。当“传统建筑的数量”大于7且小于15,如果村落无族谱,近70%的村落未入选国家级传统村落。当“传统建筑的数量”大于7且小于15,但历史环境要素较少的村落,即使有族谱,也有70%的村落未入选国家级传统村落。其他情况均需要更多的特征属性组合逻辑完成评估(见图2)。同时,村落的地形地貌、村落形成年代对村落评价影响极小,不参与评估模型的计算。

利用C50包中的C5imp函数,获得模型中各变量的关键度量值,其中“传统建筑的数量”是最关键的特征属性,且量化数值遥遥领先,约是第二位“历史环境要素数量”的3.5倍。历史沉淀中的“族谱”“科举榜”,民俗文化中的“非遗项目的最高等级”也都是评估的关键特征属性,其关键度量值相近,关键特征的属性相仿。从指标值的角度看,村落有传统村落建筑群,村落中有国家级文保单位,村落中承载国家级非物质文化遗产,村落中的科举榜(状元、榜眼、探花),都可能成为认定传统村落的核心内容。同时,村落是否有宗祠、村落是否為少数民族的关键特征属性较弱,对村落评价影响也较低(见图3)。

4總结

我国幅员辽阔,地域特色丰富,传统村落分布较分散,且数量较多,挖掘有价值的村落难度较大。随着传统村落保护工作的开展,传统村落的衡量标准也在逐步完善,需要指标体系可量化、可实施,能更精确、快速地判断村落的价值。构建科学、智能的评估算法模型,可服务于传统村落保护工作的各个阶段。在认定评价中,无人工干预的完成评估过程,这改变了以专家评审为主要方式的传统村落认定评审工作的模式。智能化评估模型作为专家评审的有力补充,可提高认定工作的效率。对于想申报传统村落的优秀村落,使用此模型做预评估,评估结论可指导申报推荐内容的填写。评估模型也可用于中国传统村落保护的实施评估,发现传统村落保护、发展与利用的问题,为管理部门的决策做依据。

另一方面,省、市级传统村落评估也可借鉴此模型,采用C5.0分类算法,应用省、市级传统村落的样本数据,构建省、市级传统村落智能化评估模型。为省、市政府的传统村落评估做智慧化的技术支撑。

参考文献:

[1]中华人民共和国住房和城乡建设部.住房城乡建设部等部门关于印发《传统村落评价认定指标体系(试行)》的通知[EB/OL].(2012-08-22)[2019-08-22].http://www.mohurd.gov.cn/ wjfb/201208/t20120831_211267.html.

[2]中华人民共和国住房和城乡建设部.住房和城乡建设部等部门关于公布第五批列入中国传统村落名录的村落名单的通知[EB/OL].(2019-06-06)[2019-07-06].http://www.mohurd.gov.cn/ wjfb/201906/t20190620_240922.html.

[3]王云才,郭焕成,杨丽.北京市郊区传统村落价值评估及可持续利用模式探讨——以北京市门头沟区传统村落的调查研究为例[J].地理科学,2006,26(6):735-742.

[4]林祖锐,丁志华,张杰平.传统村落活态保护评估体系研究——以阳泉市传统村落为例.城市建筑,2019(4):150-156.

[5]程娟,陶金,景涛,等.传统村落评估述评及其未来研究建议.传统村落,2018,36(12):150-156.

[6]屠李,张超荣.传统村落遗产价值评估的理论框架构建[C]//中国城市规划学会.共享与品质——2018中国城市规划年会论文集(09城市文化遗产保护).北京:中国城市规划学会,2018:1080-1089.

[7]赵勇,张捷,李娜,等.历史文化村镇保护评估体系及方法研究——以中国首批历史文化名镇(村)为例[J].地理科学, 2006,26(4):497-505.

[8]赵勇,张捷,卢松,等.历史文化村镇评估指标体系的再研究——以第二批中国历史文化名镇(名村)为例[J].建筑学报, 2008(3):64-69.

[9]肖建莉.历史文化名城制度30年背景下城市文化遗产管理的回顾与展望[J].城市规划学刊,2012(5):111-118.

[10]仇美蓉.旅游型传统村落保护与发展绩效评估影响因子研究——以桂林塘洞村为例[J].现代经济信息,2019(10):479-481.

[11]李虹睿,王晓军,辛亚.省域尺度传统村落文化地理格局评价[J].山西大学学报(自然科学版),2019,42(4):951-961.

[12]屠李,赵鹏军,张超荣.试论传统村落保护的理论基础[J].城市发展研冗,2016,23(10):118-124.

[13]中华人民共和国住房和城乡建设部.住房城乡建设部办公厅关于做好第五批中国传统村落调查推荐工作的通知[EB/OL].(2017-07-28)[2019-07-28].http://www.mohurd.gov.cn/ wjfb/201708/t20170801_232807.html.

[14]曹迎春,张玉坤.“中国传统村落”评选及分布探析[J].建筑学报,2013(12):44-49.

[15]张茹,陆琦.广西传统村落空间分布及影响因素量化解读[J].小城镇建设,2019,37(4):72-79.doi:10.3969/j.issn.1009-1483. 2019.04.011.

[16]刘大均,胡静,陈君子,等.中国传统村落的空间分布格局研究[J].中国人口·资源与环境,2014,24(4):157-162.

[17]康璟瑶,章锦河,胡欢,等.中国传统村落空间分布特征分析[J].地理科学进展,2016,35(7):839-850.

[18]中华人民共和国住房和城乡建设部.住房城乡建设部 文化部 国家文物局 财政部关于切实加强中国传统村落保护的指导意见[EB/OL].(2014-04-25)[2019-07-25].http://www.mohurd.gov.cn/ wjfb/201404/t20140429_217798.html.

猜你喜欢
决策树村落算法
简述一种基于C4.5的随机决策树集成分类算法设计
Travellng thg World Full—time for Rree
油画《村落》
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
引发海啸(下)
决策树学习的剪枝方法
决策树在施工项目管理中的应用