基于随机森林的登革热时空扩散影响因子等级体系挖掘

2017-05-13 08:01陈业滨李卫红黄玉兴梁雪梅
湖北农业科学 2017年7期
关键词:随机森林登革热数据挖掘

陈业滨+李卫红+黄玉兴+梁雪梅

摘要:为了克服经典统计学模型在定量研究各风险因子对登革热影响程度时存在的无法顾及非线性的风险因子、不能解释因子之间所具有的复杂相互作用关系等缺陷,研究基于时空数据挖掘理论,综合选取了与登革热有关的4类共25个潜在风险因子,采用Pearson相关性分析对风险因子进行初步筛选;利用随机森林算法对登革热及其潜在风险因子进行训练,挖掘影响登革热发生、扩散的风险因子,确定风险因子的等级排名体系。结果表明,采用随机森林比传统的线性模型具备更优秀的数据挖掘能力;登革热风险因子的风险等级排名由高到低分别为第一等级(人口密度、居民地、左邻域、右邻域);第二等级(下邻域、上邻域);第三等级(道路、左下邻域、右上邻域、右下邻域、左上邻域、降雨量、O3、PM2.5、PM10、CO、NO2、池塘);第四等级(温度、农用地、林地)。随机森林模型可很好地挖掘并量化影响登革热的各类风险因子,解释各风险因子间的相互关系。

关键词:登革热;风险因子;随机森林;时空扩散;数据挖掘

中图分类号:R512.8 文献标识码:A 文章编号:0439-8114(2017)07-1250-07

DOI:10.14088/j.cnki.issn0439-8114.2017.07.013

Rating System Development of Spatio-temporal Diffusion Risk Factors on Dengue Fever Based on Random Forests

CHEN Ye-bin1,LI Wei-hong1,HUANG Yu-xing1,LIANG Xue-mei2

(1.School of Geographical Sciences, South China Normal University, Guangzhou 510631,China;

2.School of Geographical Sciences, Xinjiang University, Urumqi 830046,China)

Abstract: Previous researches on dengue fever(DF) mostly adopted the classical quantitative statistical model,but it is hard to consider nonlinear presence of risk factors and to explain their complex interaction relationship. To solve these problems,25 potential risk factors of DF were chosen and screened preliminarily by Pearson correlation method,and potential risk factors that lead to occurrence and diffusion of DF were found out by random forest(RF),and their quantitative evaluation system was also determined. The results showed that data mining ability of RF was better than classical linear model. The risk factors of DF were divided into 4 grades according to its risk to DF from big to small, the first grade included population density,residential distribution,left neighborhood and right neighborhood; the second grade included lower neighborhood and higher neighborhood;the third grade included road,left lower neighborhood, right higher neighborhood, right lower neighborhood,left higher neighborhood,rainfall,O3,PM2.5,PM10,CO,NO2 and pond; the fourth grade included temperature, agricultural land and woodland. In conclusion,RF model could effectively explore and quantify the impacts of various risk factors of DF,and explain the relationship among the various risk factors.

Key words: dengue fever; risk factors; random forest; spatio-temporal diffusion; data mining

登革熱(Dengue fever,DF)是一种由登革1、2、3和4型病毒引起的危害性极大的急性蚊媒传染病,主要通过伊蚊进行传播,广泛流行于全球热带和亚热带的100多个国家和地区[1-4]。近年来,登革热传播速度及破坏力呈现明显上升趋势。据统计,登革热在全球范围内年发病数量已高达千万例,年均死亡人数超过2万人。

登革热的传播主要受社会人文、周边邻域、气象、环境以及用地类型分布等风险因子的影响[5-15]。研究登革热疫情的发生、扩散的风险因素是控制疫情的有效方法,也是目前登革热疫情控制研究的重点和热点[5]。近年来已有不少学者对登革热风险因子进行分析与挖掘,探究影响登革热发生、扩散的影响因素。国外方面,Méndez-Lázaro等[10]、Cheong等[11]、Sheela等[12]采用逻辑回归方法分析湿地类型、气候因子与登革热的风险关系;Hsueh等[13]利用地理加权回归模型识别人口密度、交通网络、水体对登革热的风险影响;?魡str?觟m等[14]利用半参数广义加权模型和逻辑连接函数对登革热潜在风险因子进行了研究,确定经济发达地区具备高致灾风险性;国内方面,王成岗[9]利用零膨胀Poisson回归模型挖掘登革热风险因子,发现温度、降雨因素对登革热存在重要影响;李森等[16]通过广义线性模型探究登革热风险因子,发现以湿地为主的草场是登革热病例存在的重要因子;易彬樘等[17]通过调查分析方法研究静态水体对登革热的风险影响。

现有研究在风险因子的探究方面尚未见将社会人文、周边邻域、气象、环境、用地类型等因素进行综合考虑,探究登革热与各风险因子之间的依存关系,并对诸多风险因子进行风险等级判别;在模型选择上主要采用传统的统计学模型,模型变量过度依赖依存因子的定量精度,无法顾及一些非线性的依存因子以及解释变量之间所具有的复杂相互作用关系。随机森林(Random forests,RF)是一种基于统计学习理论的组合分类智能算法[18],它采用Bootstrap重抽样方法进行样本选取,构建分类树,进而对所有分类树的预测结果进行组合投票得出最终结果。这种方法能够克服变量之间所存在的多重共线性,确定计算变量的非线性作用。RF具备指标重要性评估方式,能够通过特征重要性度量,实现重要特征选取,最终确定各风险指标对登革热的风险贡献度。正确识别登革热风险因子,确定风险因子等级排名体系,有助于公众及政府机关全面认识登革热流行的风险因素,有利于合理配置防控资源,提高登革热防控措施的及时性与有效性。

本研究以广州市中心区为例,主要采用随机森林算法剖析社会人文因素、邻域因素、气象因素、环境因素以及用地类型分布等潜在风险因子对登革热的影响,进行影响重要性对比分析,制定风险因子等级排名体系。

1 数据与方法

1.1 研究区域

研究区位于23°1′52″-23°26′6″ N,113°8′42″-113°35′50″ E,包含越秀、荔湾、海珠、天河、白云、黄埔、萝岗共7个区县(以下简称主城区,图1),属亚热带季风气候,年平均日照时间1 370~1 490 h,年平均温度20~22 ℃,年降雨时间150 d左右,年平均降雨量在1 800 mm以上。研究区总面积1 471.55 km2,包含116个街道,总人口数量超过800万人。2014年,广东省暴发了感染登革热病例的疫情,此次疫情广州市受灾最为严重。截至2014年11月,广州市累计报告登革热病例达36 934例,其中研究区内累计报告病例31 981例,占全广州市的86.6%。

1.2 数据

1.2.1 登革热数据 数据采用广东省疾病预防控制中心提供的2014年广州市主城区登革热感染者数据,共计31 981例,时间1-11月。基于格网单元的发病率图具备信息表达充分的特点,因此本研究采用格网单元对登革热病例数据进行空间化处理,将登革热病例数据分配到1 km×1 km的格网单元上,生成登革热疫情分布情况(图2)。

1.2.2 气象数据 获取分布于主城区的20个雨量监测站的降雨监测数据(数据来源于广东省水利厅),站点的空间位置如表1所示;采用反距离加权法(IDW)将站点数据插值为连续的雨量分布数据。

1.2.3 环境数据 获取分布于主城区20个环境监测站的2014年环境监测数据(数据来源于广州市环保局),时间1-12月,时间步长为1个月,每个站点检测的污染物包括SO2、NO2、PM10、PM2.5、CO、O3共6类,采用IDW插值法对环境监测数据进行插值。研究区环境监测数据插值结果如图3所示。

1.2.4 社会人文数据 研究区包含116个街道,总人口数为8 101 691人,人口统计数据如表2所示(数据来源于广州市2014年统计年鉴)。为了避免传统人口数据按区域采样的不足,提高分析结果的准确性,采用面积分配法,将街道人口数据按居民住宅总面积分配到建筑物上,保证人都在居民区上,如式(1)所示。

Ri=Mi×Li×■ (1)

式中,i为街道建筑物编号,Ri为第i栋建筑的人口数,Mi为第i栋建筑基底面积,Li为第i栋建筑楼层数,R为街道总人口数,n为街道范围内建筑数量。

1.2.5 用地类型数据 2014年Spot 2.5 m卫星遥感影像图,研究区内2014年基础地图矢量數据。按土地利用类型将用地分为8类,分别为林地、农用地、草地、公共绿地、河流、池塘、居民地和道路,具体分类见图4。

1.3 研究方法

1.3.1 空间自相关分析 登革热的传播模式为人-蚊-人[19],登革病毒以蚊媒为载体,将病毒传播到易感者体内。当传播现象发生时,感染者与易感者的活动范围存在空间重合。这种传播特征导致登革热病例存在空间自相关特征,需要对其进行定量分析。

空间自相关程度以全局Morans I(Global Moran Index)表示,公式为:

I=■ (2)

式中,n为样本量,即空间位置的个数;Xi、Xj表示空间位置i和j的观察值,X 表示观察值的均值,Wij表示空间权重矩阵。对于Morans I,可以用标准化统计量Z检验n个区域之间的空间自相关关系,公式为:

Z(I)=■ (3)

式中,E(I)表示Morans I值的期望值;Var(I)表示Morans I值的方差。一般当|Z|>1.96,拒绝零假设,即在95%的概率下,存在着空间自相关。

1.3.2 随机森林 随机森林是一种基于统计学习理论的组合分类智能算法,其基本思想是把多个具备互补作用的弱分类器集合起来组成一个强分类器。通过降低单个分类器错误的影响,从而提高模型分类准确率和稳定性。

随机森林是具备非线性特点的建模工具,具备高预测准确率,分类结果准确,稳定性强,不易过拟合,对异常值和噪声具有优容忍度等特点,对解决多变量预测及分类问题具有很好的效果[20]。在模型构建过程中,RF可确定变量重要性特征,决定特征选择变量。

1)原理及生成步骤。RF是由树型分类器集合{h(X,?兹k),k=1,…,n}组合而成的分类器,其中参数?兹k为独立同分布的随机向量。在分析过程中,每棵树对输入向量X所属的最受欢迎类进行投票,确定模型的最优分类结果。

RF生成步骤如图5所示。从总训练样本集中通过Bootstrap抽样随机抽取k个子训练样本集,建立决策分类子树模型;随机从分类树每个节点的n个指标中选取m个,按照最优分割指标进行分割;重复上一步遍历K棵分类子树,确定多个分类结果;投票表决决定最终分类结果。

2)风险指标重要性计算。RF采用Bagging算法集成训练集,假设训练样本足够大时,约有36.8%的样本不会出现在Bootstrap采样子集中,这部分数据称为OOB(Out-Of-Bag)数据。OOB数据可对决策子树模型进行评估,确定决策子树的错误分类率,即OOB误差。RF模型中的OOB误差具有无偏性特征,计算比交叉验证法更为高效。

风险指标的重要性计算方法主要有以下两种:

①计算每棵树的原始OOB误差(EOOB1)以及对风险因子i加入噪声后的OOB误差(EOOB2),再将两者的差对所有决策子树做平均,采用标准差归一化,得出风险指标i的重要性。在RF中采用IncMSE进行量度,公式为:

IncMSE=■■(EOOB2-EOOB1)/EOOB1 (4)

②通过分析森林中所有节点的风险指标i在节点分割时的基尼指数减少值D的总和后对所有树取平均,确定风险指标i的重要程度,在RF中采用IncNodePurity进行量度,公式为:

IncNodePurityk=■×100% (5)

式中,m、n、t分别是总指标个数、分类树棵数和单棵树的节点数,Dkij是第k个指标在第i棵树的第j个节点的Gini指数减小值,IncNodePurityk为指标在所有指标中的重要程度。

本研究选取第二种方法作为登革热风险因子的重要性评价的评判标准。

决策子树与预选变量数量的不同会影响随机森林的强度及相关性,影响结果精度。因此在风险因子筛选时,需要对比不同决策子树及预选变量数下的测试结果,从而确定最优决策子树及预选变量数目。图6分别显示了在不同预选变量及决策子树个数情况下的误差情况,最终选取预选变量数5和决策子树数量600作为随机森林的2个参数。

2 结果与分析

2.1 空间自相关分析

一般认为当P小于0.05,|Z|值大于1.96时,则拒绝零假设,表示在95%的概率水平下,存在空间自相关特征。结果表明,登革热具有强空间相关性,其全局Morans I值为0.649 2,P为0.000(小于0.01),Z为51.994 2。因此在进行风险因子分析时,需充分考虑邻域因子之间的相互作用性,将邻居格网的登革热病例纳入分析的范畴。

2.2 空间相关性分析

登革热的传播与扩散在空间上受到多种因素的综合影响,如用地类别因素、环境因素、气象因素、人口密度、邻域因素等。采用空间相关性分析,可初步得出登革热传播扩散的风险因子。

从表3可以看出,人口因素与登革热存在强烈的正相关关系,相关系数为0.765;其次是道路、居民地、邻域因子(共8个),温度、降雨、NO2、PM10、PM2.5与登革热有较强的正相关性,农用地、林地、CO、O3与登革热具有负相关性,而草地、公共绿地、河流、SO2与登革热的相关关系不明显。

2.3 随机森林

结果显示,当预选变量数为5,决策子树数量为600时,RF模型对登革热分析结果的均方根误差(RMSE)仅为0.055 678(数据已做标准化),风险因子对登革热具备72.25%的解释能力。相较于传统的前向逐步回归模型(解释能力为66.20%,RMSE为0.061 255),RF模型具有更强的解释能力,对于登革热发生与扩散的解释效果更为优秀。

RF模型分析得出各个风险指标的重要性程度,以重要性程度1%、5%、10%为节点对指标等级进行划分,共得出4个风险因子等级。从表4可以看出,人口、居民地分布、右邻域、左邻域是影响登革热传播的第一级别风险因素;下邻域、上邻域是影响登革热传播的第二级别风险因素;道路、右上邻域、左下邻域、右下邻域、左上邻域、降雨、O3、PM10、PM2.5、CO、池塘、NO2為第三级别风险因素;温度、农用地、林地为第四级别风险因素。第一与第二风险等级的总贡献率达71.49%。其中人口因素贡献程度最大,重要程度达19.08%,居民地分布次之,重要程度为11.41%。

3 讨论

本研究基于前人的研究成果,综合考虑了社会人文因素、周边邻域因素,气象因素、环境因素、以及用地类型等共25个潜在风险因子。将随机森林模型引入登革热风险因子评价中,构建登革热风险因子等级排名体系。

3.1 随机森林与风险因子评估

研究表明,随机森林具备登革热指标重要性分析功能,能够挖掘出登革热风险因子,确定风险因子等级排名体系。从模型效果上看,随机森林比传统的线性回归模型的数据挖掘能力更强,结果更为准确。

3.2 社会人文因子对登革热的影响

人口因素是登革热发生与扩散过程中最为重要的风险因子之一,重要性占所有因子比重的19.08%,明显高于其他因子,这与?魡str?觟m等[14]强调的登革热主要风险因子为社会经济因子的结论相一致。经济发达地区,人口密度高,登革热易感人群越多,病毒的携带者与传播者也容易增多,导致登革热发病率迅速升高。因此在登革热防控过程中应该重点监控人口密度高、社会活动频繁、经济发达的地区。

3.3 周边邻域因子与盛行风向对登革热的影响

地理学第一定律表明,地理空间对象间普遍存在自相似性特征,距离越近的物体,相似程度越高。本研究将格网周边8个邻域作为风险因子,共同探究周边区域对登革热传播扩散的影响。研究结果表明,邻域因子是登革热发生与传播的另一个重要风险因子,其中与区域有直接边界接触的格网(上、下、左、右4个邻域)对登革热的影响程度最高,重要程度分别为9.37%、9.50%、10.86%、11.27%,其次是周边4个角点的格网(左上、左下、右上、右下4个格网),重要程度分别为2.44%、3.33%、3.33%、2.85%。这表明登革热的流行与暴发存在着区域效应,登革热疫情会受到周边区域的影响,所以在加强对登革热的防控时,应该随时监控周边区域登革热的传播扩散态势。

另一方面,格网的周边邻域对区域的影响不一,对区域登革热有显著影响的邻域为右邻域、左邻域、下邻域、上邻域、左下邻域、右上邻域共6个邻域,而左上邻域及右下邻域对区域的影响则相对较弱,该现象与广州的夏季盛行风向(东南风)相吻合,在盛行风向上的邻域对区域的影响程度显著弱于其他邻域。此现象表明,风向及风力大小对登革热疫情的传播扩散存在着不可忽视的影响。

3.4 用地因子对登革热的影响

登革热的流行与居民地、交通道路分布存在显著的正相关性,池塘的分布对登革热产生具有一定作用,林地与农用地的分布对登革热的影响不明显。这与Hsueh等[13]的研究结论一致,居民地、交通、水体对登革热的发生及扩散具有重要驱动作用。进一步证明登革热的防控应该重点围绕经济发达、人口密度高、交通便捷地区。另一方面池塘作为静止水源地,容易受到人为污染,为媒介蚊虫提供理想的孳生环境,因此在登革热防控过程中,应该注意池塘等静止水体的清洁卫生,防止蚊虫孳生。

3.5 环境因子对登革热的影响

环境因子方面,O3与CO对登革热存在抑制作用,NO2、PM10、PM2.5对登革热存在激励作用,总体而言气候因子对登革热的影响大小排序为O3>PM2.5=PM10>CO>NO2。登革热病毒主要由伊蚊作为媒介进行传播,而O3、CO浓度的升高对伊蚊的繁殖具有一定的抑制作用;另一方面NO2、PM10、PM2.5等污染物的升高,表明城市的环境卫生条件恶化,容易促使流行区发病率的增加。

3.6 气象因子对登革热的影响

气象因子方面,降水因素对登革热的影响高于环境因子。在夏秋季节降水量多时,也是登革热高发期。因此在降水量高的夏秋两季,应对登革热进行重点防护。另一方面,由于溫度与降雨等气象因子对蚊虫孳生的影响存在滞后性,因此本研究得出温度因子对登革热的传播仅具有较弱的影响效力。

3.7 登革热风险因子等级排名体系

登革热的风险因子等级排名如下:第一等级(人口>居民地>右邻域>左邻域);第二等级(下邻域>上邻域);第三等级(道路>右上邻域=左下邻域>右下邻域>左上邻域>降雨>O3>PM10=PM2.5>CO>池塘=NO2);第四等级(温度>农用地>林地)。

登革热的发生与扩散主要受到人口分布及周围邻域的影响,这是登革热产生及流行的重要风险驱动因子。交通因素作为城市化水平的基本指标之一,在促进所在区域经济发展的同时,大大加快了人与人之间的活动交流,容易导致登革热在人口密度高的地区迅速扩散蔓延。环境因子在登革热产生与传播过程中起到了较为重要的作用,O3、CO对登革热存在显著的抑制作用,而NO2、PM10、PM2.5对登革热的扩散具有明显的激励作用。气象因子对登革热的扩散存在一定的影响,其中降雨量的多少对登革热的影响较为明显,就小区域范围而言,降雨量对登革热的激励作用显著高于温度。在用地类型因素中,池塘的分布与登革热的产生存在弱相关性,激励作用略弱,而农用地、林地等的分布则对登革热的影响不明显。

登革热作为一种通过“人-蚊-人”进行传播的传染性疾病,其主要风险因子在于人口密度,周边邻域的登革热发展情况以及交通。在全球化背景下,城市地区人口密度迅速增加,城市居民的日常活动交流日趋频繁,因此更加需要密切关注登革热病例的产生,一旦发现登革热病例,应当尽早将患者进行隔离治疗,防止登革热的进一步扩散传播。

3.8 结论

随机森林模型可很好地挖掘影响登革热的各类风险因子,量化各风险因子对登革热的影响程度,解释各风险因子间的相互关系;人口密度、周边邻域登革热状况对登革热影响最大。登革热作为一种强传播性疾病,在人口密集的城市地区,应及时收治感染人员进行隔离治疗,防止登革热的进一步扩展蔓延。研究结果可为疾病控制部门预防登革热提供参考,控制登革热爆发。随机森林模型同样适用于其他传染性疾病的时空扩散挖掘研究。

参考文献:

[1] 张海林,张云智,冯 云,等.云南省2005年登革热监测分析[J].中国热带医学,2006,6(7):1162-1163.

[2] 樊景春,林华亮,吴海霞,等.广东省2006-2011年登革热时空分布特征[J].中国媒介生物学及控制杂志,2013,24(5):389-391.

[3] IPCC. Climate change 2007:The Physical Science Basis.Contribution of Working Group I to the Fourth Assessment Report of the Intergovernmental Panel on Climate Change[M].Cambridge, UK:Cambridge University Press,2007.

[4] 毛祥华,张再兴.中国登革热的流行现状[J].中国病原生物学杂志,2007,2(5):385-388.

[5] 李卫红,陈业滨,闻 磊.基于GA-BP神经网络模型的登革热时空扩散模拟[J].中国图像图形学报,2015,20(7):981-991.

[6] 封 静,潘安定.广州气温变化特征及其与城市化进程的关系[J].广州大学学报(自然科学版),2011,10(6):89-94.

[7] 何隆华,周明浩,褚宏亮,等.遥感技术在蚊媒传染病研究中的应用进展[J].中国媒介生物学及控制杂志,2014,25(2):184-188.

[8] HALSETEAD S B. Dengue haemorrhagic fever-A public health problem and a field for research[J].Bull World Health Organ,1980,58(1):1-22.

[9] 王成岗.广东省登革流行特征及气象因素对广州市登革的影响研究[D].济南:山东大学,2014.

[10] M?魪NDEZ-L?魣ZARO P,MULLER-KARGER F E,OTIS D,et al. Assessing climate variability effects on dengue incidence in San Juan,Puerto-Rico[J].International Journal of Environmental Research and Public Health,2014,21:9409-9428.

[11] CHEONG Y L,BURKART K,LEIT?魨O P J,et al. Assessing weather effects on dengue disease in Malaysia[J].International Journal of Environmental Research and Public Health,2013, 10:6319-6334.

[12] SHEELA A M,SARUN S,JUSTUS J,et al. Assessment of changes of vector borne diseases with wetland characteristics using multivariate analysis[J].Environ Geochem Health,2015, 37:391-410.

[13] HSUEH Y,LEE J,BELTZ L. Spatio-temporal patterns of dengue fever cases in Kaoshiung City,Taiwan,2003-2008[J].Applied Geography,2012,34:587-594.

[14] ?魡STR?魻M C,ROCKL?魻V J,HALES S,et al. Potential distribution of dengue fever under scenarios of climate change and economic development[J].EcoHealth,2012,9(4):448-454.

[15] SARFRAZ M S,TRIPATHI N K,TIPDECHO T,et al. Analyzing the spatio-temporal relationship between dengue vector larval density and land-use using factor analysis and spatial ring mapping[J].BMC Public Health,2012,12:853.

[16] 李 森,陶海燕,秦 雁,等.基于遙感与地理信息技术的登革热环境风险因子标识[J].中华疾病控制杂志,2010,14(9):869-873.

[17] 易彬樘,张治英.中国登革热流行及控制概况[J].中国公共卫生,2002,18(9):1128-1130.

[18] BREIMAN L. Random forests[J].Machine Learning,2001, 45(1):5-32.

[19] 张海林,自登云,龚自达.云南省登革热流行病学调查分析[J].地方病通报,1999,14(3):50-54.

[20] 赵铜铁钢,杨大文,蔡喜明,等.基于随机森林模型的长江上游枯水期径流预报研究[J].水力发电学报,2012,31(3):18-24,38.

猜你喜欢
随机森林登革热数据挖掘
一类具变系数交错扩散的登革热模型
登革热流行现状及诊疗进展
健康教育在登革热患者中的应用效果观察
基于并行计算的大数据挖掘在电网中的应用
拱坝变形监测预报的随机森林模型及应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究