基于多源数据融合的统计数据空间网格化模型研究

2011-08-06 03:33吴建玉
浙江水利水电学院学报 2011年3期
关键词:格网字段统计数据

卢 克,吴建玉

(浙江水利水电专科学校,浙江杭州 310018)

统计数据记录着国家和社会的发展状况,是一个国家和地区最重要、最基本的信息资源,是认识国情(区情)的重要依据.在制定国策(地区政策)、经济发展计划时,将自然资源、人口、环境及社会经济发展等统计数据进行综合分析,是解决区域环境和社会问题,实现地区可持续、科学发展的基本条件.要实现这些数据的综合分析利用,须先要解决统计数据的空间统计单元问题.一般社会经济统计数据是以行政区划为统计单元,经过普查或抽样调查等方法,然后逐级汇总,最终获得的数据综合反映了该行政区某统计指标数据的总和.因此,在与其他数据进行融合分析时存在以下问题:

(1)以行政单元为统计范围所得到的统计数据是该行政单元内统计指标的总数或均值,不能体现统计指标的空间分布特征,缺少单元内部的细节信息;

(2)在进行综合分析时,研究区域不一定与行政单元范围相一致,导致需要先对数据加工处理,加大分析难度;

(3)多源数据融合的基础不同.资源、环境等类型的数据基于的空间单元一般不是行政区划单元,所以与统计数据存在着空间尺度差异,进行融合分析时存在较大难度.

由于统计空间单元的局限,不便于区域专业数据综合开发利用,不能充分利用已有的社会经济统计数据.实践表明,将统计数据空间网格化方法是解决这一问题的有效方法之一.可以将基于行政单元的统计数据离散网格化,这样与基于栅格的空间数据(如遥感、DTM地形数据等)基础相一致,便于开展分析;亦可以通过对网格单元进行组合,形成所需的研究区域.本文针对统计数据网格化的模型进行分析,得出一种利用多源数据进行融合的通用网格化模型.

1 统计数据网格化原理分析

统计数据空间网格化是指将以行政区为空间范围的统计数据按照一定的策略和规则,采用某种计算方法将指标值科学地分配到一定尺度的规则地理栅格上,以便与环境、地形等数据综合使用,最终实现多源数据融合分析功能.研究区域统计数据网格化示意见图1.一般设计的网格尺寸较小,可以反映区域内部细节信息,在GIS空间分析技术的支持下,经过网格化后的数据和派生出来的结果,在时间上形成以网格为基础的时间序列,便于分析其变化规律;在空间上形成网格间的数据梯度,可以进行空间分异规律研究;同时也为和遥感,DEM等栅格数据融合提供了基础[1].

图1 研究区域统计数据网格化示意

社会统计数据可以分为两种类型[4],即和值变量型统计数据和均值变量型统计数据.和值型统计数据是反映一个区域的社会、经济等属性的总量水平的一类统计指标,如:GDP、人口数、第三产业总产值等.均值型统计数据是指反映一个区域的社会、经济等属性的平均水平的一类统计指标,如:人均住房面积、人均国内生产总值、人口密度等.该类指标一般是由两种或多种和值型统计数据经过复合运算而来的.

对于均值变量型统计数据,网格化后的行政单元内的各网格值按面积加权平均值应等于这个统计单元的统计值;而对于和值变量型统计数据,网格化后的行政单元内的各网格值相加总和应等于这个统计单元的统计值.由于矢量面数据的统计指标值不能简单地平均分摊到每个网格单元上,需根据统计指标的特点(专业意义)和其他的影响(限制条件)因子来加以调整,并由其他类型相关数据辅助,找出与统计指标的分布存在较强相关关系的影响因子,通过对这些多源数据进行融合建模,来调整网格化后的统计指标的空间分布,使之更符合空间实际分布情况.

2 多源数据融合网格化模型

2.1 格网单元大小的确定

合理确定格网单元的大小十分重要.网格单元面积选择过大则不能体现网格化的作用,且应用还是存在问题;网格单元面积选择过小则会增大计算的难度,以及与之匹配的多源数据的处理也会存在难度.大量的研究文献资料以及实验得出:在选择格网大小尺度时可以采用源区域单元平均面积大小的 0.2% 进行[4].

2.2 网格化计算模型

下面以人口数据为例,对该网格化模式进行介绍[1].此案例在进行人口数网格化时主要考虑到面积和核心点距离这两个影响因子.这里的核心点数据选取行政单元驻地点.为了使人口密度分布更符合实际情况,这里使用行政驻地点数据为辅助,对单个行政单元内的人口密度分布进行调节,并认为人口密度的分布是由行政中心向外辐射的,离中心越近,密度值越大.

设定V为含有人口数属性的行政区划矢量图层,G为将生成结果的网格单元(栅格)图层.V图层的属性表中有行政单元Vi(i=1,2,…,m)面积的字段A,其值用Ai表示;同时属性表中含有表示人口数的字段C,其值用Ci表示.同时假设G图层有n个网格单元.模型计算流程为:

(1)在V图层的属性表中生成一个单位面积人口数字段T,计算方法如公式(1):

在V图层的属性表中生成两个新的字段Xp、Yp,用来存放其各自单元的行政中心驻地点的坐标.

在G图层的属性表中生成两个新的字段Xc、Yc,用来存放其各自的网格中心点坐标.

(2)对图层V和G进行空间多边形叠加Union操作,见图2.Union命令将产生一个新的图层,并保留原来两个图层的所有区域,新图层U的属性表中包含V、G图层的相应属性字段.参与后面计算步骤的属性字段有:V图层的ID码字段Vi、T字段(其值用Ti表示)、C字段(其值用Ci表示)和Xp、Yp字段(其值用Xpi、Ypi表示),G图层的ID码字段Gi和Xc、Yc字段(其值用Xcj、Ycj表示),另外新图层U将自动生成各新多边形的面积字段A,其值表示为Aij,i表示V图层的 ID 码,j表示G图层的 ID 码[2].

图2 空间多边形并(Union)示意图

在U图层中添加一个字段R来存放权重,采用距离倒数来作为权重,其值计算如式(2):

为了避免网格间的数值差别过大,可以给其设定范围[Min,Max],当Rij小于 Min 的时候取 Min,大于Max的时候取Max.

在U图层中添加一个字段E来存放调节参数,由同一个行政单元生成出的新多边形有相同的值,记为Ei.

通过公式(3)可以计算出Ei的值.j的取值为G图层中落在V图层i对象内部或相交的Gj对象编号.

(3)在U图层中新建字段U,用来存储新多边形对应的人口数值,其值按公式(4)计算:

式中,Uij表示V图层的Vi行政单元与G图层的Gj格网叠加的交集.

(4)在G图层中新建字段P,将U图层中字段G-ID等于j(j=1,2,…,n)的所有Uij字段值相加,其结果值作为G图层中字段G-ID等于j对应的P字段.如式(5):

计算结束以后,G图层P字段的内容即是网格化的结果.

按照上述模型,利用广西市级人口数据来进行网格化处理,结果见图3.从中可以看出,该方法产生的结果保持了行政单元统计数据的特征,如果行政单元数据的空间尺度比较高,则网格的分辨率也会提高,有利于准确描述统计数据的空间分布;核心点数据也可以选取居民点或其他点数据,这样一个行政单元内可以有多个核心点,这样更能提高其空间分布的精度;另外如果还能融合DEM、土地利用覆盖等其他与统计指标相关数据,也可以使其更符合实际的空间分布状况.

图3 人口统计数据网格化结果

3 通用模式使用

根据以上分析可以对参与多源融合的辅助数据分为以下3类:

(1)点类数据(如:驻地、居民点数据):采用反距离权重方式施加影响,正反影响.记为SRij.SRij是多个点距离权重的和值.

(2)面类型数据(如:土地利用类型):对其进行分类分级,不同的类别或等级,赋予不同的权重,可以是等比、等差的或者是指数、对数的,具体根据统计指标的意义来确定.将面类型数据和生成的格网数据进行叠加操作,落在某一类别或等级区域中的格网获得相应的权重.如果一个网格落在多个类型的区域上,则该网格的权重值由多个类型确定.记该类型的权重值为Sj.

(3)网格类型数据(如:DEMDTM数据):如果网格的大小相同,则不用进行转换;如果分辨率不一致,则需要对其进行重采样,使其与生成的网格大小相一致.对应的网格根据辅助数据获得相应的权重值.记为Zj.

结合以上辅助类型数据,该网格化模式需对公式(3)修改为:

公式(4)改为:

4 结语

本文是以人口统计数据网格化为例,对基于多源数据融合的统计数据的空间网格化方法进行了介绍,主要目的是建立一种通用模型,来利用多源辅助数据将统计指标值更合理的分配到空间网格单元上.文中以距离行政区划驻地数据作为影响人口分布的因子,来说明该通用模型的技术实现流程.对于其它类型的辅助数据,只要合理选择影响因子和权重,都可以使用该通用模型来实现空间分配的更科学化.随着统计数据社会综合应用分析的深入发展,其网格化将是一项基础工作,本文提出的网格化通用模式,在基于遥感、测量、生态和实地调查等多源数据融合基础上,使统计数据格网化将向动态方向发展,能提高网格结果数据的实用性和合理性.

[1]范一大,史培军,辜智慧,等.行政单元数据向网格单元转化的技术方法[J].地理科学,2004,24(1):105 -108.

[2]廖顺宝,孙九林.基于GIS的青藏高原人口统计数据空间化[J].地理学报,2003,58(1):25 -33.

[3]符海月,李满春,赵 军,等.人口数据格网化模型研究进展综述[J].人文地理,2006,89(3):115 -119.

[4]闫庆武,卞正富.基于GIS的社会统计数据空间化处理方法[J].云南地理环境研究,2007,19(2):92 -95.

[5]朱良峰,吴信才,刘修国.GIS中矢量多边形网格化问题研究[J].地理与地理信息科学,2004,20(1):12 -15.

[6]MENNIS,JEREMY.Generating Surface Models of Population Using Dasymetric Mapping[J].Professional Geographer,2003(1):31 -43.

[7]COHEN M,GREENBERG D P,IMMEL D S,et al.An efficient radiosity approach for realisity image synthesis[J].IEEE Computer Graphics and Application,1986,6(3):26-35.

猜你喜欢
格网字段统计数据
创新视角下统计数据的提取与使用
遥感数据即得即用(Ready To Use,RTU)地理格网产品规范
云南地区GPS面膨胀格网异常动态变化与M≥5.0地震关系分析
实时电离层格网数据精度评估
浅谈台湾原版中文图书的编目经验
国际统计数据
2017年居民消费统计数据资料
基于格网法表土剥离时空顺序确定
CNMARC304字段和314字段责任附注方式解析
统计数据