数字地价模型的构建方法及参数选择

2017-11-04 05:12李洁茹张军海
统计与决策 2017年20期
关键词:样点插值步长

李洁茹,张军海

(1.张家口学院 理学系,河北 张家口 075000;2.河北师范大学 资源与环境科学学院,石家庄 050024)

数字地价模型的构建方法及参数选择

李洁茹1,2,张军海2

(1.张家口学院 理学系,河北 张家口 075000;2.河北师范大学 资源与环境科学学院,石家庄 050024)

基于地统计内插构建数字地价模型是目前国内研究地价空间分布的常用手段。既往的研究大多侧重空间变异分析或不同模型结果的比较,较少探讨一个完整的建模过程及过程中一些重要参数如何科学选择与设置。文章以2008—2014年石家庄市主城区土地交易数据为例,借助ArcGIS、GS+软件平台,深入探讨了基于地统计学原理,利用Kriging插值的方法,构建数字地价模型的完整过程,并重点探究此建模过程中获取最优参数的方法。结果表明:基于地统计方法构建的数字地价模型,能够合理地模拟区域地价空间分布形态;并通过探索性空间数据分析、变异函数分析、不同模型拟合优度对比、交叉验证精度检验等手段,有效地保证了建模参数的科学性和准确性。

数字地价模型;地统计学;Kriging插值;探索性空间数据分析

0 引言

数字地价模型(Digital Land Price Model,DLPM)是一组表示土地价格高低的有序数值阵列。20世纪后期,国内外众多学者开始采用统计、空间分析等定量分析的方法构建数字地价模型,并基于此模型研究地价空间分布的形态和变化规律。地统计学(Geostatistics)是20世纪60年代兴起的一门交叉学科,其理论基础建立在统计学及数据空间分析的基础之上[1]。1951年,矿山工程师D.G.Krige和统计学家H.S.Sichel在评价和识别矿藏的过程中,提出了Kriging内插法。运用此法的插值结果,其估计误差最小。后经统计学家G.Matheron的总结概括,借鉴前人的经验与方法,系统化地提出了“地统计学”。

目前,基于地统计内插构建数字地价模型的方法,已成为国内研究地价空间分布的常用手段。但既往的研究大多侧重空间变异分析,或对不同插值模型和方法的建模结果进行比较,较少探讨一个完整的建模过程及过程中一些重要参数如何科学合理地进行选择与设置。本文的样本取自2008—2014年间,地理范围涵盖石家庄市主城区,具体数据为以“招拍挂”方式出让的住宅用地成交价。研究使用了ArcGIS、GS+等支持地统计分析的软件平台,基于地统计内插原理,探讨构建数字地价模型的方法和过程,并对其中重要参数设置的原理和依据进行深入分析。

1 地统计内插的基本原理

地统计学将区域化变量理论作为其理论基础,常用于研究在空间分布上具备随机性与结构性特征的事物或现象,即所谓空间分布的相关或依赖[2]。它的理论基础主要包括:①前提假设,即样本是否正态分布且均值平稳;②区域化变量理论;③协方差与变异函数理论;④空间估值,即Kriging插值。

1.1 区域化变量理论

所谓区域化,即当一个变量呈现出在空间上的分布,并反映出某种空间特质。Matheron给出了区域化变量的定义,即xu,xv,xw为空间点x的直角坐标,区域化变量是以上述坐标作为自变量的随机场Z(xu,xv,xw)=Z(x)[2]。该变量具有两个最显著特征:随机性和结构性。这使其具备了描述研究对象随空间位移而变化的能力。

据此原理,在数字地价模型中,首先,离散的地价样点值在区域中的分布变化符合连续且随机;其次,两样点值的相似程度与二者间的距离差异有关,呈现出明显的空间自相关,即吻合了区域化变量的结构性特征。因此,地价具备了区域化变量的基本特征,可以尝试运用该理论对其空间分布进行分析。

1.2 变异函数理论

1.2.1 定义与参数

变异函数(Variograms)是地统计分析所特有的基本工具。在一维条件下其定义为:空间点在x轴上变化,区域化变量Z(x)分别在点x、x+h处对应值Z(x)、Z(x+h),二者之差的方差的一半,即为Z(x)在x轴上的变异函数[2],以γ(x,h)表示。在二阶平稳或内蕴假设条件下,且当函数仅依赖于距离h而与位置x无关时,该函数最终可表示为:

当样点距离为0时,limγ(h)等于一个大于零的常数C0,即块金值。伴随h的增大,γ(h)不断变化,最终将达到一个相对稳定的平稳值常数,即基台值;此时对应的自相关距离即为变程a。变程反映了空间自相关性的最大距离,即h在变程以内,任意两样点值之间的相关性存在,且这种相关性将随h的递增而减小;当h超出变程时,区域化变量不存在空间自相关,此时插值也无意义[3]。上述块金值、变程、基台值是变异函数中三个重要的基本参数,其值可直接从变异函数图中获得,它们共同决定了变异函数的结构和最终形状。

1.2.2 变异函数理论模型

如果模型满足二阶平稳假设,且具有有限的先验方差,则可利用样点数据计算变异函数,γ(h)值随h递增,在变程a处达到基台值。常用的有基台值的变异函数理论模型有三种:

(1)球状模型(Spherical Model),一般模型表达式为:

(2)指数模型(Exponential Model),一般模型表达式为:

(3)高斯模型(Gaussian Model),一般模型表达式为:

上述式中,C0为块金值;C为拱高;C0+C为基台值。

1.3 Kriging空间插值

Kriging插值法建立在上述变异函数理论的基础之上。该方法利用了局部区域的已知样本数据,旨在对未知区域的变量取值进行无偏最优估计[2]。

Kriging插值适用于区域化变量存在空间相关性的观测样本估值。插值过程中,一方面需考虑待估值点与已知邻近点间的位置关系,另一方面还需顾及各邻近点之间的相对位置关系,即插值时需参照已知样本集的空间分布形态、相对方位等,从而确保结果具有最小估计误差方差和线性无偏。

假设区域内存在若干采样点xi(i=1,2,3,…,n),其观测值为Z(xi),λi为第i个已知点权重,则可以利用待估值点x0附近一定范围内的已知样点值,来计算待估值点的预测值Z(x0),表示为:

2 数字地价模型的构建方法及参数设置

根据采集到的156个住宅地价样本,经统一地价内涵修正后,按其位置描述在ArcGIS空间数据库中创建地价要素类,并利用投影转换形成UTM坐标系统。针对此样点数据,选用ArcGIS10.1平台下的地统计分析模块和GS+9.0的变异函数分析工具,进行数据分析与插值建模。

2.1 探索性空间数据分析

探索性空间数据分析(ESDA,Exploratory Spatial Data Analysis)技术基于统计学原理,以可视化的方式分析空间数据的特征和分布状态,从而直观地反映数据在空间上存在的相关性和异质性[4]。这是在数据建模之前必经的一个初步分析过程。只有掌握了样点在空间分布上的大致规律、总体趋势、异常值存否,及数据间存在关联关系的可能性,才能确保后续分析的假设基础成立,样点数据可靠,插值结果科学有效。

2.1.1 空间数据结构分析

空间数据结构分析是一种采用可视化的图像EDA方法,对空间数据进行常规统计分析与检验的方法[4],使用直方图或正态QQPlot图均可实现。其分析结果,只有当样点数据(或进行转换处理后)符合正态分布时,才具备后续分析的基础。

(1)直方图分析

通过直方图分析,可以直观地判断样点数据的总体分布特征及规律,尤其可以通过图形直接反映数据是否呈现正态分布,同时可检出离群值。

通过对图1的直观观察和表1的数据比较,原始样点地价分布呈现较明显的正偏态,低价区间数据相对集中,峰度(Kurtosis)和偏度(Skewness)的绝对值较高,正态拟合效果不够理想;对数转换后,样点地价分布的峰度和偏度绝对值都较转换前更接近0,即样本更接近标准正态分布。

图1 样点分布直方图

表1 原始与log转换后样点统计特征

(2)正态QQPlot图分析

通过对正态QQPlot图的观察,可以直观判断样本数据拟合正态分布的优度。其依据是观察样本数据(散点)与标准正态分布(直线)之间的重合程度,重合越紧密,则效果越优[4]。

图2给出了对数转换后样点地价偏离标准正态分布线的分布形态。通过观察比较可知,二者整体与局部偏差都不大,拟合效果较好,表明该样本基本服从正态分布。

图2 log转换后的样点正态QQPlot图

2.1.2 全局趋势分析

趋势分析(Trend Analysis)是用来反映样本在空间区域中总体变化特征的方法。样本数据中若存在全局趋势,则该趋势将被计入到区域化变量的空间相关性中,从而在后续过程中降低局部样点的插值精度。运用趋势分析,高度值赋地价,将其分别投影至东西和南北两方向正交平面形成三维透视图,再通过投影点拟合线来模拟对应方向上存在的全局趋势[4]。

图3给出了样点地价在东西和南北两方向上的投影点拟合线。两拟合线均明显呈现倒“U”型,即二阶曲线趋势。图形表明,地价在两方向上均具有由区域中心向边缘递减的趋势。该结果要求采用二阶曲线的方法剔除全局趋势后,再进行插值。

图3 样点趋势分析图

2.1.3 空间自相关与变异分析理论

地统计分析的基础在于变量间空间相关性的普遍存在,即距离越近的地理事物或现象越相似[5,6]。从地价的影响因素来看,通常在同一区域内,样点间的距离越近,其繁华程度、交通状况、基础设施等决定性条件也越相似,因此地价水平也会呈现较高程度的相似性。

在此基础上,如果空间相关性无关方向,只关乎两点间距离,则表现为各向同性(Isotropic);而城市地价在空间中通常表现为变化的区域性分布,即空间相关性在不同方向上的变化规律不尽相同,即表现为各向异性(Anisotropic)。

空间相似性的定量表示体现在变异函数图的形态上。该图以x轴表示空间距离,y轴表示变异函数值。若存在空间相关性,则距离越近的点对具有越小的差值,即越相似;而随着点对之间距离的增大,平方差也应随之增大;最终当点对间距离超过某个值之后,平方差将不再变化,即相关性消失。

基于上述原理,对经对数转换后的样点地价进行变异函数分析。图4为0°、45°、90°、135°四个方向上的样点地价变异函数曲线。通过图形对比可知,样本在四个方向上均表现出一定的空间相关性,但各曲线具有不同的变化趋势,即表现为各向异性[7]。

图4 各向异性变异函数图

分别利用四种理论模型,对样点地价进行各向同性分析,输出变异函数图(见图5);对应的拟合参数如表2所示。在表2所示参数中,判断是否为最优模型一般取决于两个关键参数,即可决系数R2和残差平方RSS。通常以R2越大,RSS越小来判断拟合效果更理想,且RSS敏感度更高[8]。基于上述原则,对比表2中的各参数值可以判断,针对该样点地价使用不同理论模型,其拟合优度由高到底依次为高斯模型、球状模型、指数模型、线性模型。

图5 各向同性变异函数图

表2 不同理论模型拟合参数对比

表2中块金值与基台值之比,即C0/(C0+C)的大小决定了样本数据的空间相关程度,具体表现为由随机因素引发的变异在系统总变异中的占比[9]。若比值小于25%,说明系统具有较强的空间相关性和良好的空间结构性;若比值大于25%但不足75%,说明系统具有中等强度的空间相关性;而当比值大于75%时,则表明系统的空间相关性较弱,此时引发空间变异的主因归于随机因素,不宜再进行空间插值[10]。表2的计算结果显示,利用上述四种理论模型拟合,该比值均小于25%,属强空间自相关。即结构性因素是影响住宅地价空间变异的主因,随机因素的影响很小。

2.2 数字地价模型的构建

通过对样点地价的探索性空间数据分析,反映出该数据集具有以下特点:①经对数转换后服从正态分布,同时存在二阶全局趋势;②具有较强的空间相关性,且表现出各向异性的特征。因此,该数据集满足构建预测表面的前提条件,可进一步适用Kriging插值法,建立数字地价模型。

2.2.1 Kriging类型选择

Kriging方法有多种不同类型,普通Kriging法(Ordinary Kriging)是单个变量局部线性最优无偏估计的方法,常用于构建数字地价模型;根据探索性空间数据分析的结果,对数据进行对数转换(Log),同时选择二次多项式(Second)进行趋势剔除。

2.2.2 变异函数建模

建立变异函数模型是生成预测表面最核心的步骤。此过程中包含三个关键参数的设置:

(1)选择模型类型:根据以往众多实证案例的经验,球状模型在地价表面预测中通常有最优表现。为保证结果的准确性,同时使用其他模型作对比验证。

(2)设置各向异性与否:在变异分析中已判定,设置各向异性为True,样点搜索方向及对应变程将被自动计算。

(3)步长及步长组的设置:此二参数的设置是建模过程中最为复杂的步骤,其选择将对最终的插值结果产生重要影响。而决定两参数取值是否最优的关键,主要取决于数据样本的规模、研究区域的范围,以及研究对象自身的尺度。一方面,若步长取值过大,将难以反映小尺度上存在的空间相关性;另一方面,若步长取值过小,则容易导致不含样点的空分组,同时也难以反映各分组内部的平均变异状况。首先根据基本原则,变异函数只有在全部数据最大间隔距离的一半以内才有意义[11]。通过测算,本文区域内距离最大的两样点相距约20320m,因此该数据集的有效距离约10160m,即可能的最大相关距离不超出该值。其次,步长及步长组的取值通常遵循:步长×步长组≈样本数据集最大间距/2。在上述原则基础上,实际操作中可以通过两个途径获取最优步长的参考值:①利用GS+软件的变异函数分析功能,通过自动拟合确定的最优步长值;②通过ArcGIS平台的平均最近邻工具,计算得到的最邻近点之间的平均距离值(NNObserved)[2]。但由于二者在算法的运用上有所不同,导致结果不完全一致,因此都只能作为有价值的参考,并不能直接决定最终取值。最后还须经过不同步长与步长组的反复拟合并对比交叉验证结果,同时考虑研究对象本身,在城市中相距太远的地块之间,其价格并不具备太强的可比性和参照性,据此最终确定步长×步长组的取值为677m×13,由此计算出的样点间最大相关距离为3340m[12]。

2.2.3 搜索邻域

搜索邻域是基于一个假设的移动窗口,仅使用落在此窗口范围内的实测样本进行预测估值。通常参与估值的样本数量不宜过多,过多易拖慢运算速度,还将影响局域平稳。本文最终确定最大搜索样点数为6,最小搜索样点数为2,搜索形状为偏离45°的4个分区。

2.2.4 交叉验证

交叉验证是评价预测表面模型准确度的重要依据,可用于检验插值结果的优劣。通常在各项预测误差统计指标中,平均误差越小,则预测值越无偏;但平均误差易受数据规模的干扰,故实际运用中通常以平均标准差和标准均方根误差作为优先评价指标。原则上前者越接近0,后者越接近1,插值效果越优[3]。这一评价原则直观地体现在图6的预测误差图中,即深色的回归直线与浅色的1:1线越接近重合,表示插值结果越理想。

图6 插值结果预测误差图

使用指数模型和高斯模型,分别重复上述操作并对结果进行比较验证。各模型的预测误差统计量如表3所示。对比可知,以平均标准差作为优先评价标准,指数模型最优,球状模型次之,高斯模型最差;以标准均方根误差作为优先评价标准,高斯模型最优,球状模型次之,指数模型最差;二者略有差异,最终再辅以平均误差及其他指标作为参考,综合评价球状模型表现最佳。

表3 不同模型预测误差对比

在上述分析与设置的基础上完成插值,最终生成样点地价预测表面图。

3 结果分析

在插值结果生成的500元/m2间距等地价线图的基础上,叠加主干道和行政区划,如图7(见下页)所示。通过观察与分析可知,住宅地价变化整体上呈明显的向心性,形成了自中心向边缘递减的圈层结构。9000元/m2等地价线呈现出以老火车站和新世隆广场为中心的两个近圆形区域分布;8000元/m2等地价线则呈现出近似三角形圈层分布,三个顶点分别对应柏林春天小区、世纪公园、恒大华府小区;6500元/m2等地价线大致围绕在二环路两侧。从行政区划来看,高地价主要分布在传统意义上老城区的近城市中心区域,桥东、桥西、新华、裕华四区均有分布;而老城区中长安区地价整体相对较低;高新区管辖区域基本都位于二环以外,地价全部低于5000元/m2。

图7 石家庄市区二环内住宅等地价线分布图

上述地价空间分布特征很好地印证了石家庄主城区城市发展的历史沿革和政策导向:(1)老火车站作为传统的城市中心地,历史积淀效应使其具有不可比拟的区位优势;(2)东南方向作为近年来城市规划的主导方向,成为土地利用的热点;(3)长安区作为传统的老工业区,土地利用潜力尚未充分开发;(4)高新区以发展工业为主且远离市中心,地价最低。

4 结论

本文以7年间的石家庄市主城区住宅用地成交数据为样本,详细探讨了在构建数字地价模型的过程中,如何科学有效地利用地统计学原理与Kriging插值技术进行建模分析,并对其中主要参数的选择和设置进行了重点剖析。结果表明:(1)在构建数字地价模型的过程中,地统计学基本原理与Kriging插值技术表现出良好的适用性,较为合理地模拟出城市地价的空间分布形态,其结果精度可信度高;(2)探索性空间数据分析可以有效地保证数据样本符合构建地价模型的前提条件;(3)通过变异函数分析、不同模型各项参数拟合优度对比、交叉验证精度检验等手段,能够获得较为准确的建模参数。

[1]牟乃夏等.ArcGIS 10地理信息系统教程:从初学到精通[M].北京:测绘出版社,2012.

[2]刘爱利,王培法,丁园圆.地统计学概论[M].北京:科学出版社,2012.

[3]刘贤赵,张安定等.地理学数学方法[M].北京:科学出版社,2009.

[4]杨慧.空间分析与建模[M].北京:清华大学出版社,2013.

[5]池建等.精通ArcGIS地理信息系统[M].北京:清华大学出版社,2010.

[6]汤国安,杨昕等.ArcGIS地理信息系统空间分析实验教程(第2版)[M].北京:科学出版社,2012.

[7]金杰,张洪.地价和房价空间变化研究:以昆明市为例[M].昆明:云南科技出版社,2012.

[8]王政权.地统计学及其在生态学中的应用[M].北京:科学出版社,1999.

[9]梅志雄.基于半变异函数的住宅价格空间异质性分析——以东莞市为例[J].华南师范大学学报:自然科学版,2008,(4).

[10]Combardella C A,Moorman T B,Novak J M,et al.Field-scale Variability of Soil Properties in Central Soils[J].SoilSci.Am.J.,1994.

[11]Rossi R E,Milla D J,Journel A G,et al.Geostatistical Tools for Modeling and Interpreting Ecological Spatial Dependence[J].Ecological Monographs,1992,62.

[12]吴学文,晏路明.普通Kriging法的参数设置及变异函数模型选择方法——以福建省一月均温空间内插为例[J].地球信息科学,2007,9(3).

Construction Method and Parameters Setting of Digital Land Price Model

Li Jieru1,2,Zhang Junhai2

(1.Faculty of Science,Zhangjiakou University,Zhangjiakou 075000,China;2.School of Resource and Environmental Sciences,Hebei Normal University,Shijiazhuang 050024,China)

In view of the fact that the common means used to study the spatial distribution of land price in present China is based on geo-statistics to build digital land price model.The past studies mostly focus on the spatial variation analysis or the result comparison between different models,but less on the discussion about the complete modeling process and how to set the parameters scientifically.This paper uses the land transaction data of Shijiazhuang from 2008 to 2014 as samples and draws support from ArcGIS and GS+software platform to explore in depth the principle of geo-statistics,the method of using Kriging interpolation and the complete process of building a digital land price model,and also emphatically investigates how to obtain the optimal parameters in modeling.The study results show that the proposed method of building digital land price model based on geo-statistics more reasonably simulates the regional spatial distribution of land price;in the process of modeling,it can effectively guarantee the scientificity and accuracy of modeling parameters by means of exploratory spatial data analysis,variation function analysis,goodness-of-fit contrast of different model,and cross validation accuracy test,and so on.

digital land price model;geo-statistics;Kriging method;exploratory spatial data analysis

P208;C82

A

1002-6487(2017)20-0010-05

河北省高等学校科学技术研究项目(QN2017522)

李洁茹(1982—),女,河北张家口人,硕士,讲师,研究方向:土地信息系统。

(通讯作者)张军海(1964—),男,河北邢台人,硕士,教授,研究方向:地图学、地理信息系统。

(责任编辑/亦 民)

猜你喜欢
样点插值步长
小麦条锈病田间为害损失的初步分析
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
基于空间模拟退火算法的最优土壤采样尺度选择研究①
基于随机森林回归的智能手机用步长估计模型
基于Armijo搜索步长的几种共轭梯度法的分析对比
基于Sinc插值与相关谱的纵横波速度比扫描方法
基于pade逼近的重心有理混合插值新方法
混合重叠网格插值方法的改进及应用
基于分融策略的土壤采样设计方法*
养猪发酵床垫料微生物类群结构特性分析