存量房交易空间位置数据获取与空间点模式分析

2017-03-06 00:31刘华琛白峰缪涛谢伟
软件导刊 2017年1期
关键词:存量房空间数据编码

刘华琛+白峰+缪涛+谢伟

摘要摘要:以2016年某月存量房交易数据为例,通过使用公共地理编码服务,清理和规范化地址数据并获得空间参照数据。以整理后的数据为基础,利用R交互式编程环境,以核密度分析和六边形分析两种方法,对存量房交易数据进行空间点模式分析。结果表明,利用地理编码服务获取的数据能够满足空间分析需要;在R语言环境中可以方便快速地完成空间数据获取、分析和展示的全过程,极大提高了空间分析效率;武汉市存量房交易密度大体上呈环线分布,汉口比武昌热,汉口存在一个密集交易中心,武昌则呈现多点开花的态势。

关键词关键词:地理编码;R语言;空间分析;点模式分析;核密度分析

DOIDOI:10.11907/rjdk.162298

中图分类号:TP391文献标识码:A文章编号文章编号:16727800(2017)001014403

引言

随着城市土地供应和新建商品房供应的日趋减少,房地产市场重心将逐步由一级市场转移到二、三级市场。但目前的房产市场分析局限于新建商品房市场,对存量房交易市场的研究未予以足够重视。存量房交易市场分析研究滞后的原因在于交易数据地址信息不规范,缺乏相应的空间数据,无法在此基础上开展空间分析。另外,市场分析的空间分析过度依赖于GIS系统的建设,导致技术和需求契合不足,造成分析工作滞后。

本文探索了利用公共地理编码服务,完善存量房交易数据的空间信息;同时脱离GIS系统,利用R交互式编程环境,进行存量房交易热点空间分布的点模式分析。这对于利用交易地址信息、快速整理数据、建立分析模型和交互式图形具有较好的参照意义。同时,基于本文方法,可以进一步挖掘时空数据的变迁,并促进存量房、商品房等相关市场的关联研究。

1数据获取

数据分析的主要工作量来自于数据准备,即数据的选取、清理和整理,以满足数据分析需要。

1.1地址数据来源

武汉市存量房交易合同打印是存量房交易的前置条件,房屋坐落数据是由交易双方根据房屋产权证证载坐落进行填写,其中可能出现少量填写错误及文字编码不规范的情况。为进行市场分析,保证样本的随机性和代表性,本文选取2016某一交易月的存量房交易全月成交数据共7 805条作为分析样本。

1.2空间参照数据获取

样本数据只包含有地址信息,没有包含空间分析所需要的空间参照坐标信息。本文利用公开的地址编码服务,获得和完善分析数据的空间参照数据。

1.2.1地址编码

地址编码(Geocoding)[1]是将地点的描述信息(地址或建筑物名称)转化地球表面位置(坐标)的过程。地址编码分为正向地址编码和反向地址编码两种。正向地址编码是指从地址描述转换成位置信息的过程,反向地址编码则是从位置信息转换成地址或建筑物名称的过程。

用于描述地点的位置信息的准确度分为不同的级别,主要取决于查询条件的准确和详细程度。通常情况下会提供建筑物中心点、街道中心点、邮政编码区域中心点坐标等不同准确度的查询结果。

1.2.2高德地图的地理编码服务

由于地图基础数据较为详实,API使用简便,本文采用高德地图提供的地址编码服务作为空间数据完善的工具。以查询雄楚大街199号的空间位置为例,调用高德地理编码服务后得到的是json形式的响应报文,响应报文内容包括格式化地址即湖北省武汉市洪山区雄楚大街199号,地址所在省、市、区、城市编码(电话区号)、区域编码、平面坐标("114.339802,30.515439",以逗号分隔的字符串表示),精度级别[2](门牌号)等空间参照数据。

1.2.3利用R获取空间数据

为了获取7 805个交易样本的空间参照数据,本文通過使用R的RCurl包程序化调用地理编码服务,从而批量完成交易样本数据的空间参照数据完善任务。程序包括以下步骤:①将地址数据规范化;②生成查询URL,同时转换为utf8编码;③对API调用的结果进行解析,获取平面坐标、精度信息和标准化地址。对7 805条样本数据进行空间数据解析结果统计,地理编码能达到门牌号、兴趣点、交叉路口的样本数据占总样本的91%,足以支撑空间数据分析。

2空间点模式分析

2.1空间数据分类及点模式

空间数据通常分为3类[3]:①点参照数据(Point-Referenced Data),即有取样点的空间位置是相对固定的,类似于气象观测站获得的数据;②平面数据(Areal Data),即取样点为有固定边界的数据,如行政区数据;③点模式数据(Point Pattern Data),即取样点不再是固定而是随机的,存量房交易数据就属于点模式数据。

点模式分析主要是研究特定事件随机发生的地理位置关系,空间值域D是在某一特定区域内特定事件发生的点集合,其中事件发生的点是随机的。在进行空间点模式分析时,通常是为了评价事件发生可能性的集簇(Cluster)[4]。由于事件点通常是随机产生的,因此许多空间点模型关注计算的是在空间值域范围内随机点的可能密度。针对于存量房交易市场分析,空间点模式可以用于研究交易发生的热度分度及不同类型交易的空间分布及可能性分析(Marked Point Pattern Process)。

2.2KDE核密度估算与展示

最简单的空间点模式的模型是认为存在一个密度函数f(x)能够将随机点x的可能密度计算出来。假设一片区域(空间点的分布域),这片区域被分成细小的网格,每个网格都有各自的概率密度分布,那么指定区域的概率密度分布就是区域内包含网格的概率密度分布的总和。这种密度分布通常是未知的,基于特定地理形状的,而不是常见高斯分布 [5]。

用于估算f(x)的常用技术是KDE(Kernel Density Estimates),KDE假定(x1,x2,…xn )是密度函数f(x)在某种分布下的独立同分布的采样。为了测算f(x)的形状, KDE采用式(1):^fh(x)=1n∑ni=1Kh(x-xi)=1nh∑ni=1Kh(x-xih)(1)其中K(·)是核函数,h称为带宽(Bandwidth),是用于平滑的参数。在空间分析中,KDE的基本思路是有一系列的空间样本点,以每个空间样本点为核心,h为半径,随机生成n个样本点,每个样本点都以K作为概率密度分布函数,现有样本点的概率密度分布就等于这n个样本点概率密度的均值[6]。

因此,h的选取对KDE结果的影响很大。h选择较小,分布就会产生多个峰值,h选择较大,则分布就相对平滑。可以采用简单的规则选取h,如式(2):hx=σx(23n)16(2) 式(2)是空间位置x的标准差。以存量房交易发生位置进行分析,图1显示不同h对KDE结果的影响。

如图1(b)所示,从高平滑处理结果看,武汉市存量房成交的密度总体按照环线分布,内环尤其是汉口内环存量房成交最为密集。所有交易基本上在三环以内,交易密度从内环到外环逐层递减。如图1(a)所示,武汉市存量房交易在中心城区交易密集度可分为3个等级,交易最密集地区分布在以解放大道和香港路交汇为中心,北至江大路,南至中山大道友谊路交汇处,东至沿江大道和三阳路交汇处,西至建设大道和万松园交汇处的区域汉口核心区域。交易密度较为密集的则集中在武昌南湖片、积玉桥片、徐东片。武昌光谷片、青山片区和汉口后湖片和汉阳王家湾片区紧接其后,属于第三层级。存量房交易在新城区的分布则局限于新城区的城关镇和阳逻、盘龙城、沌口开发区,但交易密度遠远低于中心城区。

2.3六边形分档

六边形分档(Hexagonal Binning)是显示空间数据分布的另一项有效工具。六边形分档的原理十分简单[7],即用六角形的网格覆盖观察区域,然后计算每个网格中点的数量,最后将点数大于0的网格通过不同的颜色或大小按比例显示。通过使用R的fMultivar包可以将全市存量房交易区域分为161个存在交易的六角形区域,其中交易最密集区域的月交易量达364个。通过标记圆大小显示交易密集地区的地图显示如图2所示。相对于图1,其六角分档更为简单直接。

3结语

通过本文研究,可得出如下结论:由于空间数据缺乏,存量房交易研究一直局限于常规的统计分析;通过使用第三方公开的地理编码服务,可以解决空间数据缺失的问题,从而实现有效的空间分析,尤其是点模式分析;利用R语言提供的各种分析包和工具可以脱离传统的GIS工具快速进行空间分析和展示,加快和简化分析过程;以武汉市为例,存量房交易的热点区域仍然主要在中心城区内进行,尤其是在汉口中心区域;存量房交易空间的点模式分析,最直接的应用是帮助经纪行业更精确地确定网店分布。后续研究中,可建立新建商品房增加、城市拆迁和存量房交易之间的空间相关性,从而获得存量房交易的空间发展趋势。

参考文献:

[1]DAVISC A,FONSECA F T.Assessing the certainty of locations produced by an address geocoding system[J].Geoinformatica,2007,11(1):103129.

[2]DANIEL TESKE.Geocoder accuracy ranking[J].Communications in Computer and Information Science,2014,500(1):161174.

[3]SUDIPTO BANERJEE,BRADLEY.Hierarchical modeling and analysis for spatial data[M].USA,CRC,2015.

[4]MARTA BLANGIARDO,MICHELA CAMELETTI.Spatial and spatiotemporal bayesian models with RINLA[M].United Kingdom:Wiley,2015.

[5]CHRIS BRUNSDON,LEX COMBER.An introduction to R for spatial analysis&mapping[M].United Kingdom:SAGE,2015.

[6]S J SHEATHER,M C JONES.A reliable databased bandwidth selection method for kernel density estimation[J].Journal of the Royal Statistical Society:Series B,1991(2):683690.

[7]NICHOLAS LEWINKOH.Hexagon binning:an overview [EB/OL].https://cran.rproject.org/web/packages/hexbin/vignettes/hexagon_binning.pdf.

责任编辑(责任编辑:孙娟)

猜你喜欢
存量房空间数据编码
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
上海存量住房市场发展的相关分析与思考
Genome and healthcare
“存量房”时代来临,房产中介将取代开发商成为市场主角霸主链家
元数据驱动的多中心空间数据同步方法研究
基于文件系统的分布式海量空间数据高效存储与组织研究
客户端空间数据缓存策略
多源空间数据同名实体几何匹配方法研究