大数据环境下地理空间拓扑判定与分析策略的研究

2020-06-19 09:18
深圳职业技术学院学报 2020年3期
关键词:便民空间数据公交车

张 立

大数据环境下地理空间拓扑判定与分析策略的研究

张 立

(深圳职业技术学院 人工智能学院,广东 深圳 518055)

本文首先阐述了大数据环境下作为信息载体的数据表现出来的特点,随后详细分析了在大数据环境下地理空间拓扑分析相对于传统的地理空间拓扑分析的不同之处.为了给地理空间大数据分析与应用提供一些有益的借鉴和参考,文章结合多个大数据拓扑分析实例分别就大数据拓扑分析中最常见的点与点、点与线、点与面3种情况,探讨了如何设定拓扑判定规则和分析策略,如设置阈值做近似模糊处理、抽象简化空间对象改变拓扑分析的对象、依据行业规则或流程过滤脏数据、减少计算量以提高分析处理的时效性.

大数据;拓扑分析;地理空间数据;地理信息系统

随着移动互联网和智能手机终端的普及,数据的产生方式正在悄然发生变化,从最初的基于数据库的营运系统阶段发展到以互联网为依托的用户数据原创阶段,再到如今基于物联网传感器的感知式系统阶段.深入分析大数据环境下的信息载体——数据,不难发现其突出的几个特点:(1)数据体量庞大.IDC咨询机构提出的大数据摩尔定律表明人类社会产生的数据正以每年50%的速度在增长,预计到2020年全球拥有的数据量将达到35ZB;(2)数据类型繁多.大数据环境下的数据中非结构化数据约占九成,主要包括邮件、音频、视频、微信、微博、位置信息、连接信息、网络日志等;(3)数据的价值密度低.很多有价值的信息分散在海量数据中,如何高效地从海量数据中挖掘出有价值的信息需要分布式数据存储和处理技术提供强有力的支撑[1-4].

伴随大数据时代的到来,基于地理空间数据的拓扑分析也因其数据采集方式的改变、数据类型的多样性、数据分析目标的不同而需要采用有别于传统地理空间拓扑分析的策略.本文旨在分析大数据环境下地理空间拓扑分析的变革与特点,并结合多个实例探讨大数据环境下如何设定拓扑判定规则和分析策略,为地理空间大数据分析与应用提供一些有益的参考.

1 大数据环境下的地理空间拓扑分析的变革

在大数据环境下,数据处理和分析是以数据为中心,从数据中发现问题、解决问题,从而挖掘出数据的潜在价值[1].将这一理念延伸到基于地理空间数据的拓扑分析势必导致分析目标、判断策略和拓扑判定规则等诸多改变.

1.1 拓扑分析目标的改变

传统GIS系统是以功能为中心的,它根据需要实现的功能来设定需要采集的数据及其类型,并基于存储的数据而开发相应的系统功能[5].在拓扑分析时需要根据地理空间对象的坐标位置来判定其拓扑关系,其分析目标主要着眼于拓扑关系本身.例如电力GIS系统中,在背景地图上根据电杆的实际位置绘制出线路上的电杆对象(点对象),并将线路绘制成经过这些点对象的线段(线对象),以便能以此为基础分析出线路和电杆之间是否相连的拓扑关系,这是作为传统GIS系统中拓扑分析的一个简单应用.

以“用户原创内容”为特征的Web 2.0时代里,用户使用智能手机享受信息和数据带来的便利的同时也自觉不自觉地成为了信息和数据的生产者.而物联网的发展最终导致数据量的再次飞跃,物联网中大量的传感器有别于营运系统中的辅助设备,其产生的数据不再是被特定部门或系统所独有.智慧城市、智能公交系统、汽车GPS导航等应用让地理空间数据逐步深入人们日常的生产生活,以上这些大数据应用均涉及到地理空间数据的采集、处理和分析[6-9].

在大数据环境下的拓扑分析更强调的是被分析地理空间对象的相关性,即拓扑关系分析的最终目的不仅仅是通过全集数据分析来识别空间对象之间的拓扑是否存在一定关联,更重要的是以拓扑关系推断对象之间是否存在某种相关性[10].换句话说,其拓扑分析不再局限于拓扑关系本身,而在于挖掘和发现隐藏于地理空间对象之间拓扑关系背后的潜在结论.为了探测这种对象之间的相关性,大数据环境中的拓扑分析通常需要加入时间序列作为参考因素,并以此为依据来考量拓扑关系的持续性,以便降低误判的概率.

例如在智能公交系统中,可通过分析公交车(可作为点对象)运行过程中产生的点坐标和公交站台(面对象)之间的拓扑关系(如点是否在面内),再结合该公交线路站台的顺序来判定公交车是否按规定的路线行驶[11-12].换句话说,此时拓扑分析的目的并不是拓扑关系本身(公交车是否在站台内),而是依据公交车是否到达相应的站台这一结论来判定公交车是否正常运营.

1.2 拓扑分析策略的改变

传统的地理空间拓扑分析涉及的空间对象关系类型比较多,具体来说包括点与点、点与线、点与面、线与线、线与面、面与面之间的拓扑关系.这种地理空间拓扑分析必须依赖于GIS系统提供的拓扑分析引擎才能达到较高的处理效率,同时其拓扑分析也依赖于对象坐标位置的精准度.

例如电力GIS系统中,电线杆的地理坐标可以通过线路巡视员通过GPS终端设备采集,在GIS系统中可以将电力线路直接绘制在这些确定好坐标位置的电线杆上,以便实现线路与电线杆在拓扑上的关联.另外一种处理方法是将电线杆地理空间的位置做适当的位移,以便使GIS系统中电线杆的坐标位置精确地位于线路之上.无论哪种方法都需要保证电线杆(点对象)位于电力线路(线对象)之上(即在拓扑上发生关联),以便被GIS系统的拓扑分析引擎查询到.电力GIS系统的“线路巡视”功能就是利用拓扑分析引擎根据线路设备之间的拓扑关系来生成巡视线路上相关电力设备的台账信息.由此可见,这种拓扑分析必须依赖于GIS系统的拓扑分析引擎,拓扑关系是否成立在于是否其坐标位置上是否存在重叠或覆盖关系,因此要求地理空间对象的坐标数据精准度较高,否则无法通过拓扑关系来设别与某电力线路实际发生连接关系的电线杆、线上开关等电力设备.

而大数据环境下的拓扑分析则不一定需要依赖于GIS系统的拓扑分析引擎,只要能快捷高效地判别对象之间的拓扑关系,可以做一些适当的近似或抽象处理,如在对象距离上设置一定容差范围,只要在这个范围内即可判定对象之间是重叠的,又如选定特征点将面对象抽象简化成点对象,将点与面的拓扑关系判定转换成对点与(特征)点之间的拓扑关系判定,从而降低数据分析的复杂度和计算的工作量.这种近似和抽象处理是否合适、由此产生的误差能否被接受主要在于其是否影响对对象之间相关性的综合判断.

过去抽样分析强调高精确性,这是因为抽样分析针对的是部分抽样数据,分析结果被应用到全集数据时误差也会被放大.而大数据时代的“全样分析”(而非“抽样分析”)追求的高精确性已经不是首要目标,尽管上述在大数据环境下根据拓扑数据分析形成的推断会存在一定误差,但由于采样的数据不是部分数据而是全集数据,所以误差仍处在可接受的范围[13].

1.3 拓扑分析数据来源的改变

传统地理空间数据主要来源于专用的GPS定位与采集设备,其拓扑分析的准确性要求较高,尽管在现实中的地理空间数据多少都存在一定的误差,但在相应的地理信息系统(GIS)中做出适当的修正处理,依然可以得到相对准确的拓扑分析结果[14].传统的地理空间拓扑分析在确保准确性的基础上通常要求的执行效率并不高,如在电力GIS系统中生成220千伏变电站一条出线的“全线路设备台账明细表”可能因为其具体线路的规模较大而需要执行1分钟左右(甚至几分钟),在现实工作中这是被允许的,因为通过线路与电力设备的拓扑关系生成“全线路设备台账明细表”的主要目的是为了提供给线路维护和巡视部门完成对线路设备的年检或巡视,而生成这份“全线路设备台账明细表”通常是在工作计划中可以事先预计好的,因此在此功能的执行时效上要求并不太苛刻.

在基于地理空间数据的大数据分析过程中,其数据来源已经不限于专用的GPS定位与采集设备,更多的地理空间数据来自加载GPS定位模块的智能手机或移动终端.这些空间数据其精准性不高,如果直接用这些设备采集的数据进行空间拓扑分析,往往得不到与实际相符合的结论.这就需要针对这些地理空间数据进行清洗和筛选,同时加入时间序列的辅助分析,并对拓扑判定规则和分析策略进行相应的调整,从而适当降低拓扑计算的工作量,以便在执行时效和准确性之间找到一个平衡点,为决策者提供高效的决策参考.

2 大数据环境下的拓扑判定和分析策略

大数据环境下收集到来自智能手机和移动终端的地理空间数据大多数为离散的点坐标,拓扑分析的内容主要是这些点对象与其他地理空间对象(主要是地面固定设施)之间的拓扑关系,因此在大数据环境下基于地理空间数据的拓扑分析类型主要包括点与点、点与线、点与面这3种拓扑关系.

2.1 点与点的拓扑判定分析策略

作为点对点的拓扑关系,往往是一个移动对象与地面固定点之间的拓扑关系.移动对象的坐标数据可以是移动终端GPS定位模块采集的经纬度,也可以是在某些封闭区域内传感器采集的坐标数据.值得注意的是——当点与点的距离小于一定阈值时即可判定这两个点处于重叠状态,但这可能只是被分析对象在移动过程中的一个瞬间状态,不能以此做出任何结论.因此,在大数据环境中,点与点的拓扑分析通常需要加入时间序列作为参考因素,即只有当重叠状态持续了某一段时间则可判定2个点对象确实处于重叠状态,这种状态到底意味着什么结论则需要具体问题具体分析.

例如,通过分析居民操作使用其生活小区中设置的便民终端设备的行为来考察便民终端设备的利用情况以及终端设备设置的位置是否合理.便民终端设备其实就是一台立式触屏电脑,居民可以利用它来办理一些便民业务(如开据居住证明,查询办理业务的流程等),其本身占地面积很小,可以作为一个点对象来对待;大数据分析者通过数据切片技术可筛选出小区居民手机的定位数据(如经纬度)来确定居民的位置(作为一个点对象)加以分析.

判定居民使用便民终端设备的规则如下:当便民终端设备(点对象)与居民(确切地说是手机,也是一个点对象)之间的距离小于0.5米时,即可判定二者在拓扑上是重叠的,但只有当这种点与点重叠状态超过一定时长(如1分钟)才判定居民正在操作使用便民终端设备,这时的时间序列数据才可被用来统计便民终端设备单次使用的时间长度.判定居民使用便民终端设备并统计使用时间的流程图如图1所示.

这里存在一个潜在的问题,依据上述的判定标准,当多个点对象(多个居民)同时与便民终端设备处于重叠状态且超过设定的时间范围时,只能认定某一个居民正在使用便民终端设备,其他居民只是在一旁观察、协助或参谋.如果计算这些居民的停留时间并取其停留时间的平均值作为此次使用便民终端的时间长度,这样势必增加数据计算的工作量.此时可以假定最后离开的居民(点对象)在使用便民终端设备,并以其停留的时间作为本次单次使用便民终端的时间长度.尽管这可能与实际有出入,因为有可能实际使用便民终端设备的居民不是最后离开的,但对于海量数据分析来说这种误差是可以接受的,不会影响到最终的分析结论.

2.2 点与线的拓扑判定分析策略

在大数据环境中,点与线的拓扑分析的内容主要是某些移动对象与交通道路或轨迹之间的拓扑关系.在现实世界中,交通道路是有宽度的(如双向4车道),这就意味着多辆并排行驶的车辆是允许在拓扑上与道路同时发生重叠关系的,但交通道路在数据分析时通常是用线对象来标识,车辆作为点对象来标识,这就存在如何在点与线的位置上存在偏差的情况下判定点在线上的问题.解决这个问题主要有2种方法:

图1 判定居民使用便民终端设备并统计使用时间的流程图

1)将线对象扩展成面对象,即沿着线对象向两侧增加了一定宽度,只有当点对象位于扩展后的面对象中才判定点(车辆)在线(道路)上.如图2所示,由于实际道路的宽度不可避免地存在不同的差异,即在设置扩展线对象的宽度时不同的道路应该有不同的宽度值,道路的宽度值通常包含在电子地图中道路属性字段中.如图2中的1扩展的宽度要比2、3的宽度要大一些.其判定结果如下:车辆(点对象)由于其在1扩展后的多边形区域内而被判定在1(线对象)上,而车辆则因为其在1扩展后的多边形区域以外而被判定为不在线(1)上.当出现车辆(如点)出现在1、2这2条道路扩展后的多边形区域内时,这通常是车辆此时位于十字路口或立交桥上的状态,此时可判定该车辆同时在这两条道路上,如图2中点可从拓扑关系上判定同时在1、2上.

2)将点对象扩展成以其为中心的圆形区域(面对象),圆形的半径可以依据车辆型号的大小进行不同的设置,也可以设置为一个固定的常量.其拓扑判定规则为只有当线对象与点对象扩展后的圆形面对象有位置上的重叠(也就是说线对象穿过圆形扩展区域)则判定该点对象在线对象上.如图3所示,作为车辆的、、三个点对象都被扩展为一个相同半径的圆形对象,其中由于1与点(车辆)扩展后的圆形区域有重叠而判定点在线(1)上,同理点则被判定其不在线(1)上,而点扩展后的圆形区域与1、2都有重叠,则会判定点在两条线(1和2)上.由此可见,其拓扑判别结论与方法1是一样的.

在这种拓扑关系分析过程中经常面临一个问题,即如何有效地去除脏数据.例如,通过分析公交车的运动轨迹来评估城市公交系统路线运营情况(是否按规定路线行驶、是否准时到站等等).作为点对象的公交车,其位置数据可通过安装在公交车上的GPS定位系统和网络传输模块采集得到,而作为线对象的道路,其线路坐标数据来自各种比例尺的电子地图.除了公交车辆的坐标数据和时间序列,标识公交车的唯一编号也将参与大数据分析之中,假定所有公交车都是完整地从始发站点按其线路移动到终点站(反之亦然),其判定公交车运行状态并统计运营时间的流程图如图4所示.

图2 点与线的拓扑分析策略之扩展线对象

图3 点与线的拓扑分析策略之扩展点对象

在图4中省略了对脏数据的判定和处理,由于公交车的线路相对是固定的,删除公交车的部分异常位置坐标(脏数据)并不影响对公交车行驶路线的分析.但在具体数据分析过程中,其脏数据主要来自公交车在一些特殊情况下偏离道路的位置数据,例如公交车在路上抛锚或车祸导致停止运营,则可认定本次从起始站点出发位移所产生的所有数据为脏数据,需要过滤掉这些数据,以免影响判断分析的结果.具体实现时只要公交车位移的实际路线包含始发站点和终点站位置才被认定为一条完整有效的分析路径,否则将被作为脏数据执行删除操作.

分析公交车运营情况还有一种比较巧妙的方法,假定所有公交车都在严格沿着其行驶线路依次进入各个公交站台,则可以把各个公交站台周边采集到公交车的坐标数据作为分析的对象,依据公交车的唯一编号可将判定规则修改为:只要某线路的公交车按其公交线路的站台顺序从上一个站台达到当前站台,便可判定其位移属于“正常”(即按照规定的路线行驶的).此时公交车与道路的拓扑关系的判定转换成了公交车(点对象)与站台(面对象)的拓扑关系,即公交车与站台的距离小于一定范围即可判定公交车达到该站点.由于公交站点的数量毕竟是有限的,相比需要处理公交车沿途的所有坐标数据而言,这种方法的数据计算量明显要小得多.

图4 判定公交车运行状态并统计运营时间的流程图

2.3 点与面的拓扑判定分析策略

在大数据环境中,点与面的拓扑分析也是比较常见的.为了降低拓扑分析计算的工作量,提高数据分析的时效性,常用的一种方法是将其转换成点与点的拓扑关系再加以处理分析,通常以面对象的中心点或预设好的某个特征点为参考点,并以此参考点与其他点对象之间的距离来作为拓扑关系判定条件.

例如,通过分析电力抢修车车辆出勤情况来判定供电局电力抢修车的配置合理性.供电局通常有自己专用的车库,但不排除有些车辆停在车库以外甚至供电局周边附近的位置.在进行数据分析时需要判定电力抢修车是否入库(即停在车库或供电局内),并统计抢修车入库的时长.此时,作为点对象的电力抢修车,其位置信息来自电力抢修车上GPS终端采集的坐标数据,而车库或供电局通常作为面对象(多边形对象).严格意义上来说只有电力抢修车(点对象)在车库或供电局(面对象)范围内才能判定该车辆入库,但针对海量数据分析时这样的拓扑分析算法显得有点复杂,数据计算量过大.为了提高分析处理的时效性可以将其转换为点与点的拓扑判定.

一种简单有效的方法是设置供电局外切圆的圆心或供电局(或车库)大门为参考点,拓扑判定规则如下:当车辆坐标位置与参考点的距离小于特定阈值(如30米)则可判定两点在拓扑关系上的重叠,即判定抢修车停在供电局(或车库)内,处于入库状态;同时加上时间序列即可统计抢修车的入库总时长.判定电力抢修车入库状态并统计入库时长的流程图如图5所示.

如图6所示,左图中是以电局外切圆的圆心点为参考点,只要计算车辆(点)与之的距离是否小于阈值来判定点是否在面内,结果是点在面内,点则被判定其不在面内;右图中是以供电局(或车库)大门点为参考点,通过上述判定规则会误判点不在面内,但引入时间序列后(若点长时间不产生位移时)并适当增加距离阈值(如50米)也是可以判定其在面内(即处于入库状态).

还有一种方式是将车库或供电局抽象为一个覆盖其整个区域的外切矩形,这个外切矩形的四个顶点坐标两两相等,取值为其覆盖其整个区域的坐标极值(即最大值或最小值),这样只要判定车辆坐标位置是否在这个外切矩形内即可.如图7所示,供电局的外切矩形顶点为、、、这4个点,点和点、点和点的横坐标是相等的,同时点和点、点和点的纵坐标是相等的.点和点(分别代表电力抢修车)由于其坐标在覆盖其整个区域的坐标极值范围内而被判定为该两点都在面内,而点不满足这个条件而判定其不在面(供电局)内.总之,只要电力抢修车进入这个矩形区域即会判定为点在面内.

图5 判定电力抢修车入库状态并统计入库时长的流程图

图6 点与线的拓扑分析策略之设置参考点

图7 点与线的拓扑分析策略之设置外切矩形

这样处理的优势在于将点与面的拓扑分析计算转换成点坐标的比较运算,只要比较被分析点对象的横纵坐标(或经纬度)是否在外切矩形的4个顶点提供的坐标范围内即可判定点与面的拓扑关系(点是否在面内),从而大大降低了计算量;其缺点在于现实中的面对象(车库或供电局)不一定那么规则,这个外切矩形不一定能很好地作为参考面对象替代原始面对象,在一定程度上造成误差,如图7中的点会被误判为其在面内.好在可以增加时间序列来弥补这种误差,如电力抢修车的位置维持一段时间不变,说明其处于停止状态,此时可以认为该电力抢修车没有按规定位置停放而已,但仍被判定其处于入库状态.

当面对象的形状无法被抽象成规则形状或抽象后的规则面对象影响到点与面的拓扑判定结果时,点与面的拓扑分析是不能转换点与点来进行拓扑分析的.例如,通过分析地铁站台多个特定范围内人流情况来判定地铁某站台出口闸机设置的合理性.在进行这种分析时,所谓的特定站台范围可以是一个不规则形状,如果把这个不规则形状抽象为点对象或外切矩形都失去了其拓扑分析的现实意义,因为在判断人流移动轨迹时无法摆脱特定站台范围的具体形状,出口闸机设置的位置也直接影响到实际人流移动的轨迹.

为了降低数据分析计算的工作量,可以设置独立的坐标系统.在数据采集时多采用地面传感器产生特定区域内行人的坐标数据,另外一种采集数据的方法是通过在相对封闭区域内安装的多台红外线摄像镜头采集相关的影像数据,而后经过图像设别和处理生成行人的坐标数据.这样在分析行人是否进入特定区域时只要判别行人的点对象是否在特定区域(面对象)内即可,并以此统计特定时间进入该区域的人数,以便作为地铁某站台出口闸机设置合理性分析的依据.

3 结 语

在大数据环境下分析拓扑的目的除了识别对象之间的拓扑关系,更重要的是根据拓扑关系判定对象之间的相关性.换言之,大数据拓扑分析追求的首要目标不再是数据处理的精准性,而在于通过全集采样处理方式分析挖掘其隐藏于地理空间拓扑关系之中的潜在关联.在进行基于地理空间数据的拓扑分析时,可通过设置阈值做近似模糊处理,抽象简化空间对象改变拓扑分析的对象,通过行业规则或流程过滤脏数据,增加时间序列来优化拓扑判定和分析策略,以便在处理时效性和结论准确性之间找到一个平衡点.这就要求在大数据拓扑分析时具体问题具体分析,从海量数据中挖掘有价值的信息服务于生产和生活,推动科技创新和社会进步.

[1] 林子雨.大数据技术原理与应用:概念、存储、处理、分析与应用[M].北京:人民邮电出版社,2017.

[2] 孙傲冰,季统凯.面向智慧城市的大数据开放共享平台及产业生态建设[J].大数据,2016,2(4):69-82.

[3] 陶瑜.智慧城市大数据云服务平台构建研究[J].电脑知识与技术,2017(12):243-244.

[4] 王兆庆,贺勇.基于大数据云平台的智慧城市建设的研究[J].物联网技术,2017,7(12):87-90.

[5] 陈斌.地理空间信息大数据发展思考[J].中国测绘,2016(4):34-37.

[6] 李艳军,李爱国.地理信息系统在智慧城市中的应用研究[J].智能建筑与智慧城市,2018,260(7):98-99.

[7] 贺静,许永存.大数据分析在公路交通信息服务中的应用[J].中国交通信息化,2019,230(04):105-108.

[8] 高超,吴雪梅.交通运输信息数据整合分析研究[J].公路交通科技(应用技术版),2019,15(03):285-286.

[9] 苏文,徐茂蒙.数字城市地理空间数据共享和交换标准体系的构建研究[J].中国标准化,2018(2).

[10]钟大伟.基于面向大数据的地理空间数据挖掘分析[J].中国战略新兴产业,2018,164(32):228-228.

[11]孙静.大数据处理技术在智能交通中的应用[J].赤峰学院学报(自然科学版),2019(5):52-56.

[12]翁小雄,刘永鑫,卢炬康.基于大数据挖掘的城市公交站点生活服务评价方法研究[J].现代电子技术,2019,42(02):75-78.

[13]维克托·迈克·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,等译.杭州:浙江人民出版社,2013.

[14]田董炜,陈岳涛,安俊杰.空间数据挖掘在城市地理信息系统中的应用[J].科学技术创新,2018(19):55-56.

Research on Geospatial Topology Decision and Analysis Strategies in Big Data Environment

ZHANG Li

()

The paper first describes the characteristics of data as an information carrier in the big data environment. Then the differences between the geospatial topological analysis in big data environment and the traditional topological analysis are discussed in detail. Finally, this paper combines several big data topology analysis examples to discuss how to set topology decision rules and analysis strategies in three common cases of big data topology analysis. It includes some methods such as setting threshold value to do approximate processing, abstracting and simplifying spatial objects to change objects of topological analysis, filtering dirty data with business rules and processes, and reducing calculation workload to improve the timeliness of analysis and processing. It attempts to provide some useful references for big data analysis and application based on geospatial data.

big data; topological analysis; geospatial data; geographical information system (GIS)

2019-10-12

张立,男,江西波阳县人,博士,高级工程师,主要研究方向:空间数据的网络发布,大数据分析与应用,数据库管理.

P208

A

1672-0318(2020)03-0011-08

10.13899/j.cnki.szptxb.2020.03.003

猜你喜欢
便民空间数据公交车
你们认识吗
便民公告栏
GIS空间数据与地图制图融合技术
拒绝公交车上的打扰
公交车上
琼岛道班的便民点
公交车奇妙日
便民电话缘何不便民
取消便民门诊不能顾此失彼
网格化存储的几项关键技术分析