张译文 张斌 周欣
(陕西省城乡规划设计研究院,陕西 西安 710064)
出租车浮动车大数据地图匹配与分析
张译文张斌周欣
(陕西省城乡规划设计研究院,陕西西安710064)
机动车行驶数据采集系统是ITS技术在交通领域的最新应用,机动车在安装GPS、UPS等车载设备后,均可实现将车辆的行驶浮动数据通过无线通信方式进行上传,实时地传送到浮动车信息中心。浮动车输出的动态实时交通信息可广泛服务于各交通部门,如可作为交警部门掌握道路实时交通情况、制定缓解拥堵措施的凭证,也可为城市交通规划、市政道路建设提供数据基础支撑。
交通运输;城市交通;大数据;地图匹配
机动车行驶数据采集系统是ITS技术在交通领域的最新应用,机动车在安装GPS、UPS等车载设备后,均可实现将车辆的行驶浮动数据通过无线通信方式进行上传,实时地传送到浮动车信息中心。浮动车输出的动态实时交通信息可广泛服务于各交通部门,如可作为交警部门掌握道路实时交通情况、制定缓解拥堵措施的凭证,也可为城市交通规划、市政道路建设提供数据基础支撑。
地图匹配技术是浮动车大数据处理的关键技术之一,浮动车系统对数据时效性、数据样点间隔、数据样本容量均有较高要求。机动车行驶数据在采集后与城市路网的匹配过程中,往往面临3大关键技术难题:①由于数据是实时上传的,数据容量大,上传时间快,对系统的计算度也因此提出了较高的要求;②上传数据要连续才能保证数据的有效性和真实性,若数据间隔过大会导致数据失真;③城市市政道路路网密集、线形复杂,数据与地图的匹配也会受到影响,因此对系统的容错率有较高要求[1-3]。
浮动车实时路况处理技术在我国各大城市还处于示范阶段,随着浮动车数量的日益增多,浮动车地图匹配算法已难以满足当前应用环境下准确性与实时性的要求。可见,提高浮动车地图匹配的准确性与实时性,是需要进一步研究的课题。
从地图匹配中的影响因素判断,对地图与数据匹配造成影响的因素主要包括以下几点。
1.1GPS的定位误差
1.1.1系统内部误差。一是卫星测量误差。随着时间、位置的变化,GPS会产生一定的误差,如车辆振动产生的误差、卫星误差、接收机本身误差等。二是卫星的几何位置造成的误差。系统内部误差一般通过GPS差分和动态滤波等方法来进行校正。
1.1.2外部突变误差。部分路段线路形势复杂多变,由于建筑、立交桥、城市隧道等设施的影响,导致卫星与车载设备之间的联系时断时续,上传数据间隔过大导致有效性失真,引起的误差也比较明显。在车辆导航定位系统中,必须通过地图匹配、容差率处理等手段对车载系统造成的GPS外部突变误差进行处理。
1.2地图数据库的数据质量
地图匹配中使用的地图来自于GIS中相同路段的道路数据,因此GIS中的道路地图质量会决定最终的匹配结果。GIS中会对地图质量产生影响的因素主要包括数据的准确性、数据的时效性、地图投影等,对基于拓扑关系的地图匹配方法,空间数据拓扑关系质量好坏也是影响匹配效果的因素之一。
1.3坐标投影的变换误差
GPS采用的是WG184地心坐标系系统,而我国目前的GIS数据采用基于北京54坐标系和西安80坐标系,两套系统的地球椭球参数不同,因此必须对GPS数据进行空间坐标系的转换。
2.1算法的步骤及流程
GPS数据的可靠性是判断车辆运行情况的基础,也是算法要解决的核心问题,而GPS数据的精确度与不同地区的地形特征往往是不同的,因此两者之间的匹配关系不能一概而论,需要根据具体情况分别对待即实现车辆导航的智能化。
数据与地图的匹配要求较高的有效性和准确性,这样才能真实、详实地反映道路交通,采集的数据必须来自于行驶中的车辆。地图匹配综合算法的实现步骤是依照地图匹配过程的先后顺序来进行的,首先对GPS的数据进行接受与判读,随后对相应路段的道路情况进行相关研判。地图匹配综合算法的流程图如图1所示。
2.2数据处理
首先提取一个出租车浮动车大数据的数据库文件,通过MicrosoftSQLServer2008ManagementStudio Complete数据库软件将其打开,共有2个数据库,分别存放了2010年9月1、2日南京市部分出租车GPS数据,共33 042 226条数据(其中1日18 668 073条、2日14 374 153条)。
2.2.1浮动车大数据内容。数据主要存在以下两方面的问题,一是无测量误差信息。GPS中上传的数据坐标与车辆实际座标相比存在一定误差,造成误差的原因包括人为加入的GPS信号随机误差,信号在传输过程中经过障碍物、大气时会发生折射和反射会造成时钟误差,因此为了保证上传数据的有效性,必须对数据的误差进行控制。通常GPS设备根据所接收的GPS信号在计算后除出定位坐标外,还将输出水平定位精度(HDOP,Horizontal Dilution of Precision)和垂直定位精度(VDOP,Vertical Dilution of Precision)等信息,而这些测量误差信息都没有被有效地存储。二是无出租车营运相关信息。出租车的运营状态是本文研究的对象之一,同时出租车作为一种特殊的公共交通工具,其与公交车和其他社会车辆的差别也可通过运营状态进行研究,也是后续数据处理的重要输入。当出租车处于停运、停车待客等特殊运营状态时,其采集的数据并不能反映当前道路交通的运行情况。因此,需要依据出租车的运营状态剔除不可用的定位信息。
图1 地图匹配算法流程
2.2.2浮动车大数据初步处理。为了更好地对已有的数据展开处理,从数据库中提取车辆编号为“806584008859”,从单辆车的出行行为进行分析。从2个数据库中抽取1 740条、954条相关数据并复制到Excel中进行进一步处理。将抽取的浮动车大数据样本按照GPSTime升序排列,得出该车按照时间推移运行的状况。通过观察抽取的浮动车大数据,发现数据表中存在一些无效的数据和无效的数据属性。为了能够更好地分析数据,故将ID、Company ID、ReadFlag、CreateDate四列数据对于浮动车大数据的地图匹配并没有起到作用,因此将这个属性删去(见图2)。
图2 数据表中无效数据的处理
随机抽取的数据中,存在大部分时段GPS的定位信息缺失的情况,对于此类数据,将其定义为无效数据并删除(见图3中红色框)。
图3 数据表中无效数据的处理
数据的初步处理结束后,在之后的地图匹配中,将着重分析如何将有效数据段分批次地在地图上进行匹配。
2.3地图匹配技术
地图匹配的实现主要依靠专业软件,对数据和地图匹配过程中的误差进行修正。该技术以模式识别理论为依据,依靠行驶中的机动车辆上传的数据,收集机动车GPS测定的行驶路线、车辆位置等地理信息,与导航系统的电子地图数据相比较、匹配,确定车辆所处的地区或路段方位,并进一步判断车辆具体的位置,并最终进行所在位置的定位误差修正。地图匹配方法与定位技术配合使用,能够极大地提高车辆定位精度,减小定位误差。可以说,地图匹配算法的效果直接关系到车辆定位的精度。基于上述特点,目前广泛采用的定位机制多为无线导航配合地图匹配算法的综合定位方法。
2.3.1软件选用。目前用于地图匹配的软件主要有ArcGIS、MapInfo、MapObject、Google Earth等国外知名的地理信息系统处理软件。但采用相关软件进行地图匹配的前提是获取相关匹配城市的电子地图。本项目采用Google Earth进行初步地图匹配。
Google Earth上的全球地貌影像的有效分辨率至少为100m,通常为30m,视角海拔高度为15km左右,但针对大城市、著名风景区、建筑物区域会提供分辨率为1.0m和0.5m左右的高精度影像,视角高度(Eye alt)分别约为500m和350m。
2.3.2地图匹配算法
①匹配算法的基本原理。地图匹配可视作由2个相互独立的工作组成:一是确定车辆行驶路段所在位置;二是将车辆行驶路段和定位点的匹配结合。
确定车辆行驶路段是整个匹配工作的关键,其基本理论是搜索车辆GPS显示的车辆行驶路段所在地区的所有道路,其次将这些道路与GPS反应的信息进行匹配并计算出最为相似的路段,随后即认为寻找出的路线为当前车辆所在的行驶路线。可见搜索车辆GPS显示的车辆行驶路段所在地区的所有道路是整个算法的核心内容,算法期望达到的结果是确定出一个尽可能小的区域达到提高判断准确性的效果。反之,相反若算法计算出的范围过大,会对寻找车辆路径造成极大的干扰增加不必要的计算量。
从匹配样本的分类角度来分析,算法主要包括位置点匹配和轨迹曲线匹配。其中,位置点匹配算法的优点是具备较高的时效性,算法本身也并不复杂,但相应的由于算法简单所以造成对复杂、密集路网的适应性较差,若立交桥、隧道等设施较多,会降低匹配准确性。与轨迹点算法相反,轨迹曲线由于算法复杂所以对复杂、密集路网的适应性较好,可以更好地应对市政设施带来的影响,提高匹配准确性,但是这种算法的问题是计算量大,对数据时效性要求较高,匹配过程较为缓慢。
②直接投影算法。投影法的基本思想就是:搜索距离车辆GPS显示的车辆当前行驶坐标最近的道路,随后将车辆GPS数据与该道路进行匹配,GPS数据所在的那一点坐标即是算法默认的车辆位置,通过多个点的测算匹配确定车辆的行驶路线(见图4)。
图4 直接投影算法原理
图4形象地表达了投影算法的基本思想。P是GPS测定的车辆所在位置,L1和LZ是车辆所在位置附近的路段,把GPS测定的车辆所在位置向附近所有路段做投影,根据GPS定位点与各路段间的投影距离ri,以及车辆行驶方向与道路间的夹角θi,选出小于给定阀值的所有道路。根据公式计算所有道路的距离度量值:
其中,wr和wθ分别是距离和方向夹角的权值。在所有候选路段中,选择距离度量值最小的作为匹配路段,即认为车辆在该道路上行驶,并将车辆在匹配路段上的投影点作为车辆当前的位置。
③经纬度导入操作方法。使用MakeKml软件,将Excel表格中处理过的需要导入的经纬度数据输入,并生成<点>KML文件和<线>KML文件。在保存后此时会自动打开Google Earth软件,选中其标题,即可在Google Earth上显示导入的经纬度点,并根据点初步做出车辆的行驶路径,如图5所示。
图5 在Google Earth中生成的线路及标签
④路径修正操作。从地图匹配线路的效果上看,经纬度与道路的匹配度还是比较理想的。大多数标签均定位在路网道路上,且偏移情况不明显。但从图6可以看出,Google Earth内生成的线路是由两个坐标点间连线直接生成的。由于提供的定位点数据采集间隔为35s,因此若仅靠两点一线确定走形路线难免会产生一定的误差。因此,需要对其进行必要的修正,即在两个数据点间添加适当的标注点以使走形线路更加准确。
图6 线路偏移现象
按照上述的线路修正方法,在标记点5与标记点6之间添加一个新的坐标点,使得出租车的走行线路能沿着道路的方向。修正后的走行线路如图7中橘黄色虚线所示。
图7 线路偏移修正2
2.4城市出租汽车运营基础指标
本次分析先从数据库中选取一辆出租车,研究2个工作日内的高峰时段(17:30-18:30)与平峰时段(13:00-14:00)数据制成样本出租汽车运营信息表,并进行地图匹配,根据匹配的结果结合出租车信息进行分析,得出出租汽车运营基础指标,对这些数据的分析和统计可以作为出租汽车运营公司的基础数据,为进行更深层次的数据挖掘提供支持。
结果分析表明,地图匹配的结果还是比较符合预期的,GPS数据定位的精确性也较为理想,通过地图匹配出的对应车辆所行驶过的路线也较为准确。这对于后期的浮动车大数据分析打下了良好的基础。
在本文所阐述的地图匹配方法较为简单,大部分采用人工校正的方法。若今后进行深入的研究分析,可考虑选择MapObject与VB编程软件结合,以实现对偏移浮动点的自动修正。在后续的研究中能解决浮动点数据自动修正的技术瓶颈,那么在大数据处理方面将迈出很大一步,这对于分析结果的准确性有很大帮助。
[1]张周强.浮动车交通数据采集技术研究[D].上海:同济大学,2008.
[2]姜桂艳,张玮,常安德.基于GPS浮动车的交通信息采集系统的数据组织方法[J].吉林大学学报(工学版),2010(2):397-401.
[3]孙晓峰,吴建平.基于浮动车数据采集技术的城市交通网络功能评价方法研究[J].现代交通技术,2005(6):55-58.
The Taxi Large Floating Car Data Map Matching and Analysis
Zhang YiwenZhang BinZhou Xin
(Urban and Rural Planning and Design Institute of Shaanxi Province,Xi'an Shaanxi 710064)
Motor vehicle driving data acquisition system is the latest application of ITS technology in the field of transportation vehicles after the on-board equipment such as GPS,UPS,it can realize the vehicle driving floating data upload real-time transmitted by wireless communication mode to floating car information center.Floating car output dynamic real-time traffic information can be widely services in the transport sector,such as real-time traffic conditions of road can be used as the traffic police department,making the credentials of easing congestion measures can also be used for urban traffic planning,can also provide data base support for urban transportation planning and municipal road construction.
transportation;urban traffic;big data;map matching
U491
A
1003-5168(2016)06-0059-04
2016-05-09
张译文(1991-),男,硕士,助理工程师,研究方向:城市道路交通规划。