面向交通大数据的智能处理平台建设研究

2017-10-26 11:01林珠吴佩珊
计算技术与自动化 2017年3期
关键词:结构化交通数据库

林珠+吴佩珊

摘要:现阶段交通数据呈指数增长,并具有结构类型复杂、信息价值较大的特点,为更好地促进交通数据与现在服务业的结合,充分利用其价值为人类生活的便利创造条件,本文研究交通大数据与其它信息平台交互过程中遇到的问题。通过对交通大数据的采集、标准转换、数据流处理等多方面进行研究,建设了面向交通大数据的智能处理平台,提高了数据与其它信息系统的交互能力,为交通数据的深度挖掘做充分准备。

关键字:交通大数据;数据处理平台;HDFS

中图分类号:TP274文献标识码:A

Abstract:

The traffic data increase exponentially at this stage,and has the characteristics of complex structure types and larger value of information.

For combing the traffic data with services,making full use of its value and creating conditions for the convenience of human life,this paper to research the traffic data interaction and other problems in the process of information platform.Based on the research of traffic data collection,conversion,data stream processing and other aspects,the construction of intelligent processing platform for traffic data,improve the ability to interact with data and other information system,make full preparations for the traffic data mining.

Key words:traffic big data;data processing platform;HDFS

0引言

交通大数据包括结构化、非结构化的各类交通数据,包括交通工具GPS地理位置、线圈、微波、智能卡、视频、电子地图、路网、调度资料、基础设施、班次、航班、地铁、气象、从业人员资料……数以千计的数据类别,每日以GB级别增长,海量、动态、实时是重要特征[1]。而不同群体对数据的诉求又体现出不同要求,例如交通主管部门关注交通拥堵状况,车辆异常集结,行业性平均收入等宏观数据;企业关注车辆调度准确,经用收入等关乎运营收入数据;公众关注交通运输的服务是否便利,交通是否顺畅,以及能够随时随地获取交通信息;研究部门希望获得多样化的交通数据,构筑立体的城市交通分析模型等;城市应急处理部门更希望得到事故地点的交通情况以便组织应急救援;公安部门需要从交通视频获得办案证据等[2]。为解决这一系统的问题,交通大数据的研究成为关注的热点,如何充分利用这些数据为各类交通信息系统服务,建设面向交通大数据的处理平台已成为迫切的需求[3]。

1国内外研究现状

在国外,发达国家对城市交通基础设施建设非常重视并已基本完成,在此基础上,开展了一系列的智能交通信息系统搭建,用以实现交通数据的采信、整理、共享、应用,以推动交通有序运营,促进社会民生的全面发展。英国国家交通控制中心研究的ERTICO项目中,通过开发共用规范实现了不同运输方式的多模式交通之间的数据交换与共享;近期英国DETR组织开展UTMC(Urban Traffic Management&Control)项目,通过建立交通数据的处理平台全面推动城市智能交通系统的研发和建设[4]。

在国内,北京已建成了综合交通信息平台,包含了交通数据的采集、整合、标准制定、加工处理和发布的全过程,是一项复杂的交通领域集成信息化工程,北京市专设数据处理平台,开展对交通数据进行预处理、存储和加工等[5]。综观我国各大城市的智能交通发展现状,交通信息化已得到较大的重视并具有一定的地位和作用,普遍的研究着眼于根据用户的实现需求进行信息系统的建设,重点在于数据挖掘技术的决策支持,为交通出行提供便利。

然而,在大量的交通数据应用中,往往容易忽视对数据的预处理研究[6],传统的交通数据预处理需要对数据源到应用的整个流程进行修改,通过ETL的方式再加载和计算,其适应变化的周期较长,在交通大数据应用中,这种模式将难以适应新的需求,智能交通大数据已经突破了以前所限定的结构化数据范畴,具有数据类型多样化、规模化和高速化的特点,数据类型包括了结构化、半结构化和非结构化数据多种类型,尤以非结构化数据为主,因此,需要专门建设面向交通大数据的智能处理平台。

2数据处理平台架构设计

面向交通大数据的处理平台采用Hadoop分布式基础框架解决数据的动态扩展和弹性增长问题,面对大规模的数据,该框架能够对其进行分割与合并,然后结合MapReduce 技术进行并行处理,通过任务的分配解决数据量巨大的问题。平台由三层架构组成,分别是访问层、处理层和展示层组成,三个层次相互连接,通过HDFS 分布式文件系统、HBase 分布式数据库和MapReduceAPI进行结合。通过该平台的构建,可以将采集的各种原始交通数据进行导入、规范化、数据流处理等,最后通过接口或定制数据,为各类型的交通系统提供服务,充分利用分布式处理技术提高数据处理效率,同时也保障了数据的安全。简化后的平台三层架构如图1所示。

其中,数据访问层是处理平台的最底层,包括数据模式设计模块和数据录入、导出模块,主要用于外部數据与该处理平台的交互,数据录入、导出模块能够将外部的关系型数据进行导入,同时也能将经过处理平台后的数据导出到别的系统。对于非结构化的数据,采用数据模式设计,将交通数据中的一系统特征指标,如经纬度、时速、车辆号、线路号等存入Hbase数据库。endprint

数据处理层是平台的核心层,包括数据查询模块、数据加载模块、计算模块。数据加载模块主要处理数据访问层接收过来的信息,并转化为数据处理层可以直接运用的数据,加载过程中主要采用特定的数据表模式将数据存入分布式的Hbase数据库。数据查询模块则将加载后的数据进行并行计算,通过MapReduce技术快速进行数据查询,不仅可以对处理前的数据进行查询,也可以对处理后的数据进行查询,并最终展示给前端用户,同时,该模块也为计算模块服务,为更快速的数据计算和处理提供保障[7]。

数据计算模块与查询模块相结合,采用MapReduce框架进行并行计算,充分调动Hbase中存储的数据,保障平台的可靠性和数据存府的一致性。

3采用关键技术

31平臺数据采集与存储

从交通引入信息化技术改善管理开始,交通数据的处理经历了从文本文件,到平面数据库,到关系型数据库广泛应用,这些应用均及时地处理了数据的存储和操作所面监的一系列问题[8]。然而,随着交通数据量的与日剧增,已经不能单纯采用关系型数据库进行处理,而需要采用能够适应数据动态、高速增长的新型技术,同时,交通信息系统多种多样,面向不同的应用采用不同类型的数据分析,因此也需要采用能够适应其动态扩展的技术[9]。

平台的具体数据采集和存储如下图2所示:

平台采用Hadoop分布式文件系统与HBase分布式数据库相结合的方式进行交通数据的存储,在Hadoop基础上构建HBase例存储系统[10]。主要包括GPS数据、城市一卡通数据、结算清分数据、设施管理数据、交通地理信息、从业人员资料信息等。

一方面,Hbase存储方式能够满足大规模的扩展,列存储的方式有利于数据的并发查询,特别是交通大数据在利用方面更注重数据的查询和读取,在此基础上进行数据的分析与应用,而较少用于数据的修改,因此列存储的方式更适合交通大数据的存储和管理[11];另一方面,该存储模式可以实现动态数据的扩展和时间戳版本的管理,特别是交通实时数据,依赖于车载的GPRS模块上传GPS数据(移动终端),一个移动终端识别号总会在不同的时间向同一个基站发送数据。此外,该存储方式有利于对大规模数据进行分割计算且最后进行结果合并。

32规范化的数据流处理

在数据库设计上,充分考虑业务差异性与数据共性,由近20个部分组成,分别是:公交 GPS 数据,出租GPS数据,重点营运车辆GPS数据,视频管理数据,客运票务数据,一卡通刷卡数据,和交通服务数据等等。原始的数据通过信息手段采集后,进入Hbase分布式数据库,通过数据的分类处理API进行分类处理,并根据需求进行数据展示和服务定制。在收到接入系统的数据后,对接入的数据进行有效性的检验,保证进入平台的交通信息数据是准确有效的,并将经过验证的数据入库,具体数据流处理过程如图3所示。

根据业务规则,对不同来源的数据间建立关联并进行融合,对融合后的数据进行汇总及分析。例如线圈、微波、视频、文件等非结构化数据,与其他信息的融合,得出立体化的,更准确的交通态势分析等,具体工作内容如图4所示。

33数据标准格式

数据标准化处理系统从数据库中取出经过清洗后的数据,根据业务规则将外部系统的数据格式转化为平台定义的标准格式。格式转化流程如下图5所示,并例举部分规则,如图6所示。

4数据处理平台主要功能

交通信息接入平台的功能是从政府管理部门、科研机构等不同机构接入数据,对多源异构的信息数据进行标准化处理后在平台内进行一体化存储。信息接入需遵循统一的数据交换规范,也遵循统一的数据控制策略,以及安全机制。平台主要实现对四类交通信息的接入,即交通基础信息、交通实时信息、交通历史信息、交通视频信息。获取数据的方式包括FTP、socket、webservice、直接数据库获取等多种方式,主要功能如图7所示。

5总结与展望

本文通过对交通大数据现状的分析,提出建设面向交通大数据的处理平台的必要性,对该平台进行架构设计,并介绍其采用的关键技术和主要功能。在现阶段交通大数据的越来越复杂,其应用越来越广泛,因此,建设该处理平台具有深刻的社会意义。

参考文献

[1]何承,朱扬勇.城市交通大数据[M].上海科学技术出版社,2015.

[2]王文静.大数据时代下智能交通系统发展机遇和挑战[J].交通企业管理,2016,31(10):3-5.

[3]曹星艳.基于交通行业的大数据处理平台应用[J].铁路通信信号工程技术,2016,13(2):74-79.

[4]邵志骅,崔林山,卢梦奇.基于Hadoop集群的公安交通信息云共享技术应用研究[J].中国公共安全:学术版,2016,(1):65-69.

[5]刘成,李剑仕.北京市高速公路泵站监控系统架构设计与研究[J].中国交通信息化,2016,(2):124-125.

[6]王冰杨,邓亚.城市轨道交通网络信息平台的研究[J].数码世界,2016,(3).

[7]ANJALI P P,BINU A.A Comparative Survey Based on Processing Network Traffic Data Using Hadoop Pig and Typical Mapreduce[J].International Journal of Computer Science & Engineering Survey,2014,5(1):1-9.

[8]张昕,曾鹏,张瑞,等.交通大数据的特征及价值[J].软件导刊,2016,15(3):130-132.

[9]卢彪,李悦,张万礼.基于大数据技术的智能交通数据分析平台系统的研究与设计[J].湖北科技学院学报,2016,36(5):6-9.

[10]LIU J,LIU F,ANSARI N.Monitoring and analyzing big traffic data of a largescale cellular network with Hadoop[J].IEEE Network,2014,28(4):32-39.

[11]PARK H W,YEO I Y,LEE J R,et al.Study on Big Data Center Traffic Management Based on the Separation of LargeScale Data Stream[C]// International Conference on Innovative Mobile & Internet Services in Ubiquitous Computing.IEEE Computer Society,2013:591-594.endprint

猜你喜欢
结构化交通数据库
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
深度学习的单元结构化教学实践与思考
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
数据库
数据库
数据库
数据库
图说交通
发达交通之磁悬浮列车