基于多源数据的出行安全时空评价模型研究

2019-11-12 08:29王茜竹江德潮雒江涛
关键词:栅格特征空间

王茜竹,徐 瑞,江德潮,雒江涛

(1.新一代信息网络与终端重庆市协同创新中心,重庆 400065;2.重庆邮电大学 电子信息与网络工程研究院,重庆 400065)

0 引 言

随着智慧城市建设的高速推进,包括交通、环境、治安等方面在内的诸多安全问题逐渐暴露出来,《关于推进城市安全发展的意见》是由中共中央国务院办公厅于2018年1月7日发布的,文中指出,随着我国城市化进程明显加快,城市人口、功能和规模不断扩大,发展方式、产业结构和区域布局发生了深刻变化,城市运行系统日益复杂,安全风险不断增大[1]。本文聚焦城市出行安全问题,出行安全是指居民出行所需的包括交通、环境、治安等多方面在内稳定的外部环境和秩序。近年来,一些城市相继发生出行安全事故,如上海外滩踩踏事件、女教师夜跑遇害事件等,暴露出城市安全管理存在不少漏洞和短板,而准确评估城市安全态势是保障居民出行安全的关键。

城市是一个复杂多变的综合体,评估城市出行安全态势需要融合多领域信息,且需要体现其时空动态特性[2]。传统的评价方法有质量控制法、多元回归法、模糊综合评价法、绝对数法、事故强度分析法、层次分析法、灰色聚类法等[3-6],这些方法虽然在操作上因相对简单而具有优势,但其对于事故的分析过于简单,且评价结果过度依赖评价人员的主观意识,使得评价结果往往缺乏科学性和说服力。近年来利用数据分析、数据挖掘等新方法处理安全评价问题是该领域的一个研究热点,杨天军等指出影响城市交通安全的因素众多且关系复杂,指标权重难以确定,因此提出利用BP神经网络的方法进行城市交通安全性的评价[7]。魏琳娜等提出利用神经网络理论建立城市道路交叉口安全预测模型,从而对城市道路交叉口的安全形势进行预测[8]。江慧娟针对城市居民的居住适宜性展开研究,结合出租车轨迹、在线地图兴趣点(point of interest, POI)以及地理国情普查等多源数据,基于分时段的社区交通热点和社区活跃度构建城市社区宜居性动态评价方法[9]。而随着智能手机和各种传感器设备的普及,城市数据种类愈加繁多,这些数据大多为时空数据,许多学者对此展开研究,通过多源时空数据挖掘来应对城市发展过程中的诸多问题,辅助城市规划、决策[10-11]。文献[12]利用出租车轨迹数据及公共交通刷卡数据,考虑地理数据的时空信息,通过基于邻接关系的时空谱聚类来挖掘居民出行模式。文献[13]则通过对城市中多种多源异构人类行为轨迹数据的获取、整合、分析、挖掘,来分析城市职相关住空间特征。文献[14]利用轨迹数据,通过地图匹配、车辆速度估计及道路拥挤分类等一系列步骤,研究城市的交通拥堵分布状况。文献[15]通过时空聚类方法研究出租车载客数据,挖掘城市载客热点区域,为出租车和乘客推荐载客和乘车地点。文献[16-17]利用大量出租车全球定位系统(global positioning system, GPS)数据进行分析挖掘,提取行驶距离、行驶时间、平均车速等参数从而得到城市人口流动性、城市热点区域等特征。

充分考虑多特征与出行安全之间复杂的非线性映射关系以及出行安全的时空传播特性,建立出行安全时空域协同训练评价模型。首先,基于条件随机场(conditional random field, CRF)构建时间域评价模型,输入时间类特征如人口、交通流、空气质量指数(air quality index, AQI)等来模拟一个区域安全指数的时序相关性;然后,基于神经网络构建空间域评价模型,输入空间类特征如路网结构、兴趣点分布以模拟不同区域安全指数的相关性,这里考虑区域之间空间类特征的相关性以及地理位置的邻近性。在模型训练阶段,考虑训练样本数据稀疏性问题,采用基于协同训练的半监督学习方法,利用大量未标记样本数据训练模型,使其相互迭代、增强;在评价阶段,2个模型分别进行分类预测,再动态聚合得到最终评价结果。

1 出行安全评价特征

1.1 特征概述

城市是一个复杂的综合体,只有统筹道路交通、治安、环境、实时热度等多种因素才能够行之有效地进行城市居民出行安全评价。因此,本文充分研究了较为成熟的道路安全评价指标体系作为出行安全评价中交通类特征选取的重要考量,同时参考其他领域学科的理论研究对其进行概念延伸,利用移动用户位置数据、出租车轨迹数据、历史事故数据等确定了城市出行安全评价的5个基础特征:人口、交通流、AQI,POI、路网结构,并对所需数据做了相应的梳理,如表1。

按照出行安全评价特征在时间和空间维度上的特性,可以将其分为2类:时间类特征和空间类特征。时间类特征是指该特征在时间维度上呈动态性变化,包括某区域的人口特征、交通流特征、AQI特征。空间类特征是指该特征不会随时间变化,但会因空间位置的不同而呈现出明显的差异,包括区域的POI特征以及路网特征。

表1 出行安全评价基础特征

1.2 数据处理

数据处理方面,主要包括数据预处理及时空匹配。在对多源数据进行数据清洗、数据转换之后,对其做时间和空间匹配,在不丢失数据分布特性的基础上确保特征在时空粒度上的一致性。时间维度上,对数据做以小时为单位的时间划分,也即将不同形式的时间字段转换到对应的时间区间内从而完成时间维度上的匹配;空间维度上,对数据做基于地图栅格化处理的空间匹配,具体方案是:首先确定目标研究区域,然后设定栅格边长L,将目标区域均分为若干个L×L的正方形栅格,用栅格坐标代替栅格区域内的地理位置坐标,即重新建立了目标区域的栅格坐标系,将移动用户位置数据、出租车位置数据等映射到了栅格中。本文中设定L为1 000 m。

1.3 特征提取

针对每一类基础特征展开研究,充分挖掘数据的语义价值,选择与出行安全相关的特征参数作为评价模型的输入。

1.3.1 人口特征

人口因素对于出行安全至关重要。结合心理学和社会学的相关理论研究不难发现,人烟稀少极易使人产生不安全感,而人口过于密集的地方又往往蕴藏着许多威胁安全的不确定因素,此外,本文还考虑了人口流动性对出行安全的影响,由此确定了以下3个特征参数:人口热度fp是指单位时间(1小时)、单位区域(1 000 m×1 000 m栅格)的人口数量;进入流量fa是指单位时间内进入到目标区域的人口数量;离开流量fl是指单位时间内离开目标区域的人口数量。

1.3.2 交通流特征

本文使用出租车轨迹数据获得区域的交通流参数,参照道路交通领域的相关参数定义,选择车速的期望、标准差、分布3个参数。

车速期望E(v)定义为

(1)

车速标准差D(v)定义为

(2)

根据车速等级的通用划分方法,将其分为0≤v<20,20≤v<40,v≥40,3个区间(车速单位为Km/h),一个栅格内车辆的车速在这3个区间的分布定义为

(3)

(1)—(3)式中,p.l∈g.R表示落在栅格g.R内的点。

1.3.3AQI特征

城市发展所伴随的日益严重的环境污染问题不容小觑,环境安全也成为居民出行安全中举足轻重的一部分,其中空气质量又是其中最为关键的一环,近年来城市特别是大型城市的雾霾问题成为居民出行的一大障碍。本文选择AQI等级fi作为环境安全的重要考量。

1.3.4PQI特征

POI数据是和居民生活息息相关的地理位置数据,一个区域内各类别兴趣点的数量及分布往往代表着这个区域的功能以及交通模式等,这对于城市出行安全评价有着重要的参考价值,一些兴趣点甚至与城市安全有着直接的因果关系。因此,将区域内POI的数量以及分布情况作为出行安全评价的特征,定义以下2个特征参数。

1)POI数量fn。统计目标栅格内如表2所示类别的POI数目,得到fn;

2)POI区域占比fρ。这里,将一个栅格划分为更小的单元格,如图1所示,计算目标栅格内包含POI的小区的数目,得到POI区域占比fρ。

表2 POI类别

图1 POI分布密度Fig.1 POI Density

1.3.5 路网特征

一个区域的路网结构在一定程度上代表了它的交通模式,因此对于评估目标区域的交通安全性,进而评估出行安全有着重要的参考价值。参考道路交通研究领域的相关参数定义标准,本文采用3个与路网结构相关的特征参数:高速公路的总长度fh、其他低级路段的总长度fr、路口的数量fs。

2 出行安全时空评价模型

2.1 模型概述

城市居民出行安全评价模型的框架如图2。模型分为训练和评价2个部分:训练部分,数据流的方向由图中的虚线箭头标注,首先从多源数据中提取出行安全评价的特征,根据其时空特性分为时间类特征和空间类特征2类,并分别输入基于CRF的时间域评价模型和基于改进BP神经网络的空间域评价模型,然后,为了应对训练样本数据稀疏性问题,本文采用协同训练的方式,利用大量的未标记数据提升模型性能;评价部分,数据流的方向由图中的实线箭头标注,多源数据经过特征提取后,输入到训练好的模型中,这里,时间类特征和空间类特征将被分别输入到对应的评价模型中,得到2个概率值,选择置信度最高的分类结果作为模型的最终输出,这样就得到了目标区域目标时间区间的安全指数等级。本文将模型输出做可视化展示以更加直观地了解模型的评价结果,利用样本数据集中的测试数据验证模型性能。

图2 模型框架图Fig.2 Model frame diagram

2.2 基于CRF的时间域评价模型

2.2.1 问题定义

在时间维度上,假设某目标区域当前的安全状况仅与其前一小时的安全状况相关,也就是一个典型的马尔科夫假设问题。CRF是给定随机变量X条件下,随机变量Y的马尔科夫随机场。本文采用CRF模型,主要解决由输入序列对输出序列预测的判别模型问题,形式为对数线性模型,学习方法通常为极大似然估计或正则化极大似然估计,其优势在于:条件随机场在独立性假设方面不同于隐马尔科夫模型,它不需要严格的独立性假设条件;另外,条件随机场克服了最大熵马尔科夫模型的标记偏置问题。CRF常用于标注问题,本课题的评价问题也可以等价为安全指数标记问题,这时,在条件概率模型P(Y|X) 中,Y是输出变量,代表标记序列,X是输入变量,表示需要标注的观测序列。

2.2.2 模型结构

基于CRF的时间域安全评价模型的图结构G如图3,图3中包括2种点,灰色的点Y={Y1,Y2,…,Yn}表示隐状态变量也即标记变量,白色的点X={X1,X2,…,Xn}表示观测值,Xi={Fh,Ft,Fa,t}(t表示以小时为单位的时间戳)。点Yi∈Y共同组成了链,每2个点Yi-1与Yi之间形成一条边,并且带有安全标签。当给定条件X时,随机变量Yi满足马尔科夫性,可以表示为

P(Yi|X,Yj,i≠j)=P(Yi|X,Yj,i~j)

(4)

(4)式中:P(Y|X)为线性链条件随机场;i~j表示i与j在图G中相邻。

图3 时间域模型图结构Fig.3 Graphic presentation of the temporal model

在给定观测序列X为条件时,选用指数势函数并引入特征函数即可得到条件概率P(Y|X)为

(5)

(5)式中:tj(Yi-1,Yi,X,i)是定义在观测序列的2个相邻标记位置i,i-1上的转移特征函数,用于表征相邻标记变量之间的相关关系以及观测序列对其产生的影响;sk(Yi,X,i)为定义在观测序列的标记位置i上的状态特征函数,用于表征观测序列对标记变量的影响,一般情况下,特征函数的取值通常为1或0,满足特征条件时取值为1,否则为0;λj和μk为对应的权值。

将转移特征与状态特征及其对应的权值分别用统一的符号进行代替。令sk(Yi,X,i)=sk(Yi-1,Yi,X,i),(5)式可转换为

(6)

(6)式中,Z为规范化因子,用于确保(6)式是正确定义的概率。

在模型训练阶段,主要讨论给定训练数据集估计CRF模型参数的问题,即CRF的学习问题。从实际角度考虑,CRF模型可看作是定义在时序数据上的对数线形模型,其学习方法主要有极大似然估计和正则化的极大似然估计。给定k个训练数据集{X(k),Y(k)},参数λ的极大似然函数为

(7)

2.3 基于神经网络的空间域评价模型

在空间类特征方面,研究空间域评价模型的构建以模拟其空间相关性。在输入阶段,考虑空间特征的静态特性,提出一种多样化输入生成方法以提高模型训练效率及预测精度;在模型构建阶段,采用遗传算法对BP神经网络进行优化以应对其收敛速度慢、易陷入局部极小值等问题。

2.3.1 问题定义

空间域模型主要是通过对待评价区域的特征观测值以及其周围若干区域的空间类特征观测值和安全标记进行分析,预测待评价区域的安全指数。这里,安全指数的空间相关性主要考虑2点:①地理位置上的邻近区域对待评价区域的影响;②空间类特征强相关的区域与待评价区域的相关性。本文用皮尔森相关系数来表征特征之间的相关性为

(8)

因此可以明确空间域评价模型的输入为以下几点。

1)待评价栅格x与带有安全标记的栅格k的POI特征之间的皮尔森相关系数为

(9)

(9)式中,Fp=(fn,fρ),其中,fn为POI数目,fρ为POI分布密度。

2)待评价栅格x与带有安全标记的栅格k的路网特征之间的皮尔森相关系数为

(10)

(10)式中,Fr=(fh,fr,fs),fh,fr,fs分别为栅格内高速公路长度、其他等级道路长度、路口个数。

3)待评价栅格x与带有安全标记的栅格k之间的地理距离为

dkx=Geo_Distance(lk,lx)

(11)

4)栅格k的安全指数ck。

模型的输出即为待评价栅格x的安全指数cx。

2.3.2 模型结构

空间域评价模型主要包括2个部分:输入生成阶段和BP神经网络,如图4。输入生成阶段首先要选择n个带有安全标记的栅格,计算出模型所需的各项输入值,其中,D1为特征间的距离(本文用皮尔森相关性表征),D2为2栅格中心点之间的地理距离;BP神经网络部分主要包括网络结构的确定、初始权值和阈值的确定等。下面将分别对2个阶段进行详述。

图4 空间域评价模型结构Fig.4 Structure of spatial model

1)输入生成阶段,首先随机选择n个带有安全标签的栅格gn得到栅格组合g1用来推测待评价栅格的安全状况,可以表示为

g1=(g1,g2,…,gn)

(12)

然后,按照(8)—(11)式计算输入值。

由于栅格的POI特征以及路网特征均为静态数据,因此如果重复选择相同的栅格组合,那么网络的不同输入(ΔPnx,ΔRnx,dnx)组合之间差异较小,从而导致模型的输出即待评价栅格的安全指数将不会与已标记栅格的安全指数ck有太大差异,那么模型在训练阶段将会忽略这样的输入组合,而这将严重影响模型的训练效果。因此,提出一种输入生成方法使模型的输入训练数据更加多样化,具体方法为,将选择过程执行m次从而得到一个输入集合。每一轮栅格组合选择过程中,需要保证集合中与之前的集合相同的安全标记栅格不得超过e个,上述规则可表示为

Q={g1,g2,…,gm},∀gi,gj∈Q,|gi∩gj|≤e

(13)

2)在空间域评价模型部分,本文采用BP神经网络构建安全评价模型,选择线性函数作为输入层传递函数,sigmoid函数φ(x)作为隐含层和输出层传递函数,则模型输出为

(14)

在模型训练之前,首先要初始化网络的权值和阈值。采用遗传算法对BP神经网络的初始权值和阈值进行优化。用遗传算法中的个体代表网络的初始权值和阈值、个体值初始化的BP神经网络的预测误差作为该个体的适应度值,通过选择、交叉、变异等遗传操作寻找最优个体,从而得到最优的BP神经网络的初始权值和阈值。

2.4 协同训练

在模型训练阶段,带有安全标记的样本数据珍贵而稀少,而城市出行安全相关的各类特征数据却唾手可得,因此采用基于协同训练的半监督学习方法来充分利用未标记数据从而提升模型的学习性能。图5为本文协同训练的整体框图。首先针对2类特征分别构建评价模型:时间域评价模型和空间域评价模型,2个模型分别对未标记数据进行评价,并标记一部分置信度高的数据给另一模型用以训练,然后重复此过程使模型得以更新,以此迭代到更多的未标记数据加入标记数据集。

图5 协同训练Fig.5 Co-training

出行安全时空协同训练模型为:

输入:特征集(Fh,Ft,Fa,Fp,Fr);

有标记样本集G1;

未标记样本集G2;

学习轮数阈值θ;

输出:时间域评价模型TE,

空间域评价模型SE

方法步骤:

1.i←0;

2. Do

3. SE←SE.Learning(Fr,Fp,G1);

4. TE←TE.Learning(Fh,Ft,Fa,G1);

5. 将未标记点集合G2中的每个点输入SE进行评价,对于每类评价结果,选择ni个置信度最高的样本加入到G1中。

6. 将未标记点集合G2中的每个点输入TE进行评价,对于每类评价结果,选择ni个置信度最高的样本加入到G1中。

7.i++;

8.UntilG2为空或i>θ;

9.返回TE,SE;

评价阶段如图6。考虑待评价栅格安全指数的时序相关性,见图6中的虚线箭头所示,其空间相关性,见图6中的实线箭头所示,将2类特征集分别输入SE,TE 2个模型中,得到2个模型的评价结果的置信度,也即选择2个评价模型置信度最高的评价结果作为模型的最终输出为

(15)

(15)式中,C表示所有栅格的集合。

图6 评价预测模型结构Fig.6 Philosophy of the evaluation inference model

3 实验结果分析

3.1 数据集

实验所使用的数据集来自SODA上海开放数据创新应用大赛,其中包括上海市政府和各企事业单位提供的开放数据集以及来自100名志愿者的安全标记数据集,其中安全标记分为0,1,2,3,分别代表安全、较安全、较不安全、不安全,数据集详细信息如表3所示。数据时间跨度为2017.03.01—2017.03.07,在构造训练集和测试集时采用分层采样的方式以确保每种类别的安全标记在训练集和测试集中比例一致,采用可视化的方式辅助选择,也即将安全标记数据映射到地图上进而保证训练数据集和测试数据集在标记样本分布以及时间和空间维度分布上的均匀性。

3.2 评价指标

本文采用精确率、召回率、F1值以及混淆矩阵作为模型的评价指标。以二分类问题为例,通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测可能正确也可能不正确,预测结果包含以下4种情况,4种情况出现的总数分别记作:

TP(真正例)—将正类预测为正类数;

FN(假反例)—将正类预测为负类数;

FP(假正例)—将负类预测为正类数;

TN(真反例)—将负类预测为负类数。

则精确率,也称查准率可定义为

(16)

召回率,也称查全率可定义为

(17)

F1值是精确率和召回率的调和均值,其计算方式为

(18)

由此可得分类模型的混淆矩阵,矩阵的每一列表示模型预测的样本情况,每一行表示样本的真实情况。

表3 数据集详细信息

3.3 结果分析

为全面评估模型性能,首先验证模型的整体结果并与其他几种常用的分类算法进行对比;然后分别对时间域评价模型和空间域评价模型的性能进行验证;最后针对本文采用的基于协同训练的半监督学习方法进行评估。

3.3.1 模型整体结果

将本文提出的基于CRF和改进BPNN的协同训练评价模型与其他常见的分类方法,包括DT,SVM,BPNN,以及单独使用CRF和改进BPNN时,模型性能的对比,评估指标为精确率、召回率以及F1值,结果如表4。

为更直观地体现模型性能对比,将结果以柱状图的形式展现,如图7所示。显然,本文提出的模型在精确率、召回率以及F1值3个方面均优于其他几种常用的算法;而如果单独使用CRF模型或改进BP模型,性能依然不如本文提出的基于协同训练的组合模型,这也很好地验证了本文中针对时间类特征和空间类特征分别建模并协同训练的方法有效性。

表4 模型整体结果对比

图7 模型性能对比Fig.7 Overall results of different methods

3.3.2 时间域评价模型结果

本节将单独评价时间域模型的预测性能,图8,图9分别为一天24小时中模型预测的精确率和召回率。

图8 时间域评价模型精确率Fig.8 Precision of temporal evaluation model

首先,比较将全部特征输入时间域评价模型以及仅将时间相关特征输入模型时的性能差异,也即图中的2条不同的折线。不难发现将全部数据输入模型非但不会提高模型的预测性能,反而会降低预测精度,这也很好地验证了本文提出的将特征分为时间和空间2类并分别建模的必要性;然后,观察图中曲线的变化趋势,不难发现时间域评价模型在一天中的8点和18点左右预测性能达到最优,结合实际情况可以尝试解释这一现象:8点和18点为城市的早晚高峰时段,此时城市的出行状况尤其是交通状况最为复杂,也即此时影响出行安全的主要因素为时间类特征如交通流特征、人口特征等,因此,用以模拟出行安全时序相关性的时间域评价模型性能达到最优。

图9 时间域评价模型召回率Fig.9 Recall of temporal evaluation model

3.3.3 空间域评价模型结果

在空间域评价模型的输入阶段,图10展示了选择不同个数的栅格组合时进行空间评价时模型预测准确度的差异,由图10可知,选择3个栅格时模型的精度最高,因此,确定n=3。表5为空间域评价,模型混淆矩阵。

图10 栅格个数与时间域评价模型精确率Fig.10 Spatial model performance with different number of grids

3.3.4 协同训练结果

本模型为了解决标记样本数量少而未标记数据丰富的问题,提出采用协同训练的方法。这里,设置置信度阈值为0.85,也即如果时间域评价模型或空间域评价模型对一个实例的分类结果的置信度大于0.85,则将此评价结果纳入标记数据集。

表5 空间域评价模型混淆矩阵

表6为协同训练综合模型的混淆矩阵。图11,图12分别表示协同训练的精确率和召回率。图11,图12中SE代表空间域评价模型;TE代表时间域评价模型,经协同训练后的时空域融合模型在精确率和召回率方面均优于单独使用时间域评价模型和空间域评价模型,从而证明协同训练提高了模型的预测能力,可有效地应对训练数据稀疏带来的模型预测精度低等问题。

表6 模型混淆矩阵

图11 协同训练精确率Fig.11 Precision of Co-training

4 结束语

本文主要针对城市居民出行安全评价问题,提出了一种基于CRF的时间域模型和基于神经网络的空间域模型协同训练的出行安全评价模型,经验证此模型评价预测精度较传统方法有显著优势。由于数据集所限,本文在时间域模型中仅考虑了相邻时间的时序平滑性,未考虑其周期性和趋势性,下一步研究工作可考虑利用深度卷积神经网络等方法模拟出行安全的周期性和趋势性。

图12 协同训练召回率Fig.12 Recall of Co-training

猜你喜欢
栅格特征空间
根据方程特征选解法
离散型随机变量的分布列与数字特征
基于邻域栅格筛选的点云边缘点提取方法*
空间是什么?
基于A*算法在蜂巢栅格地图中的路径规划研究
创享空间
不忠诚的四个特征
不同剖面形状的栅格壁对栅格翼气动特性的影响
基于CVT排布的非周期栅格密度加权阵设计
QQ空间那点事