高速公路桥梁路段交通安全风险评价及影响要素挖掘

2022-12-01 07:31赵晓华杨海益戴义博苏岳龙
同济大学学报(自然科学版) 2022年11期
关键词:交通秩序交通流路段

赵晓华,杨海益,姚 莹,郭 淼,亓 航,戴义博,苏岳龙

(1.北京工业大学城市建设学部,北京 100124;2.高德软件有限公司,北京 102299)

相对高速公路的普通路段、隧道、服务区等,桥梁路段因其所处位置特殊性、外部环境复杂性,故其发生的交通事故严重性也最高[1]。作为高速公路交通安全治理的重要路段,有必要对其安全风险要素开展深入分析,以识别高风险区域及其诱发因素,为提升高速公路桥梁路段的安全水平提供指导。

当前,面向桥梁路段交通安全风险相关研究,国内外学者主要关注由桥梁结构特征所产生的风险,例如陈丰等[2]通过驾驶模拟实验研究桥上侧风对于行车稳定性的影响;周晋冬等[3]采用自然驾驶数据,论证当桥头沉降差较大时,桥头跳车会增加驾驶员生理、心理上的负担;此外,也有学者围绕车-桥耦合振动、极端外力条件等对桥上行车安全性的影响作用开展了相关研究[4]。而交通流(如流量、速度、拥堵指数)、道路属性(如跨河桥上、下游过渡区)及外部环境(如天气条件、风力等级等)要素及其耦合作用作为影响桥梁交通运行安全风险的关键,由于其位置的特殊性及数据采集的困难,相关研究受到制约。随着车载导航等智能移动终端的广泛使用,通过GPS(全球定位系统)卫星定位及陀螺仪等内置传感器能够精准采集驾驶人风险驾驶行为(如急加速、急减速、急转弯等)、流量、速度、拥堵指数等参数,一方面为从风险驾驶行为角度评价桥梁路段的安全性风险提供了可能,另一方面也为交通安全风险影响要素的深度解析提供了机遇。

针对交通安全风险评估问题,其解决方法主要以事故数据为因变量构建其与人、车、路、环境间的关联关系模型。例如You等[5]基于支持向量机建立事故预测模型,分析速度标准差、流量等因素对事故发生频次的影响;马聪等[6]通过建立基于负二项和非线性负二项回归模型的交通事故次数预测模型,指出道路湿滑、起雾是造成交通事故主要原因。事实上,受制于交通事故小概率、偶发性、滞后性的特点,近年来,也有研究开始关注驾驶行为、速度波动等变量与交通事故间的关联关系,并以风险驾驶行为和速度差等风险替代指标评估交通风险,挖掘其与影响要素的关系[7],以期将交通安全风险的防控从事后分析转向事前预防,这些研究均取得一定的进展。由于基于事前替代指标的安全风险评价可实现全域的实时评估与诊断,突破事故数据的制约,以替代指标为核心的安全评价与关联要素挖掘研究已受到学者们的广泛关注[8],其具有良好的借鉴价值。

针对风险关联要素挖掘问题,相较传统统计模型、线性模型和因果推断模型,基于树模型的机器学习算法虽具有更强大的非线性分类和自学习能力,在识别多源要素耦合作用下的交通安全风险更具优势[9],但可解释性的匮乏是阻碍其应用的重要因素。而部分依赖图(partial dependence plots,PDP)技术作为一种新的机器学习模型解析方法,可定量化描述树模型的特征变量对交通安全风险的影响作用,为交通风险影响要素挖掘提供新的途径,也为交通管理部门及政策制定者开展精准的道路风险研判提供依据。

综上所述,本文针对高速公路桥梁路段的安全评价及关联因素挖掘问题开展研究,论文以风险驾驶行为及交通运行状态为核心形成交通秩序指数以评价交通安全风险,突破交通事故数据不均衡的限制,及对于潜在的交通安全风险影响要素深度挖掘问题,分别建立基于机器学习模型(随机森林、梯度提升决策树)的高速公路桥梁路段风险识别模型,并通过个体条件期望图挖掘交通流特征、路段属性、外部环境条件、时间属性与高速公路桥梁路段风险等级间的量化关系,以期实现对多因素安全风险间耦合作用的深度挖掘,消除基于部分依赖图的影响要素解析中由数据异质性及非均匀效应的影响。研究结果为解决高速公路桥梁路段安全问题提供了新的视角,为主动安全防控和靶向治理方案提供理论支持。

1 数据来源与指标提取

本研究以鄂东长江大桥为研究对象,其是中国湖北省境内连接黄石市和黄冈市的重要过江通道。论文所选数据来源于高德导航软件的浮动车轨迹数据和当地交通管理部门的事故调查数据。高德导航软件数据集包含路段编号、交通流运行状态、外部环境及驾驶行为。事故调查数据集包含事故发生时间及所处的道路桩号。

1.1 路段单元划分

研究以同质性为划分原则,将鄂东长江大桥划分为6个区域,分别为高速公路路基直线段、高速公路路基曲线段、跨河桥上游过渡段、跨河桥下游过渡段、跨河桥段、跨线桥段。但由于跨河桥上、下游过渡区分别连接圆曲线和互通立交匝道,而部分学者已证明圆曲线和互通立交匝道对驾驶行为有较大负面影响[10-11]。为防止这两个特殊区域对风险识别模型的影响,根据美国道路通行能力手册,入口匝道的影响缓冲区设置为450 m[11]。不同路段的起终点桩号范围、路段长度详见表1。

表1 各路段单元的桩号范围Tab.1 Stake number of each unit partition

1.2 关键参数提取

在原始数据集中,部分变量可直接用于风险影响因素解析,例如路段限速值、能见度等。其余变量需在原始数据的基础上提取获得新的特征变量,例如速度变异系数、延误系数等。具体定义如下。

1.2.1 激进驾驶行为频次

激进驾驶行为事件主要包含急加速、急减速、急左并道、急右并道、急左转和急右转。激进驾驶行为数据是由手机传感器采集,其可精准辨识用户在行车过程中实时发生的激进驾驶行为事件,并记录事件发生的时间和经纬度。而受用户隐私保护协议的限制,具体的判定算法无法给出。此外,因不同道路长度和某时段内导航软件用户数量的差异,原始数据无法在同一尺度下衡量路段风险程度。故需将原始激进驾驶行为发生的次数转化为集计数据后再开展分析,集计激进驾驶行为频次FEijk的计算方法如下:

式中:i与j分别表示某天和某时(i=1,2,3,…,62,j=0,1,2,…,23);k表示路段编号;FEijk为i日j时k路段发生的驾驶行为事件频次;sum(eventijk)为i日j时k路段发生的激进驾驶行为次数之和;lk表示路段长度;UPijk为i日j时k路段的导航软件实际用户量。

1.2.2 速度变异指数

相关研究表明,高风险和较高的事故频次与某路段内交通流平均速度的离散程度和速度变异系数(coefficient of speed variation,CSV)有显著关联[12]。速度变异系数是评价交通流速度离散程度的指标。速度变异系数越大,则表明交通流速度的分布越离散,交通运行状态越混乱,交通安全风险越大。速度变异系数CSVijk的计算公式如下:

式中:σvijk为i日j时k路段的交通流速度标准差;vˉijk为i日j时k路段的交通流速度平均值。

1.2.3 延误系数

拥堵会对交通安全产生负面影响[12]。延误系数可有效衡量路段内的拥堵程度。延误系数CIijk的计算公式如下:

式中:vk表示k路段的自由流速度。

1.2.4 交通流量等级

为了表征交通流量在不同时段的差异性,使用K均值聚类算法,将导航软件的用户量离散化为三类,分别为低峰期、平峰期、高峰期,并以聚类后各类的最大值、最小值设定区间划分阈值,具体定义如下所示。交通流量等级是一种状态参量,而非具体量值。

低峰期:UPijk∈[0,343)

平峰期:UPijk∈[343,757)

高峰期:UPijk∈[757,+∞)

1.3 交通秩序指数

当前,交通安全分析主要以事故作为评价指标,但交通事故具有偶发性、局部性、滞后性等特质,无法覆盖全时空域的风险场景,易忽略事故发生时的潜在风险要素,实际应用过程中,难以开展全局动态交通安全评估与辨识。此外,由于事故数据数量和质量的限制,传统统计分析及大数据机器学习算法均难以发挥真正效能,导致影响因素解析能力不足。借助导航软件,依托海量驾驶行为及交通流状态数据,为提出以风险替代指标为核心的交通安全风险评价方法提供了新的机遇。Yao等[13]提出了交通秩序指数(traffic order index,TOI),并通过交通秩序指数评价城市道路的安全性和顺畅性。交通秩序指数是一种基于激进驾驶行为和速度变化特性的交通安全风险替代指标。Yao等[13]通过关联交通秩序指数与事故数间的关系发现,交通事故数多且事故持续时长较长的路段,交通秩序指数较低。总之,当路段内激进驾驶行为频发,且交通流紊乱时,其交通秩序指数较低,交通安全风险较高,秩序指数代表风险发生的概率,其计算方法详见文献[13],简要计算流程如下所述。

交通秩序指数是由优劣解距离法(technique for order preference by similarity to an ideal solution,TOPSIS)及熵权法等算法将多类激进驾驶行为与速度变异系数加权而得。交通秩序指数的计算方法如式(4)所示。

式中:TOIijk为i日j时k路段的交通秩序指数;Sdbijk、SCSVijk表示激进驾驶行为和车流速度波动的风险评分;wk为激进驾驶行为和速度波动风险评分在交通秩序指数中所占的权重,k={db,CSV}。

激进驾驶行为风险评分Sdbijk是由TOPSIS算法综合急加速、急减速、急左转等激进驾驶行为频次计算而得。TOPSIS算法是一种多目标决策分析中常用的有效方法,其已在交通安全分析领域获得广泛应用。而速度波动风险评分SCSVijk的计算方法如公式(5)所示:

激进驾驶行为和速度波动风险评分在交通秩序指数中所占的权重wk由式(6)求得:

式中:σk表示激进驾驶行为或车流速度波动风险评分的样本标准差。

交通秩序指数是综合评判道路秩序程度的指标,为了使其能研判路段内的风险水平,故采用K-均值聚类方法将TOIijk划为三个风险等级,并以聚类后各类别的最大值、最小值设定区间划分阈值,具体定义如下:

高风险道路:交通秩序较差,风险较高:TOIijk∈[0,0.359 8)

中风险道路:交通秩序良好,风险适中:TOIijk∈[0.359 8,0.410 7)

低风险道路:交通秩序较好,风险较低:TOIijk∈[0.410 7,+∞)

1.4 数据库构建

以桥梁路段单元及时间戳为基础搭建时空网格,并匹配所有类型数据,构建桥梁路段安全分析数据库,共计17 856条(6个路段类型×2个方向×62 d×24 h)数据,删除空缺及异常数据后,共计17 160条数据。数据库中各变量的统计性描述如表2及表3所示。

表2 分类变量的定义与统计Tab.2 Definition and statistics of categorical variables量

表3 连续变量的定义与统计Tab.3 Definition and statistics of continuous variables

2 安全分析方法

2.1 高速公路桥梁路段安全风险识别模型

随机森林是一种以决策树为基础的算法,在训练模型的过程中引入随机属性选择,并采用引导聚集方法,最终结合多个弱分类器形成强分类器。由于随机森林模型结合了多个弱分类器的预测结果,故随机森林模型可以较好地控制过拟合问题。此外,随机森林模型相较于人工神经网络、支持向量机等,其在小样本集上拥有更加出色的分类识别能力[14]。基于此,随机森林模型更适于数据量较小、数据可能存在异质性等情况。简易过程如下:

在已知训练集{(x1,y1),…,(xn,yn)},模型将随机重复采样B次,获得b=1,…,B的不同训练集x'用以训练弱分类器fb。训练后的模型通过计算B个弱分类器的类别概率均值,获得最终的分类结果,如式(7)所示:

本文选择梯度提升决策树模型为风险等级识别性能的对比模型。与随机森林模型不同在于,随机森林是一种引导聚集算法,该类算法会对样本重采样,预测结果是各个分类器的平均值。而梯度提升决策树模型是一种提升算法,基于上次迭代后预测器的分类结果更新样本权值和分类器权值,因此随着模型迭代次数的增加,模型的预测偏差会降低。这两种模型都可有效控制过拟合问题,且在不同的应用场景和数据特质下有不同的性能表现。

此外,在建立高速公路桥梁路段安全风险识别模型时,均需要完成以下步骤:

(1)基于随机分布原则按7:3的比例将数据集划分为训练集和测试集,训练集用于训练识别模型,测试集用于评估模型的分类性能;

(2)训练模型时,采用十折交叉验证方法将训练集的数据随机切分为10份,每次训练会以9个子样本结合1个子样本验证的形式进行;

(3)本文使用网格搜索方式进行参数调优,实现指定参数值的穷举式搜索。

2.2 模型评价指标

为了评估安全风险识别模型的性能,以机器学习模型中常用的分类评价指标准确率、召回率、精确率和F1·Score作为模型评价指标。

对于多分类预测,以各类别所占样本集的比例为权重,计算各类别中每个评价指标的加权平均值。召回率(Recall)、精确率(Precision)、F1·Score的相关定义如下:

式中:i表示交通风险等级的类别编号(i=1,2,3);M为交通风险等级的总类别数,即M=3,wi为第i类在全样本集所占的比例;TPi、FNi、FPi、TNi的相关定义请见表4。

表4 i类风险的混淆矩阵Tab.4 Confusion matrix of i risk level

2.3 个体条件期望图

传统的部分依赖图可反映响应变量和一个或多个特征间依赖关系的平均值,其可能掩盖由特征耦合作用产生的异质关系,只有当特征间相关交互较弱时,才可客观反映特征对自变量的影响关系。由于上述原因,Goldstein等[15]提出了一种全新的机器学习黑箱模型可视化工具——个体条件期望图(plots of individual conditional expectation,ICE),可用于监督学习算法的预测模型。ICE通过计算多组测试集的依赖关系以分解部分依赖值,有助于消除非均匀效应的影响,并可通过绘制响应变量和个别观测特征间的函数关系细化图形,便于深刻理解影响关系。

设S∈{1,…,P},且C为S的补集。此时,S测试样本集下,xs的依赖关系可以表达为

每个子集S都有其个体的依赖关系fs,当特征xs固定且xC变化时,fs可给出此时xC的边际贡献dP(xc)。由于无法直接求解f和dP(xc)的值,可通过计算公式(12)推算公式(11)中的值。

式中:N为S集中样本的个数;{xC1,…,xCN}为S集中xC的不同取值。

2.4 模型框架及流程图

首先,论文分别构建基于随机森林及梯度提升决策树的安全风险识别模型,并通过网格搜索调参及交叉验证提升识别模型的准确性。基于样本权重的召回率、精确率等指标评估模型的识别性能,并在后续分析中保留性能最佳的模型。其次,基于基尼指数的特征重要性排序,筛选对风险等级识别结果影响最大的7个影响要素。最后,应用个体条件期望图解析这些变量与风险等级间的关联关系。模型构建及分析流程图如图1所示。

图1 模型构建及分析流程图Fig.1 Flowchart of modeling and feature analysis

3 模型构建与结果分析

3.1 模型性能对比

网格搜索优化调参及十折交叉验证后,随机森林及梯度提升决策树模型的混淆矩阵如图2所示。经计算,随机森林模型的准确率、召回率、精确率及F1·Score分 别 为89.35 %、89.35 %、89.71 %、89.50%,均高于梯度提升决策树模型的88.70%、88.70%、88.58%、88.60%。结果表明,随机森林模型在风险等级识别方面优于梯度提升决策树模型,其可更好地辨识高风险、中风险、低风险道路的特征。因此基于随机森林的安全风险识别模型将用于下一步分析。

图2 风险等级识别模型的混淆矩阵Fig.2 Confusion matrix of risk level identification models

3.2 特征重要性分析

特征重要性是一种衡量某特征对全局预测结果影响程度的指标,特征重要性越高,表明该特征对风险等级的识别结果影响作用越大。由图3所示,特征重要性由大至小依次是延误系数、平均车流速度与限速值差、能见度、天气状况、交通流量等级、风力等级、路段类型。

图3 随机森林模型的特征重要性排序Fig.3 Feature importance score in RF model

3.3 个体条件期望图分析

个体条件期望值是综合衡量全样本集中,仅当某单因素变化时导致分类结果变化程度的指标。若某因素水平下的个体条件依赖值均值越高,则表明模型分类结果为高风险等级的概率越高。即在当前外部条件下,交通秩序差,安全风险高。

3.3.1 交通流特征相关变量

在交通流特征类变量中,延误系数、平均车流速度与限速值差、交通流量等级会对风险等级的识别结果有较大影响。

平均车流速度与限速值差方面,由图4b可见,随平均车流速度与限速值差增大,该特征对道路安全的影响呈非线性变化趋势。在平均车流速度与限速值差增长时逐步降低,随其进一步增至24 km·h-1后反之上升,表明安全风险在增加。这两种情况可通过两种交通流状况解释。一方面,在平均车流速度与限速值差较小时,则说明此时平均车流速度较高,You等[17]研究得出在交通流较为顺畅时,驾驶员往往会更加激进,从而产生更高的追尾或侧面碰撞的风险。另一方面,随着二者速度差增加到一定限度,此时的情形与拥堵类似,过于密集的交通流会使驾驶员频繁切换车道,安全有序性较差[18]。

图4 交通流特征的个体条件期望图Fig.4 Plots of individual conditional expectation of traffic flow factors

3.3.2 外部环境相关变量

在外部环境类变量中,能见度、风力等级和天气状况会对风险等级的识别结果有较大影响。

图5 外部环境及道路属性的个体条件期望图Fig.5 Plots of individual conditional expectation of external environment factors and road condition factors

3.3.3 道路属性相关变量

针对跨河桥上、下游过渡段,可能造成其高风险的原因是:首先,在这两个路段内均存在桥梁伸缩缝。伸缩缝是一种桥梁特殊构造物,会对行车造成负面影响,其造成的桥头跳车可能导致驾驶员的心率失常、行车不舒适等[21]。其次,在跨河桥路段的限速为100 km·h-1,而跨河桥上、下游过渡段的限速分别为120、110 km·h-1,驾驶员看到限速标志后,驾驶员会迫切改变自己的行车速度。此时,驾驶员容易产生急加速或急减速等激进驾驶行为。而上下游的速度差异性也是影响交通安全的重要因素之一,Cai等[12]在研究中发现,当上下游的车流平均速度差较大时,发生交通事故的概率也同步增加。

根据2016年至2019年4月内不同路段类型的事故空间分布,如表5所示,可评估基于秩序安全分析与事故安全分析关联结果。单位公里事故数由大至小依次为:跨河桥上游过渡段(33.989)>跨河桥下游过渡段(21.467)>跨线桥(19.158)>路基直线段(13.103)>路 基直 线段(13.063)>跨河 桥(12.876)。结果表明,以基于导航数据的交通秩序指数作为风险替代指标,可在一定程度上反映道路安全风险程度。在宏观层面,与事故安全分析所得出的结论基本相同。但交通秩序指数与单位公里事故数间并非呈现线性关系,交通秩序指数更多地关注于激进驾驶行为和速度变化特性层面的运行风险,而非交通事故本身。未来研究中,将进一步寻找二者间深层次的关联关系。此外,也可拓展更多的研究对象,例如城市快速路、交叉口等,论证更多情景下交通秩序指数的有效性。

表5 2016年至2019年4月不同路段类型的事故空间分布Tab.5 Spatial distribution of accidents in different road sections from January 2016 to April 2019

4 结语

论文主要依托导航软件所采集的高频、精准、海量的浮动车轨迹数据,采用基于激进驾驶行为和速度变化特性的交通秩序指数作为安全风险替代指标,主要贡献在于突破了传统事故分析中偶发性、局部性、滞后性等局限,实现全时空域下高速公路桥梁路段的交通安全风险辨识。此外,研究应用个体条件期望图描述及可视化黑箱模型的内部影响关系。相较于传统的部分依赖图,个体条件期望图可在一定程度上避免数据异质性及非均匀效应的影响。所获得的主要结论如下:

(1)道路属性方面,跨河桥上游及下游过渡区是高速公路桥梁路段交通秩序较差的区域,存在较大的交通安全风险;

(2)交通流方面,交通拥堵的严重程度与安全秩序水平呈负相关关系。延误系数每增加0.1,高风险等级的发生概率将增加8%。此外,平均车速与限速值差与安全风险间呈非线性关系,当二者差值约为24 km·h-1时,安全风险较低;

(3)外部环境方面,在能见度较低及不良天气情况下,交通风险较高;随桥梁侧风作用逐步增强,安全风险略微上升。

本文研究结果对于桥梁路段行车安全改善工程和风险防控措施具有参考意义,特别是在主动安全防控方案的设计具有理论支撑作用。在跨河桥上游过渡区及下游过渡区路段宜统一限速,并设置可变信息情报板、注意桥头跳车标志等。在桥梁路段可增设雾天行车诱导灯,一定程度上缓解由于能见度较低及不良天气条件导致的跟车距离难以判断、道路轮廓模糊等驾驶风险。

高速公路桥梁路段的交通安全风险还与桥梁的跨径、桥型、跨越对象、是否设置风屏障等结构特性有关,未来可采集不同类型的桥梁路段行车数据开展秩序分析,进一步深入探究桥梁结构因素对交通安全风险的影响。此外,本文仅简单分析事故与交通安全风险替代指标间的对应结果,未来可探究二者间的深层次关联关系。

作者贡献声明:

赵晓华:提出论点,文献综述,模型推导,初稿修改,校稿。

杨海益:方法论,模型编程实现及构建,初稿撰写。

姚莹:论文修改,数据分析,模型调参及优化。

郭淼:研究内容,论文写作与修改。

亓航:模型构建,文献总结。

戴义博:数据库构建,文献总结。

苏岳龙:需求调研,提供数据。

猜你喜欢
交通秩序交通流路段
基于LSTM的沪渝高速公路短时交通流预测研究
京德高速交通流时空特性数字孪生系统
冬奥车道都有哪些相关路段如何正确通行
浅析汽车驾驶员的人为因素与交通安全
基于XGBOOST算法的拥堵路段短时交通流量预测
高速公路重要路段事件检测技术探讨
基于元胞自动机下的交通事故路段仿真
基于元胞自动机下的交通事故路段仿真
从运动式执法到公民性塑造:城市交通秩序的基础构建
关于规范城市电动车交通秩序的思考