基于朴素贝叶斯的交通事故严重程度分析

2021-03-01 08:17冯天军田秀娟
山东交通科技 2021年6期
关键词:贝叶斯类别概率

冯天军,高 坦,田秀娟

(吉林建筑大学 交通科学与工程学院,吉林 长春 130118)

引言

目前,交管部门主要通过数理统计的方法统计事故发生的概率,分析事故发生的原因,在分析交通事故的严重性及其影响因素时会出现误判。为了更好地进行定量分析,国内外学者在事故严重性分析方面进行了大量的研究,马柱等[1]以事故影响因素为自变量,严重程度为因变量,采用二项Logistic模型建立交通事故严重程度分析模型;孙轶轩等[2]基于C5.0决策树方法建立了事故严重性分析模型,得出影响事故严重性分类的主要因素有碰撞类型、道路属性、事故致因和驾驶人类型等;MUJALLI等[3]基于不同的贝叶斯分类器发现涉及车辆数量、方向、照明以及路面状况等变量可导致严重交通事故;陈昭明等[4]构建了混合Logit模型,分析其与道路、环境、驾驶员及车辆等因素间关系,并提出了刻画参数间相关性的方法;石怀雪等[5]采用stacking方式将CNN与XGBoost组合,生成道路交通事故严重性的分类模型并根据分类结果对特征进行重要性排序,进行特征相关性分析。

国内外研究侧重在道路、环境等客观物理因素上,预测的是碰撞类别(正面、追尾、单车等)的概率,并不能直接反应事故的严重程度。统筹人、车、路和环境方面的因素,运用贝叶斯定理推理出单一因素造成伤亡或非伤亡事故的概率,更加直观地反映各因素对事故严重程度的作用效果,对原有朴素贝叶斯进行改进,生成基于加权朴素贝叶斯的事故类别预测模型,改进后的模型具有更高的预测命中率。

1 数据来源分析

选取2016年内华达州交通局公布的WASHOE CITY共计2 965条交通事故数据进行分析。数据包含了事故发生的时间、地点、伤亡人数以及人、车辆、道路、交通环境方面的因素,按严重程度将事故分为伤亡事故和非伤亡事故。从属于交通参与人、车辆、道路、交通环境四方面的原始数据中,选取天气、碰撞角度、车辆类型、驾驶员年龄、驾驶员状态、道路状况、车道数、有无行人、光线情况、违法行为以及事故地点与交叉口距离11种具有代表性的事故影响因素,并离散分类出子因素进行 分析。

2 基于朴素贝叶斯的事故严重程度分析

2.1 朴素贝叶斯算法构建

朴素贝叶斯算法的原理是根据特征的先验概率用贝叶斯模型计算出后验概率,然后选择具有最大后验概率的类作为该特征所属的类。朴素贝叶斯算法流程[6]:假设有m个类,分别用C1、…Cm表示,x1、…、xn是类的属性变量。给定一个未知类的数据样本S,分类法将预测S具有的最高后验概率的类,即满足P(Ci | S)>P(Cj | S),1≤j≤m,j≠i的类Ci。根据贝叶斯定理,在样本S的情况下Ci类的概率P(Ci | S)为:

式中:P(Ci)—类Ci的概率;P(S |Ci)—在类Ci的情况下S的概率;P(xn | Ci)—在类Ci下的属性变量xn的概率(类条件概率);Li—类Ci在总的训练样本数据集中的个数;L—总训练样本数。

2.2 事故数据离散分类

将内华达州交通事故数据中事故类别作为朴素贝叶斯的分类变量,将事故影响因素作为朴素贝叶斯的属性变量,由于建模需要,将所选的11种影响因素进行离散处理,建立类的属性变量集X:{x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11},变量设置见表1。部分训练数据集的离散处理结果,见表2。

表1 变量设置

表2 部分训练数据集的离散处理

从表2可知,事故序号1是统计的第一起交通事故,该事故发生在有照明情况下的路段上,43岁的大型载客汽车驾驶员在驾驶状态正常的情况下因出现超越路权驾驶行为而导致追尾,造成人员伤亡。统计的事故数据共计2 965条。

2.3 单因素影响分析

单一因素对事故严重程度的影响分析是求出现单一特征时发生事故类别为Cj的概率,通过该概率可以直观地分析不同因素对事故严重程度大小的影响。根据贝叶斯定理,构建单因素对事故严重程度影响模型:

式中:xi—第i个属性变量;Cj—事故类别,分为伤亡事故C1、非伤亡事故C2;P(Cj)—事故类别Cj的概率;P(xi | Cj)—事故类别为条件下各属性变量的概率。

只需求得先验概率P(Cj)及类条件概率P(xi | Cj)便可得出所需后验概率。将一部分事故数据作为训练样本集,借助Python软件实现贝叶斯网络的概率推理过程,得出P(C1)=0.436 8,P(C2)=0.563 2,类条件概率见表3、表4。

表3 各事故影响因素在类C1情况下的概率

表4 各事故影响因素在类C2情况下的概率

2.4 多因素影响下事故类别预测

单因素分析是基于贝叶斯定理计算单一因子的概率,它允许变量属性间存在关联关系,事故类别预测是预测多种影响因子组合情况下发生何种事故的概率,是基于朴素贝叶斯的预测算法。存在两点假设前提:一是各属性变量间相互独立;二是假设属性变量对类别变量影响一致[7]。

在实际交通事故数据中,属性变量间难免存在关联,忽略这种关联会使预测效果明显降低。需先判断两因素间是否近似独立,如“雨天”和“道路积水”明显不独立,在计算时两因素取其一。朴素贝叶斯的另一假设前提是属性变量对类别变量影响一致,实际中不同影响因素对事故类别的影响程度明显存在差异。对属性变量和类别变量之间的关系进行量化,将此值作为加权系数,提出了加权朴素贝叶斯事故类别预测算法:

式中:wi—第i个属性对相应分类的权重,属性的影响程度越大相应的权值就越大。

式中:R(xi | Cj)—类Cj下属性变量xi的实例个数与总样本中xi实例个数的比值。

由改进后的预测算法可以看出,R(xi | Cj)越大,wi越大越小,又P(xi | Cj)介于0到1之间,最越大,这种改进实际上是突出了对类别影响大的属性,弱化了对类别影响小的属性,从而更准确地对多种影响因素组合作用下事故所属类别做出预测。

3 应用分析

训练数据和测试数据比接近73时,算法准确率较高,最终选取900组预测数据,将剩下的2 065组数据作为训练样本数据集。通过Python编程,将训练样本数据集推导出的先验概率和类条件概率代入公式(2)可以推导出所求后验概率,单一因素造成伤亡事故的概率及占比见图1。

图1 单一因素下伤亡事故概率占比

由图1可知,涉事包含行人及摩托车造成伤亡事故概率最大分别为0.906 0和0.888 9,这是由于行人和摩托车驾驶员保护措施不完善造成的;违反交通信号通行和酒驾是最危险的两种驾驶行为,造成伤亡事故的概率分别为0.813 7和0.648 3;从人、车、路、环境宏观因素来看,车辆、道路、天气等因素的危害性不及人为因素。这与道路交通安全实测等级表[9]中的驾驶员能力与素质、气象环境、道路状况、车辆性能等高指标等级基本吻合。

事故类别预测中,将测试样本数据集中的各个属性的概率代入公式(3)中,取较大值作为预测类别。部分事故类别预测结果与实际结果对比见图2。

图2 部分事故类别预测结果与实际结果对比

在测试的900组数据中,通过预测结果与实际数据的对比发现,未改进的预测算法有143组数据预测错误,改进后减少为105组,算法的预测准确率由84.11%提高至88.33%。部分预测错误见表5,两种算法对比见表6。

表5 部分预测错误结果

表6 改进前后算法对比

将图3的各属性变量中伤亡率最高影响因子代入预测算法,预测它们同时发生时事故为伤亡事故的概率达到93.58%,伤亡率最低影响因子同时发生伤亡事故概率为12.69%,进一步证实了单因素影响概率及预测算法的有效性。

图3 各类别事故最高发生率及影响因素

4 结语

(1)基于贝叶斯定理进行了道路交通事故单因素影响分析,量化单一因素造成伤亡和非伤亡事故的概率,得出高伤亡率因素及概率:碰撞行人0.906 0、涉事含摩托车0.888 9、事故路段施工0.835 4、违反交通信号通行0.813 7、夜晚无照明0.743 2、酒驾0.648 3 等,可为交管部门制定事故预防措施提供依据。(2)根据因素影响类别的程度赋权对事故类别预测算法进行改进,分别用改进前后的算法进行预测并与实际数据对比,平均偏差由0.137 5降低到0.098 4,预测准确率由84.11%提高到88.33%。还预测了所有高伤亡因素同时作用下伤亡事故率为93.58%,伤亡率最低的因素同时发生时伤亡事故率仅为12.69%,进一步验证了算法的有效性。

猜你喜欢
贝叶斯类别概率
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
论陶瓷刻划花艺术类别与特征
概率与统计(一)
概率与统计(二)
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
一起去图书馆吧
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究