融合XGBoost与SHAP的机动车交通事故致因机理分析

2023-03-02 01:58陈凯亮李唯真张泽庆
汽车实用技术 2023年4期
关键词:交通事故道路事故

陈凯亮,李唯真,张泽庆

(长安大学 汽车学院,陕西 西安 710064)

道路交通事故因其事发突然、后果严重、涉及多方的特性,被认为是当今世界最为严重的安全问题之一[1],而其中占比最大的事故是机动车事故。根据统计数据显示[2],2020年我国全年发生交通事故244674件、导致死亡61703人、受伤250723人、经济损失131361万元;其中机动车事故发生156901件、死亡43098人、受伤152276人、经济损失107769万元,分别占总量的64.13%、69.85%、60.73%与82.04%。对机动车交通事故致因机理进行分析、总结规律成为预防道路交通事故的重要组成部分。

对于机动车事故总结研究的模型集中于两大部分——统计模型与机器学习模型。陈昭明等[3]采取混合Logit模型分析高速公路交通事故,指出碰撞护栏与桥墩、驾驶员为女性、驾驶员年龄大于56岁等因素显著提升事故死亡率。同时李泽文[4]、江山[5]、张道文[6]、JOSHUA[7]等均通过建立针对于各自研究重点的Logit回归模型分析道路交通事故,指出了影响道路交通事故结果的因素。

与此同时,诸多学者也使用机器学习算法来分析道路交通事故机理。陈荔等[8]基于C5.0决策树模型分析影响交通事故形态的影响因素,强调了道路横截面位置对于事故严重性的影响。YASSIN[9]建立KNN-RF模型,指出驾驶员经验和车辆的日期、光照条件、驾驶员年龄和使用年限分别是造成严重伤害、轻微伤害和致命严重程度的主要因素。此外,结合贝叶斯网络与随机森林[10-11]、深度学习算法[12-13]也受到了广泛应用。

综上所述,对于机动车交通事故的严重性预测与致因分析,国内外学者已经做了大量的工作。然而这些研究少有考虑多种因素交互对结果严重性产生的影响,且所选择的模型缺乏足够的可解释性。基于此,本文将采集整理的机动车交通事故数据以“人-车-路-环境”进行分类,选择在随机森林、CatBoost(Category Boosting)、LightGBM(Light Gradient Boosting )与XGBoost(eXtreme Gradient Boosting)模型中性能更加优异的XGBoost模型进行事故严重性预测,对其使用SHAP来解释各因素耦合交互对事故严重性的影响,使得本研究可以更好地应用于车身设计优化、道路安全法规完善、驾驶员培训、与应急救援等领域。

1 方法简述

1.1 XGBoost算法

XGBoost由陈天奇于2016年提出,与Light GBM、CatBoost同属于集成学习中的Boosting模块,此类模块是基于弱学习器的迭代拟合中误差的加权相加达到的更加准确的强学习器。在梯度提升树(Gradient Boosting Decision Tree, GBDT)算法的基础上,XGBoost通过二阶泰勒展开目标函数优化目标函数,进而达到更为准确高效的作用。

1.2 SHAP

主流的机器学习模型中自带“-feature impor- tances ()”接口,以此来表征各特征重要性。但是这种计算方法存在争议,且不能够具体表达出每个特征对输出结果的影响。所以SHAP值的概念应运而生,它是用于可视化解释机器学习模型输出过程的特征值,核心思想是计算特征值对模型输出的边际贡献,再从全局和局部两个层面对机器学习模型进行解释。

对于每个预测样本,模型都产生一个预测值,SHAP 值就是该样本中每个特征所分配到的数值。它的正负表达特征对于结果的促进或是削弱影响。

本模型的具体流程如图1所示。

图1 模型流程图

2 数据来源与预处理

本文事故数据来源于中国交通事故深入研究(China In-Depth Acciddent Study, CIDAS)所调查的每条事故数据至少有1辆四轮机动车参与、至少1人受伤且包括了超3000余个字段信息数量,采集地点涵盖全国各片区。较之于其他数据来源,具有描述充分具体、切合国情的优点,自2011年8月15日至2020年7月15日,该数据库共记录涉及单方及多方道路机动车交通事故3997条。笔者按照如下规则将数据进行预处理:

1)剔除交警事故案卷遗失与未记录的事故信 息;

2)剔除含有异常特征信息以降低数据噪声;

3)对于一行数据存在至少两条空白信息的不予采用;

4)对于单行数据的个别数据采取中位数填补与平均数填补结合的方式;

5)对于每个特征使用离散型数字编码;

6)对于同一事故的多种结果重复记录

筛选出共含有20条特征、2994条事故的数据组S1,将不同特征其根据“人-车-路-环境”的因素进行编码分类,编码表如表1所示,S1的结果严重程度统计如表2所示。

表1 自变量编码表

表1 (续)

表2 S1中不同严重程度的结果统计

表2中,S1的事故结果比例严重失衡,这样会对输出结果造成很大的偏差,降低模型的性能,因此,需使用重采样方法对数据集进行改造。本文结合过采样与欠采样结合的方法对数据进行处理,即每次不放回地取297条轻伤数据样本与全部的重伤与死亡事故为一组,依次生成8组数据, 再进行合并,生成一个结果均衡分布包含7278条事故样本的数据集S2。

3 模型建立评估

3.1 模型的建立与调参

建立基础XGBoost模型,输入训练集(S2中随机抽取的80%,5822条)与测试集(S2中随机抽取的20%,1456条)进行性能测试。再凭借 GridSearch算法对该其进行参数调整,此方法是对模型的指定参数进行范围内穷举,以获得最佳的性能。调参优化步骤如表3所示。

表3 调参过程

3.2 模型评估体系

为了评价XGBoost模型的性能,本研究引入同属于集成学习的随机森林、LightGBM与CatBoost模型,将其同样经过GridSearch调参优化后,以准确率(Acc)、查准率(Pre)、召回率(Sen)、F1分数(F1_Score)、AUC(受试者工作特征 (Receiver Operating Characteristic, ROC)曲线下面积)进行对比。在衡量模型精准度时,上述指标值越接近于1代表模型分类的越准确、可信。

值得注意的是,以上指标的定义来源于二分类问题的混淆矩阵。本研究属于三分类问题,因此有必要对每类结果都进行分类计算以求得相应指标。

3.3 评估结果

将输出的评估结果进行汇总,如表4所示。

表4 不同算法的评估结果

表4 (续)

从表4中可以看出,在本研究中XGBoost稳定性更强,泛化能力更好,分类性能整体优于其他模型。因此,本文决定使用XGBoost算法构建事故严重程度分析模型,以探索关键影响因素。

4 基于SHAP的模型可视化解释

将调试好的XGBoost模型导入SHAP进行可视化分析,把基于各特征值呈现的SHAP值作为影响指标,从而讨论不同因素对于事故结果严重性的作用。

4.1 各因素对于事故严重性的影响

将不同因素对事故结果造成的SHAP值进行计算,然后进行柱状图可视化如图2所示。

图2 不同特征SHAP值排名

从图1中可以直观看出,影响模型预测结果的前5大特征依次为碰撞车型、当事人年龄、当事人责任、事故特征、道路分类。对于轻伤/重伤/死亡而言,最关键的影响因素分别为碰撞类型/人员类别/碰撞类型。这是因为相对于客/货车,轿车具有更好的安全性,可以规避更严重的事故结果。当事人年龄极大地影响了事故发生后的结果,相较于青壮年,老年人与幼儿身体机能弱、避险能力差,更易在事故后受重伤及死亡。因此,有必要通过改进车身设计、完善驾驶员培训、重点路段监控等手段增强对大货车/客车的安全保护,减少其发生事故的概率;同时也需要对于老人与幼儿进行重点保护与优先救治,以避免更严重的事故结果。

4.2 各因素对于死亡的影响

根据SHAP值可知,对于死亡影响前五大的因素依次为碰撞类型、事故特征、道路允许车速、道路分类、当事人年龄。

碰撞类型与当事人年龄对于死亡的的影响已在节4.1中进行了讨论,在本小节仅讨论其余因素。在事故特征中,起步对于死亡产生更大影响,这是因为此过程中车辆存在更大的追尾及碰撞的风险。在道路允许车速中,有较多的相对低速的点集中于X轴正半轴,表示相对低的限速对于死亡结果产生了正影响,这与常理默认的“车速与死亡呈正相关”观念不符。原始数据集中,道路限速在30~60 km/h的死亡占比超过 60~90 km/h,仅次于90~120 km/h。在此限速区间,驾驶员倾向相信自己的驾驶经验、更易产生懈怠心理从而忽视了对潜在风险的感知。而高速公路死亡事故高发与高速公路行车速度高,速度差大等因素有关,此外高速公路平坦舒适,道路宽阔,景色单一,减少刺激,加上长时间的精神高度集中,操作单调,极易出现超速或者生理和心理疲劳的现象。

4.3 多因素耦合对死亡事故的影响

尽管前面的研究已经解释了不同单因素条件对于死亡的影响,然而机动车交通事故为多因素共同作用下的结果,因此,使用结合前文所述对死亡影响最大的前四种因素——碰撞类型、事故特征、道路允许车速、道路分类的部分依赖图(图3)来对死亡事故成因进行解释。这些分类图中,横/纵坐标代表不同因素,坐标的正负代表SHAP值的正/负, 堆叠的密集程度代表事故的频率。

图3 结合前四种因素的部分依赖图

结合碰撞类型与其余三因素的部分依赖图可看出,当碰撞类型为客/货车单方事故时,各种事故形态、道路允许车速及道路类型均对死亡产生正影响。这说明客/货单车发生事故的结果大多趋向于死亡,需重点关注。而当碰撞类型为轿车单/双方时,大部分其他因素的不同条件都对死亡产生负影响,仅在事故类型为起步、道路允许车速超过90 km/h、道路多为高速公路与国道时会产生正影响,在此场景下驾驶员的视距较差、车速过快,增加了撞车的可能性。需对此类型情景进行详细研究,分析此时驾驶员的视野、行为与易发生事故的位置,进行车身设计改进及重点区域提醒,以降低此情景下的死亡率。

结合事故特征与道路允许车速、道路分类的的部分依赖图可看出,当事故特征为前方行驶等待、侧向运动、内弯穿行时,各种事故因素均对死亡产生负影响,这也可以说明以上三种事故特征造成的后果严重性较低。当事故特征为起步/停止、跑偏、碰撞对象车辆、撞障碍物时,更高的道路限速会造成更高的死亡正影响。因为更高的车速产生了更大的动能,对人体造成更大的冲击,更容易造成车内人员死亡。

由于道路类型与道路限速具有一定程度的相关性,因此,结合道路类型与道路限速的部分依赖图参考意义不如前几种类型。但是从图中堆叠的点的密集程度也可说明,道路限速与死亡影响程度并非一个正相关关系,除高速公路事故外,更应该关注道路限速为30~60 km/h时的驾驶行为,此速度区间内发生死亡事故较多,且分布道路类型广泛。

值得注意的是,部分依赖图表达的仅为两种因素耦合作用的影响程度,其目的是通过特定某几种特征的结合来输出可能出现的结果,驾驶事故的出现基于多种复杂致因共同作用,因此,很有必要进行更多元的因素分析。

5 结论

1)根据已有的CIDAS数据建模分析比较四种模型的分类效果,发现相较于CatBoost、随机森林和LightGBM模型,XGBoost在预测机动车交通事故的事故严重程度时,具有更加优异的性能,降低了泛化误差。

2)利用SHAP解释已调试好的XGBoost模型,发现对于轻伤/重伤/死亡结果影响最大的因素分别为碰撞类型、当事人年龄、碰撞类型。影响死亡前5大特征依次为碰撞类型、事故特征、道路允许车速、道路分类、当事人年龄。

3)为了避免死亡事故的发生,需重点关注、预防客/货车单方碰撞事故、事故特征为起步/停止、高道路限速下跑偏/碰撞对象车辆/撞障碍物的场景,并且应对于车辆行驶在30~60 km/h限速道路的驾驶员的懈怠心理重点关注。

猜你喜欢
交通事故道路事故
坚持中国道路——方向决定道路,道路决定命运
道听途说
学中文
我们的道路更宽广
不同寻常的交通事故
预防交通事故
废弃泄漏事故
小恍惚 大事故
一起高速交通事故院前急救工作实践与探讨
一次骑行带来的感悟