基于双层评定模型的钳闭影响下乘员损伤严重程度分析与预测*

2021-08-24 01:36李旋韩天园吕凯光乔洁刘永涛
汽车技术 2021年8期
关键词:乘员部件程度

李旋 韩天园 吕凯光 乔洁 刘永涛

(长安大学,西安 710064)

主题词:钳闭影响 损伤严重程度 Apriori关联规则 双层评定模型 随机森林 分析与预测中图分类号:U467.14

1 前言

不同的车辆事故中,乘员损伤严重程度不同,事故发生后乘员损伤需要考虑钳闭影响,即由于车身在碰撞中变形造成的致伤部件对乘员的伤害,因此研究车辆钳闭影响下乘员损伤严重程度影响因素具有重要意义。

针对乘员损伤严重程度分析,目前的研究方向主要包括2个方面,即在事故数据基础上建立相应的数据分析模型进行宏观分析和基于有限元的力学分析。陆颖等通过建立逻辑回归模型对驾驶员伤情进行预测,修改车辆事故自动呼救系统阈值,提高系统对事故信息判断的准确性[1],同时根据事故数据和朴素贝叶斯分类器建立驾驶员伤情预测算法,进行伤情预测[2];邹铁方等统计分析发现,绝大多数碰撞条件下,包括不同碰撞车速下,骑车人头、胸部和撞击侧下肢损伤指标参数均值均高于后座乘员[3];杨娜等通过构建逻辑回归模型研究了自动制动系统参数对事故中行人发生最大简明损伤定级(Maximum Abbreviated Injury Scale,MAIS)3+损伤风险和死亡风险的影响[4];武和全等人通过建立人体生物力学响应,提出通过旋转座椅改变人体朝向与碰撞方向的相对位置,从而提高老年乘员在自动驾驶车辆中的碰撞安全性[5],同时通过搭建老年人骨盆有限元模型,发现其碰撞峰值力和受力最大时的位移都最大,而碰撞中最大位移却最小[6];胡林等人通过建立行人下肢有限元模型发现,年龄因素对行人下肢损伤有重要影响[7]。可以发现,大多数研究建立的分析模型相对简单,没有考虑多个层次的影响因素对乘员损伤的影响。

本文从陕西长安大学机动车物证司法鉴定中心数据库中筛选包括24种车型的714组轿车碰撞事故数据,通过Apriori 关联分析挖掘影响乘员损伤严重程度的重要因素,采用双层评定模型探究变量与乘员损伤严重程度之间的相关性,利用随机森林预测模型对乘员损伤严重程度进行预测,以期为轿车碰撞事故钳闭影响下乘员损伤严重程度的降低提供一定的数据分析支撑。

2 数据预处理

2.1 数据来源

根据美国机动车医学促进会提出的《简化伤害标准》(Abbreviated Injury Scale,AIS)[8],按照人体各部位、不同伤害类型的不同程度,其损伤可以划分为7个等级(即AIS 0~6),其中,AIS 0代表无损伤,AIS 6代表死亡,等级越高,损伤越严重。乘员损伤严重程度等级分为2类,即乘员损伤等级达到MAIS3+和未达到MAIS3+。本文的数据包括24种车型共2 074组事故数据,每组数据记录了乘员损伤的相关信息。为分析考虑钳闭影响的乘员损伤严重程度,保留存在钳闭影响的数据项,并组成事故信息处理数据集,同时,根据乘员损伤简易诊断书补充缺失信息,根据上述条件利用Python 筛选出了714组数据。事故信息主要包括2个层次:

a.乘员层次。包括乘员的损伤严重程度、身体部位、组织结构、损伤类型、损伤部位前、后位置和损伤部位左、右位置,乘员层次的特征变量数据来自不同事故中乘员的损伤情况,且每一组数据相互独立。

b.车辆层次。包括致伤部件质量、高度位置和横向位置,特征变量数据对应上述乘员层次的数据。

2.2 数据离散化

研究用于关联分析的数据包括乘员层次和车辆层次共9个特征变量[9],如表1所示。为高效挖掘关联规则,需要对连续变量进行分级,其中致伤部件质量变量为连续变量,各特征变量通过文献[10]进行划分,如表1所示。

表1 数据分类和代号

3 关联规则分析

3.1 Apriori原理

Apriori 关联规则中支持度S和置信度Q为:

式中,P(A∪B)为事件A 与事件B 同时出现的概率;P(A)为事件A出现的概率。

3.2 结果与分析

关联规则中将置信度大于0.75 的规则称为有用规则[11],为了保证结果的可靠性,在选择最小置信度值时发现,取值在(0.75,0.80)范围内得到的规则相较于取0.80得到的规则只是多了一些重复的规则(包含相同变量、等级和维数),因此本文设置最小置信度为0.80。同时,为了保证损伤严重程度存在等级变化,最小支持度不宜过大,但当设置过小时,又会导致规则数量过多,影响统计。由于乘员损伤严重程度达到MAIS3+是本文分析的重点,为了保证关联规则的数量以及挖掘规则的可靠性,需要对有关MAIS3+的关联规则进行大量分析,以确定最小支持度的取值,图1 所示为与A0 相关的二维关联规则数量与最小支持度之间的关系。当最小支持度小于0.004时,与A0相关的二维关联规则数量维持在5条。因此设置最小支持度为0.004。

图1 A0相关的二维关联规则数量分布

本文主要分析乘员损伤严重程度,故主要寻找后项为A0、A1 的关联规则,挖掘的结果最多包括8 个维度,分析发现,关联规则达5个维度时,规则数量大幅增加,并出现了大量无效规则,如二维关联规则{B0,C1}→A0置信度为0.811 2,三维关联规则{B0,C1,F1}→A0置信度也为0.811 2,则将此三维关联规则视为无效规则,将其剔除。表2所示为后项为A0、A1的关联规则。

表2 关联规则分布

其中,二维规则统计结果如图2 所示,乘员不同损伤严重程度对应的规则中,前项均出现了身体部位B、损伤类型D、前后位置E、致伤部件质量G和致伤部件高度位置H,但是只有B、D、E、G 随着损伤严重程度变化而变化,因此判断这4个因素与损伤严重程度相关。

图2 二维规则统计结果

三维规则统计结果如图3所示,分析发现乘员不同损伤严重程度对应的规则中,前项均出现了B~I特征因素,但只有B、C、D、G随着损伤严重程度变化而变化,与二维分析比较发现,前后位置E在三维规则中没有发生变化,同时组织结构C在三维规则中表现出与损伤严重程度的相关性,因此暂时无法确认C、E的相关性。

图3 三维规则统计结果

四维规则统计结果如图4所示,B、D、G与二维和三维规则分析的结果相同,即均随着损伤严重程度变化而变化,对于组织结构C和前后位置E,在四维规则中E的变化并没有影响损伤严重程度,而C却发生了变化。

图4 四维规则统计结果

由上述分析可知,B、D、G在3个层次的规则中均表现出与损伤严重程度相关,而C在二维规则中表现出与A 不相关,但在三维、四维规则中表现出与A 相关,E 虽然在二维规则中表现出与A 相关,但在三维、四维规则中表现出与A不相关。

因此,可以判断影响乘员损伤严重程度的特征主要有4个,即B、C、D、G。图5所示为卡方检验与P值分析结果,进一步验证了关联分析的结果。

图5 卡方检验与P值分析

4 双层Logit分析

4.1 双层Logit模型

以乘员损伤严重程度为因变量,由于因变量存在2个水平的值,故考虑使用二元逻辑回归进行分析,选取致伤部件质量、身体部位、组织结构、损伤类型作为自变量。本文中数据存在明显的嵌套结构,即乘员层次(层次1)嵌套于车辆层次(层次2)。不同于单层Logit模型,双层Logit模型将影响系数(斜率)和常数项(截距)分为随机效应和固定效应,层次2(车辆层次)影响着层次1(乘员层次)的斜率。图6所示为双层Logit模型效应,其中,H1、H2、H3分别表示在考虑车辆层次的影响下,致伤部件质量对身体部位、组织结构、损伤类型与损伤严重程度间关系斜率的影响,H4表示在不考虑车辆层次的影响下,身体部位、组织结构、损伤类型对损伤严重程度的影响,H5表示致伤部件质量对损伤严重程度的影响。

图6 双层Logit模型效应

针对上述H1~H5的层次关系,本文通过HLM6.08进行建模分析,主要建立3个模型。为了判断损伤严重程度在24种车型之间是否存在差异,构建一个空模型(模型1),即模型中不包含任何自变量,通过计算组内相关系数(Intraclass Correlation Coefficient,ICC)K,确定双层Logit模型的适用性以及乘员层次和车辆层次变量的影响力大小,模型1和K的定义分别为:

式中,Yij(i=1,2,…,n;j=1,2,…,24)为第j种车型中第i辆车上乘员的损伤严重程度;n为某款车型的数量;P(Yij=0)、P(Yij=1)分别为损伤严重程度未达到和达到MAIS3+的概率;εij、β0j分别为乘员层次的随机效应和固定效应;γ00、μ0j分别为车辆层次的固定效应和随机效应;V(εij)、V(μ0j)分别为乘员层次和车辆层次的方差。

建立包括乘员层次所有自变量,但不包括车辆层次任何自变量的模型(模型2)。通过模型可了解乘员层次自变量对因变量(损伤严重程度)的影响,模型2定义为:

式中,Xkij(k=1,2,3)为第j种车型中第i辆车的第k个自变量;βkj为乘员层次的斜率;γk0、μkj分别为斜率的固定成分和随机成分。

建立包括乘员层次和车辆层次所有自变量的完整模型(模型3),通过模型3 分析车辆层次的自变量如何影响乘员层次的斜率与截距,模型3的定义为:

式中,Wj为车辆层次的自变量,即致伤部件质量;γ01为车辆层次的斜率,即车辆层次的自变量对乘员层次的截距部分的影响;γk1为车辆层次的斜率,即车辆层次的自变量对乘员层次的斜率部分的影响。

4.2 结果与分析

模型1的结果表明,固定效应检验与随机效应均达到了显著水平(P<0.01),通过式(4)计算得到K=1.825 1∕(1.015 3+1.825 1)=0.642 6,即乘员损伤严重程度的差异中64.26%来源于车辆层次差异,35.74%来源于乘员层次差异,同时K>0.138 表明组内高度相关[12],分析乘员损伤严重程度不仅要考虑乘员自身层次的影响,还需要考虑车辆层次的影响,即建立双层Logit模型分析。

在模型1 的基础上加入乘员层次的自变量进行分析,如图7 所示:加入B(身体部位)变量,方差改善了23.09%;加入B(身体部位)与C(组织结构)变量,方差改善了20.52%;加入B(身体部位)、C(组织结构)、D(损伤类型)变量,方差改善了25.22%。研究表明,效应值变化在0.15~0.35 之间,则表明加入的变量与因变量中度相关[12],同时组内方差逐渐下降,证明了乘员层次变量均与乘员损伤严重程度相关。表3 所示为模型2 的分析结果,其中B为回归系数,E为标准误差。对乘员层次变量进行初步分析,由头部到下肢,随着损伤位置的下移,乘员损伤严重程度逐渐减小(B=-0.070 8),说明钳闭影响下,乘员身体上侧损伤更严重,特别是头部;组织结构中不同组织类型与乘员损伤严重程度成正相关(B=0.371 7),通过表1 的等级划分,即器官与骨骼损伤更为严重,这与事故统计报告中的数据结果相吻合[9];损伤类型与乘员损伤严重程度成正相关(B=0.084 8),即骨折类型损伤更严重,这与上述组织结构的分析相吻合,但是现实事故中乘员大面积损伤往往对应严重的交通事故。乘员损伤严重[9],这与上述器官损伤更为严重结果不符,需要进一步分析验证。

图7 模型2方差分析

表3 模型2分析结果

考虑车辆层次,在模型2 的基础上加入车辆层次的自变量,即对模型3 进行分析,结果如表4 所示,乘员层次的3 个变量方差成分均明显减少,再次证实了车辆层次变量,即致伤部件质量对乘员损伤严重程度的重要影响,具体的,车辆层次的变量加快了损伤类型、身体部位与组织结构损伤严重程度,反映到大量事故数据上,即随着致伤部件质量的增加,乘员损伤更加严重。

表4 模型3分析结果

具体分析各层次变量对损伤严重程度的影响,表5所示为双层Logit 模型的参数估计结果,其中OR为比值比、P为事件发生的概率,致伤部件质量的系数为5.206 0,表明在事故中,随着致伤部件质量的增加,乘员损伤越发严重,这是因为碰撞过程是高速过程,质量大的物体动量也大。针对乘员层次的变量,其中身体部位变量中除胸腔、脊椎之外,头部相较于其他部位损伤更严重,特别是上、下肢部位,损伤严重程度仅为头部的0.422、0.346 倍,这与上述模型3 分析的结构相吻合,胸腔部位、脊椎部位损伤严重程度分别是头部的1.624、1.202倍,这是因为这些部位属于重要部位,发生损伤概率极小(0.023 5、0.002 3),一旦损伤,严重程度极高,同时可以发现,事故中上、下肢损伤的概率最大分别为0.423 5、0.443 5,这是因为钳闭影响下乘员一般处于蜷缩状态;组织结构变量中,器官与骨骼的损伤更为严重(1.322 1、1.448 7),这与模型3 的正相关分析结果相吻合,主要是钳闭影响下身体组织受到车辆部件压迫造成的,神经损伤在事故中发生概率较小(0.002 3),这与上述分析结论相符;损伤类型变量中,可以发现事故中骨折现象发生概率较高(0.551 6、0.321 2、0.223 8),骨折损伤相较于其他损伤类型更严重(1.841 2),同时事故中大面积的损伤发生概率较小,一旦发生损伤就极为严重,这是因为钳闭影响下乘员往往受到致伤部件局部挤压,一般在汽车火灾中更容易出现大面积的损伤(烧伤)[9]。

表5 双层Logit模型的参数估计结果

5 损伤严重程度预测

5.1 随机森林模型

随机森林具体实施过程如下:

a.原始训练集为N,应用自助法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据。

b.设有数量为M的变量,则在每一棵树的每个节点处随机抽取数量为M1的变量,然后在这些变量中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定。

c.将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。

5.2 模型评价指标

针对本文对乘员损伤严重程度的预测,可用接受者操作特性(Receiver Operating Characteristic,ROC)曲线反映模型的分类准确性,并通过计算ROC 曲线下的面积(Area Under Curve,AUC)来衡量模型的分类精确度。AUC 越大,表示模型分类效果越好。精确率W表示模型对样本做出预测,结果正确的可能性,召回率R(Recall)反映了模型预测出的正例占实际正例的比例,可以通过F值综合考虑2个指标。

表6 所示混淆矩阵中包括了对样本测试集数据的预测与真实情况,其中a、b、c、d分别为真正例(True Positive,TP)、假反例(False Negative,FN)、假正例(False Positive,FP)、真反例(True Negative,TN)的数量,R、M、F的计算公式为:

表6 2×2混淆矩阵

5.3 结果与分析

结合关联分析和双层Logit 模型分析结果,通过预测模型进一步验证分析结果。将筛选后的特征,即身体部位、组织结构、损伤类型、致伤部件质量作为输入变量,损伤严重程度作为输出变量,建立基于随机森林的损伤严重程度预测模型,同时将筛选前的特征作为对照组,建立相应的模型进行预测。

预设模型的参数范围,利用Python中的Scikit-Learn函数库中GridSearchCV函数做参数遍历选择,决策树数量n采用袋外(Out Of Bag,OOB)数据误差来确定,其结果如图8 所示。OOB 误差随着决策树数量的增加逐渐减小,当决策树数量在1 000棵左右时趋于稳定。为了使得模型取得理想的效果,本文的取n=1 200棵。

图8 OOB误差估计

通过随机森林对每组数据中乘员损伤严重程度进行预测,按照预测平均准确度下降对各特征重要度进行排序,如图9 所示,结果与上述分析一致,再次证明了关联分析结果的可靠性。其中致伤部件质量变量在乘员损伤严重程度预测中贡献最大,达到25.8%,这表明乘员损伤严重程度与致伤部件质量高度相关。

图9 特征重要度排序

相较于决策树、逻辑回归模型的AUC 值0.71 与0.62,随机森林模型AUC 值达到0.76,能取得较好的预测效果,对比3种模型预测结果,如图10所示,随机森林模型能更好地按照MAIS3+划分乘员损伤严重程度。分类效果不仅与模型中参数的设置有关,还取决于导入模型中的特征与结果的相关程度,特征选择后随机森林准确率达到82.97%,间接证明了上述分析中筛选出的特征对乘员损伤严重程度有显著影响。

图10 不同模型的结果比较

6 结束语

本文通过分析轿车碰撞事故数据,得到以下结论:

a.轿车碰撞事故中乘员层次变量和车辆层次变量相关,其中致伤部件质量影响最大。

b.车辆层次的变量对乘员层次变量存在影响,即致伤部件质量变量对组织结构、身体部位、损伤类型变量的影响分别达到28.89%、15.79%、14.03%。随着致伤部件质量的增加,乘员身体上部较下部损伤更严重,即损伤严重部位上移。

c.事故中头部相较于其他部位损伤更严重,但上、下肢出现损伤的概率却最大,器官与骨骼损伤相较于其他组织损伤更严重,事故中乘员发生骨折的概率较大,损伤较为严重的情况往往伴随着乘员重度骨折与大面积损伤。

d.通过随机森林模型对乘员损伤严重程度进行预测,准确率达到82.97%。

在本文基础上,下一步可增加环境层次因素,并考虑通过有限元建立力学模型对乘员损伤进行量化分析。

猜你喜欢
乘员部件程度
基于Isight后排乘员约束系统曲线对标研究
不同坐姿的6岁儿童乘员在MPDB碰撞测试中头颈部损伤评价
男女身高受欢迎程度表
日语程度的类型与程度副词的对应关系
奥迪e-tron纯电动汽车的高电压部件(下)
一种陀飞轮表的双秒轮结构
现代汉字的两种分析法与国家文字规范(四)
美国IIHS 考虑加入对于后排乘员的 安全评价
古文字中“口”部件的作用研究
乘员—座椅系统坠落冲击实验平台设计分析