基于集成学习模型的交通事故严重程度时空预测

2024-03-25 15:26柳一航沈航先

科技创新与应用 2024年8期

柳一航沈航先

摘要：为探究区域交通事故时空特征，精准预测事故严重程度，给交通运输主管部门提供决策支持，以英国交通事故统计数据作为研究基础，首先，将交通事故时空特征数据转化为网格化数据，并对空间特征进行二维卷积，利用时间特征合并二维卷积为三维卷积，解决网格冲突问题；其次，利用卷积神经网络（CNN）、长短期记忆人工神经网络（LSTM）模型的工作原理建立Stacking模型的基学习器和元学习器；最后，输出结果传入分类与回归树（CART），构建完整的事故严重程度预测集成学习模型。研究结果表明，集成学习模型较单一模型对预测效果更优，其AUC比CNN、LSTM和Conv-LSTM单一模型预测分别提升0.02、0.04和0.01；最终决策树选择中，CART决策树比随机森林（RF）和梯度提升决策树（GBDT）预测效果更优；预测结果在时间纬度上，“严重事故”事件占比较实际低3.95%，在空间纬度上，预测热力区域在0.5～1区间范围内与实际接近。

关键词：交通安全；交通事故；事故严重程度预测；机器学习；集成学习模型

中图分类号：U491.3 文献标志码：A 文章编号：2095-2945（2024）08-0028-08

Abstract： In order to explore the spatio-temporal characteristics of regional traffic accidents， accurately predict the severity of accidents， and provide decision support to the competent departments of transportation. Based on the British traffic accident statistical data， firstly， the spatio-temporal characteristic data of traffic accidents are transformed into gridded data， and the spatial features are convoluted in two dimensions， and the temporal features are combined into two-dimensional convolution into three-dimensional convolution to solve the grid conflict problem; secondly， the basic learner and meta-learner of Stacking model are established using the working principle of convolutional neural network （CNN） and long-term and short-term memory artificial neural network （LSTM） model. Finally， the output results are passed into the classification and regression tree （CART） to build a complete integrated learning model for accident severity prediction. The results show that the prediction effect of integrated learning model is better than that of single model， and its AUC is 0.02， 0.04 and 0.01 higher than that of CNN， LSTM and Conv-LSTM single model， respectively， and in the final decision tree selection， CART decision tree is better than random forest （RF） and gradient lifting decision tree （GBDT）. In terms of time latitude， the proportion of "serious accident" events is 3.95% lower than that of reality. In terms of spatial latitude， the predicted thermal area is close to the reality in the range of 0.5～1.

Keywords： traffic safety; traffic accident; accident severity prediction; machine learning; integrated learning model

根據世界卫生组织2018年《全球道路安全现状报告》显示，每年约有135万人死于道路交通事故[1]。由道路交通事故导致的死亡已经成为全球人员死亡的第八大原因，交通安全问题已然成为需重点关注的全球性公共健康问题。事实上，交通事故的发生虽受诸多因素影响，但仍有迹可循，基于道路交通事故历史数据开展事故安全评估研究（包括影响因素、评价模型、事故预测等）对降低道路交通事故的发生率和严重程度，提升道路交通安全管理水平等具有重要意义。

国内外学者针对于交通事故的安全评估研究主要集中于事故严重程度的预测和影响因素的辨识，研究方法大致为三类。第一类是传统预测方法，包括统计回归法[2]、Logit模型[3]等，主要适用于样本量较少、短期数据变化的情况，模型较为简单，存在针对于随机性较大、可靠性不强等问题；第二类是利用机器学习方法，包括随机森林[4]、GBRT[5]、XGboost[6]等决策树算法，适用于高维数据处理，但存在对特定数据集依赖较强的问题；第三类是基于深度学习的事故严重程度预测，包括卷积神经网络（CNN）[7]、长短期记忆网络（LSTM）[8]等深度学习算法，这些模型应用场景较为特定，如CNN常用于图像方面，LSTM往往应用于存在时间序列特征的数据中。

对于事故空间空间分布，国内外学者主要采用2种方式，其中一部分学者多借助地理信息系统（GIS）等空间分析技术，寻找交通事故在空间上的集群特征，如通过热点分析[8]、密度分析、聚类分析[9]等手段寻找城市交通事故热点时空分布特性；另一部分学者从数理统计交通辨别事故发生特征，如早晚高峰、季节和具体路段等[10]，或利用机器学习和深度学习算法预测事故发生黑点[11-13]。这些分析方法更注重微观层面解决实际问题，往往对其他事故特征因素考虑较少，难以做到对区域整体的预测。

综合上述分析，现有的交通事故严重程度预测方法较为全面，但在算法应用层面多以单一模型进行拟合，少采用模型组合的方式预测事故严重程度。理论上，组合模型相比于单一模型具有一定的优势。单一模型具有唯一的模型结构和全局固定的模型参数，但对于某一数据子集并不一定是最优的模型结构和最优的模型参数。对于组合模型，在模型训练时可以在不同的数据子集中选取更优的局部预测模型，相比于单一的并且具有全局固定模型参数的预测模型，具有更多的灵活性和适应性，很有可能在全局表现出更优的预测精度和预测稳定性。同时，现有的交通事故严重程度预测方法对于事故空间分布多偏向于微观层面，缺少从整个区域层面的预测模型。因此，本文根据不同模型的应用特征，构建了一种基于集成学习模型的交通事故严重程度预测方法，充分考虑时间、空间和其他可能影响事故发生的特征数据，发挥组合模型对不同特征数据的应用效能，深度挖掘区域道路交通事故数据，提升事故严重程度的预测精度。

1 交通事故严重程度预测模型

1.1 问题定义

在正式选用方法建立模型之前，首先根据所要研究的问题，给出一些本文中所要使用的名称和变量的定义。本文的目标在于基于时空特征对交通事故的严重程度进行预测，因此通过给出一些对所需要用到的诸如网格单元、时间单元等自定义变量的基本的定义，逐步给出本文所要研究的“基于集成学习模型的交通事故严重程度预测”问题的具体含义。

首先，给出网格单元和时间单元的定义。

定义1：（网格单元）设一个区域分布在一定经纬度范围内，则经度范围可以被划分为m个等长的区间，纬度范围可以被划分为n个等长的区间。位于第i个（i=1，2，3，…，m）经度区间和第j个纬度区间（j=1，2，3，…，n）的所有经纬度所组成的集合称为第ij个网格单元，记作uij。

定义2：（时间单元）设一类事件区域分布在一定时间范围内，则时间范围可以被划分为m个等长的区间（时间段）。位于第i个（i=1，2，3，…，m）时间区间的所有时间点所组成的集合称为第i个时间单元，记作tui。

其次，一个事件有许多影响因素，把这些影响因素称之为特征。为了运用现有代数学方法研究这些影响因素，将其排列为矩阵。一般，为了能够用量化方法研究这些特征，往往会把这些特征数值化，得到一个数值矩阵。下面给出这种本文中专用矩阵的定义。

定义3：（事件特征矩阵）设一类事件有m个需要研究的影响因素e1，e2，…，em，这些影响因素均有n条观测记录，则e1，e2，…，em均为n维列向量。我们称m×n维矩阵E=[e1，e2，…，em]为事件的特征矩阵。

定义4：（学习器）设有一个映射f：（E0，T，E）→P，其中E0为待预测事件中用作训练集部分的事件特征矩阵，T为待预测事件中训练集部分已经观测到的值，E为待预测事件中需要预测（作为测试集）的部分的事件特征矩阵。P为f的输出，即通过学习器f产生的预测值。如果P中有一半以上的值与实际情况相符，则称f为一个弱学习器。

下面，给出本文中所使用的“集成学习模型”的大致思路。

定义5：（集成学习模型）设一个模型g由多个学习器f1，f2，…，fn组成。g为一个映射（E0，T，E）→P。下列等式

（1）

成立，其中Ei為第i个模型中用作测试集而输入的事件特征矩阵，Pi为第i个模型的输出，Ti为第i个模型中认为已经观测到的待预测事件的标签，则称g为由多个学习器f1，f2，…，fn组合而成的集成学习模型。

因为本文的研究方面突出了交通事故的时空特性，故专门定义了一类包含时空特征的时间，以区别于一般的事件，方便后续研究。下面给出定义，具体说明本文中把什么叫做“具有时空特征的事件”。

定义6：（具有时空特征的事件）设待研究事件的事件特征矩阵为E，且该事件具有时间特征和空间特征。设该事件被划分了m×n个网格单元和p个时间单元，若对于？坌1≤i≤m，１≤j≤n，１≤k≤p，有uij∈E，tuk∈E，其中i、j、k均为正整数，则称该事件具有时空特征。

最后，综合上面的定义，可以给出本文所要研究的问题的一般定义了。

定义7：（基于集成学习模型的交通事故严重程度时空预测）对于一类交通事故事件，其需要预测的特征为其严重程度。“严重程度”这一特征被作为一个标签，有几个代表了不同程度的已数量化的取值，且此标签预测值P=g（E0，T1，E）。选择合适的集成学习模型g的问题称作基于集成学习模型的交通事故严重程度时空预测问题。

根据定义7中“基于集成学习模型的交通事故严重程度时空预测”的含义，便可以对本文研究的预测类问题作出模型的建立了。

依据之前对数据集的处理方法，可见数据集中需要预测的“Accident Severity”特征，即“交通事故严重程度”特征只有0和1两个取值，即“不太严重”和“严重”。因此，与其作一个普通的预测，不如将此类问题转化为一个针对性更强的二分类问题。

为了避免“特征工程”问题，在分类的过程中并不全部使用其中所有的特征。因为本文是基于时空特征对交通事故严重程度进行预测的，所以起初把数据集中的交通事故按照空间特征（经纬度）分为网格单元。年（取2020）、月、日、时和分等能够合并的时间特征将按照操作系统标准转化为时间戳，并按照时间戳划分为许多个时间单元。

为了应用集成学习方法，以此来提高模型的分类精度，首先从单模型的建立开始。本文中运用的单模型包括CNN网络、LSTM网络和Conv-LSTM网络，其基本原理和在本文中的具体配置都已经在前文中叙述完毕。由于集成学习也基本服从“木桶理论”，可以知道集成学习的精度会受限于精度较低的那个模型，况且只有2个精度相近的模型，才能组建出精度有所提高的模型。其集成后的在测试完单模型以后，将根据单模型的表现来决定挑选何种模型来组建集成学习模型。

1.2 研究思路

对于交通事故严重程度的时空预测问题，传统的机器学习算法存在参数寻优困难和对高维度数据易过拟合的问题。针对此问题，本文提出基于集成学习模型的交通事故严重程度的时空预测模型。模型首先对多源交通事故特征数据集进行正态化处理，随后构建以CNN网络为基学习器，以LSTM网络为元学习器的Stacking模型的具体运行机制，最后选取CART决策树输出最终预测结果。具体模型结构如图1所示。

1.3 CNN模型

为匹配数据集中数据集特征，本文全连接层设置输入一维张量为5，二维张量为31，以及128个神经元；卷积层一维张量为112，二维张量为64，并不对边界进行全零填充。并设定卷积层的激活函数为ReLU函数；为使神经网络自动减少特征数量，同时加快训练速度，本文汇聚层一维张量设置为2，二维张量为1，并在汇聚层中添加了2个卷积核，其尺寸均为1，汇聚层的结构简图如图2所示[14]。

在汇聚后，采用20%的丢弃率进行正则化处理，并把二维数据转化为一维数据，即压平处理。输出层包含第二个全连接层和第三个全连接层，激活函数采用Sigmoid函数，整体结构如图3所示。

1.4 LSTM模型

LSTM模型具有时序性特征，而交通事故的发生往往在一段时间内能够体现时序性特征，因此本文选取6个时间戳长度作为时间序列输入，输出层仍然包括2个全连接层，第一个全连接层采用ReLU函数进行激活，并利用20%的丢弃率对第一个全连接层的结果进行正则化。对于第二个全连接层激活函数，本文采用Sigmoid函数[15-17]。LSTM输出层整体结构如图4所示。

1.5 Stacking模型

Stacking模型包括基学习器（Base-Learning Model）和元学习器（Meta-Learning Model）两个部分[18]，通过基学习器的输出结果整合后传入元学习器，最后得到元学习器的结果，其基本架构如图5所示。

1.6 评价指标

由于事故严重程度预测属于二分类问题，因此本文选适用于二分类问题模型的AUC（Area Under Curve）作为评价指标。AUC值表现模型的拟合能力，AUC值为受试者操作特征曲线（receiver operating characteris-tic，ROC）下围成的面积，其值越接近于1，预测模型真实性越高[19-20]，计算见式（2）。

式中：M和N分别为正样本和负样本的数量；rank？滋表示第μ条样本的序号。

2 交通事故影响因素的选择

2.1 数据来源

本文采用2020年英国统计的英国一年内所有道路交通事故信息，共计129 983条。剔除不完整数据、无法识别数据和明显错误数据，共选取交通事故样本数据129 081条。数据集将“交通事故的严重程度”划分为严重事故和一般事故两类。其中，严重事故为人员重伤和死亡事故，共发生104 871起，占比达81.2%；其他事故为一般事故，共发生24 210起，占比18.8%。

为进一步探究事故严重程度和空间分布特征，根据数据集中经纬度数据和交通事故严重程度数据，绘制交通事故严重程度热力图，如图6所示。英国的交通事故严重地区主要集中在英国东南部地区，而爱尔兰地区的交通事故往往不是很严重。英国北部地区交通事故严重地区不是很集中，但是交通事故严重程度比南部地区略大。

2.2 特征变量

英国交通事故数据集即包含事故经纬度、事故伤亡人数、发生时间、道路类型、光照条件和天气状况等30个特征，具体特征变量见表1。

3 模型评估结果与检验

3.1 偏态数据集的正态化

为保证数据集呈现正态分布，提升模型运算效率，对特征变量进行博克斯-考克斯（Box-Cox）变换，以Latitude（纬度）特征为例，Box-Cox变换之前后的频率分布直方图、频率密度分布曲线、正态密度拟合曲线和正态分布曲线的对比图，如图7、图8所示。通过似然估计，Latitude特征所选用的？姿为-6.239 5。

3.2 数据集预处理

由于“一般事故”类型样本只占总体样本的15.4%，本文采用上采样（Oversampling）不均衡数据进行处理，即对小样本数据进行多份复制，并分别利用CNN、LSTM和Conv-LSTM网络测试其AUC表现，且每次测试时都随机采样数据集，并采用5-折交叉验证，检验结果如图9所示。通过AUC测试结果表明，当样本复制5份后，3种模型网络ACU性能均达到最佳。

（a）频率分布直方图、频率密度分布曲线和正态密度拟合曲线

（b）正态分布曲线

（a）频率分布直方图、频率密度分布曲线和正态密度拟合曲线

（b）正态分布曲线

3.3 CNN、LSTM和Conv-LSTM网络的调优

本文首先对构建的CNN、LSTM和Conv-LSTM网络进行时间切分的步长的调整。本文设定时间切分步长的搜索空间为{3，4，5，6，7，8}測试其AUC表现，验证结果如图10所示。

通過AUC测试结果表明，CNN网络在时间切分步长为7时AUC结果最佳，LSTM和Conv-LSTM网络在时间切分步长为6时AUC结果最佳，因此本文选取时间切分步长为6作为模型预测参数。

采取同样的方法，利用网格搜索的方法，设定学习率的搜索空间为{0.1，0.15，0.2，0.25}搜索，发现CNN网络和Conv-LSTM网络的学习率分别为0.15和0.2时，其AUC表现最佳，分别为0.70和0.73。LSTM网络中学习率为0.2时，其AUC表现为0.70，与学习率设置为0.15时相差无几，因此学习率设置为0.2。

3.4 Stacking模型调优

为保证集成模型的性能最优，在未传入决策树之前，按照调整好的超参数把基学习器和元学习器进行堆叠，并与单个基学习器进行对比，其AUC表现见表2，小提琴图如图11所示。

由于CNN和Conv-LSTM网络的性质较为相似（都有卷积的性质），所以堆叠后效果一般，而CNN和LSTM网络性质差异较大，所以堆叠后预测精度较高。因此，本文Stacking模型采用以CNN网络为基学习器，LSTM网络为元学习器的组合模型。

3.5 集成学习模型调优

本文将Stacking模型输出结果作为输入传给决策树模型，分别测试随机森林（RF）、梯度提升决策树（GBDT）和分类与回归树（CART）3种决策树模型。本文采用网格搜索法，获取决策树模型最优超参数，最终参数设置见表3。经30次测试取平均值后，采用Stacking模型和CART决策树集成拟合效果最佳，其AUC为0.74，模型对比如图12所示。

4 交通事故严重程度预测对比

在时间维度上，从全年和各季度预测结果上看，预测的“严重事故”整体数量较实际偏低。从全年角度，“严重事故”较实际低3.95%；从各季度来看，二季度和四季度预测效果较好，分别较实际低1.58%和1.65%，一季度和三季度预测较实际分别低6.5%和6.23%。全年和各季度预测结果和实际结果对比情况如图13所示。

在空间维度上，将事故严重程度密度区域进行归一化处理，绘制实际交通事故严重程度热力图和预测热力图，如图14所示。可以发现，预测后范围在0.8～0.9的热力区域减少，而范围在0.6～0.7的热力区域增加，说明模型整体预测的事故严重程度偏低。

（a）原始交通事故严重程度热力图

（b）预测交通事故严重程度热力图

5 结束语

1）充分考虑影响因素难以选择和对高维度数据易过拟合的问题，结合交通事故时间、空间特征，提出以CNN网络为基学习器，LSTM网络为元学习器的集成学习模型架构，形成交通事故严重程度的时空预测模型。

2）在模型选择过程中，本文尝试将CNN、LSTM和Conv-LSTM模型采用多种方式进行组合，并与单个基学习模型进行对比，最终发现CNN和LSTM模型组合后预测效果最佳，说明根据数据特征分别选择合适模型进行组合后，整体预测效果有所提升。

3）将建立好的Stacking模型预测结果输入RF、GBDT和CART决策树，通过验证发现CART作为输出决策树预测效果最佳，由此构建了整个集成学习模型。

4）从时间纬度和空间纬度来看，本文构建的集成学习模型对“严重事故”的预测相对偏低，存在影响事故严重程度的特征变量不足等原因，下一步应加强对事故发生形态、事故发生的车辆类型、交叉口类型和信号控制方法等因素的挖掘。

参考文献：

[1] ZHANG Y L．World health organization releases“Global Road Safety Status Report 2018”[J]．Chinese Journal of Disaster Medicine，2019，7（2）：100.

[2] ABDEL-ATY M，UDDIN N，PANDE A， et al. Predicting free-way crashes from loop detector data by matched case-control logistic regression[J].Transportation Res-earch Record， 2004，7（189）：88-95.

[3] 靳文舟，姚尹杰.多因素耦合作用下的车辆群事故伤害程度估计[J].郑州大学学报（工学版），2021，42（3）：1-7.

[4] PARSA A B， MOVAHEDI A， TAGHIPOUR H， et al. Toward safer highways， application of XGBoost and SHAP for real-time accident detection and feature analysis[J]. Accident Analysis & Prevention， 2020（136）：1-8.

[5] 杨文忠，张志豪，柴亚闯，等.基于GBRT模型的交通事故预测[J].新疆大学学报（自然科学版），2020，37（1）：36-43.

[6] SUN Z， WANG J， CHEN Y， et al. Influence factors on injury severity of traffic accidents and differences in urban functional zones： the empirical analysis of Beijing[J]. International journal of environmental research and public health， 2018，15（12）：2722-2738.

[7] 王庆荣，魏怡萌，朱昌锋，等.基于时空图卷积网络的交通事故风险预测研究[J].计算机工程，2022，48（11）：22-29.

[8] LE K G， LIU P， LIN L T. Determining the road traffic accident hotspots using GIS-based temporal-spatial statistical analytic techniques in Hanoi， Vietnam[J]. Geo-spatial Information Science， 2020，23（2）：153-164.

[9] BENEDEK J， CIOBANU S M， MAN T C. Hotspots and social background of urban traffic crashes： A case study in Cluj-Napoca （Romania）[J]. Accident Analysis & Prevention， 2016（87）：117-126.

[10] 刘尧，王颖志，王立君，等．交通事故的时空热点分析[J]．浙江大学学报（理学版），2020，47（1）：52－59．

[11] 张光南，钟俏婷，杨清玄．交通违法事故时空分布特征及其影响因素——以广州市为例[J]．交通运输系统工程与信息，2019，19（3）：208－214．

[12] 田准，张生瑞．优化经验贝叶斯事故黑点识别与排序方法[J]．长安大学学报（自然科学版），2019，39（5）：115－126．

[13] 万明，吴倩，严利鑫，等.道路交通安全研究的现状与热点分析[J].交通信息与安全，2022，40（2）：11-21，37.

[14] ZHANG M，LI T，ZHU R，et al. Traffic accident's severity prediction： a deep-learning approach-based cnn network[J].IEEE access， 2019（7）：39897-39910.

[15] 张志豪，杨文忠，袁婷婷，等.基于LSTM神经网络模型的交通事故预测[J].计算机工程与应用，2019，55（14）：249-253，259.

[16] PAN Z B，TANG J，TJAHJADI T ，et al. A novel rapid method for viewshed computation on DEM through max-pooling and min-expected Height[J].ISPRS International Journal of Geo-Information，2020，9（11）.

[17] ZHOU Z，HUANG K，QIU Y，et al. Morphology extraction of fetal electrocardiogram by slow-fast LSTM network[J].Biomedical Signal Processing and Control，2021，68（5）：102664.

[18] 李朝辉，殷铭，王晓倩，等.双机制Stacking集成模型在短时交通流量预测中的应用[J].科学技术与工程，2021，21（11）：4648-4655.

[19] 刘星良，单珏，刘唐志，等.基于交通流稳定性系数的高速公路交通事故实时风险预测[J].交通信息与安全，2022，40（4）：71-81.

[20] 吕通通，张湛，陆林军，等.基于互信息贝叶斯网络的交通事故严重程度分析[J].交通信息与安全，2021，39（6）：36-43.

近年来，随着我国的石油勘探工作向复杂油气藏[1]发展，对地下地质体速度求取精度的要求越来越高，储层预测的需求也日益增加。塔里木油田自2021年以来，平均每年负责近20多个储层预测数据的质控工作，每个储层预测项目包括15个以上过程成果数据体需要质控，工作量巨大。传统的人工质控方式存在质控过程繁琐化、质控结果主观化、质控效率低等问题。为此，本文提出了一种基于分布式处理的储层预测质控系统。本系统在确保数据在传输过程中的安全性和完整性的同时，提高处理效率和保证结果质量。

传统的储层预测项目通常由单独的承包商来闭环处理其对应的储层预测全流程工作，包括岩石物理、正演模拟以及特殊处理及属性分析等其他过程[2]。其中，特殊处理主要用于储层预测数据增强，而其他过程则用于信息分析和解释。工区闭环的处理模式能满足一般的石油勘探工作，但其存在“木桶效应”，在探索成熟区域邻近区及新区时，面临着解释周期不可控以及结果质量低等問题[3]。

储层预测数据的安全传输方面，由于储层预测数据[4]的保密性，确保项目双方网络通畅的同时，需要保障数据在传输过程中的安全性和完整性。虚拟专用网络（Virtual Private Network，VPN）是一种通过在客户机与网关之间建立加密的点对点连接的虚拟技术，可以确保数据在经过网络传输时的安全性。然而，对于非页面端的数据访问，传统的质控平台通常依赖额外的应用软件进行转换，无法实现端到端的安全传输。

针对以上原因，本文基于储层预测数据分布式处理新模式，结合GeoEast-iEco[5]数据解释和处理平台，构建了网页端一体化智能质控平台。该平台实现了储层预测数据处理的在线质控功能，能够一键生成质检表和质量控制报告，并支持质控项目的在线作业。同时，平台建立了三级质检在线管理等功能，实现了储层预测质控流程的一体化和智能化。此外，通过建立项目专用的内部网络部署，远程用户可以获得安全接入地址，确保数据访问的安全性和保密性。

1 储层预测数据质控新模式

随着勘探工作的持续进行，所面临的工作环境日益复杂，其难度也在不断增加[6]。为了更有效地质控这些数据，本文提出了一种基于分布式处理平台的储层预测质控系统。这种系统通过将储层预测全流程划分为5个工序、15个质控任务，实现了储层预测质控流程的一体化和智能化。

1.1 储层预测数据分布式处理

在本系统中，储层预测包括5个主要步骤：岩石物理、正演模拟、特殊处理及属性分析、叠后反演和叠前反演。在岩石物理阶段，采用先进的数据清洗和校正技术，以确保数据的质量和准确性。在正演模拟、特殊处理及属性分析阶段，利用大数据技术和分布式计算框架，处理储层预测数据。在其他解释阶段，对数据进行深入学习和复杂的数据分析，以更准确地获取层速度等信息。最后，在质控阶段，使用基于分布式处理平台的储层预测质控系统，监控和控制数据处理的质量和效率。

1.2 储层预测质控系统处理技术与精度要求

储层预测质控系統基于分布式处理平台，实现了储层预测的全流程质控。系统在每个处理阶段设置质控点，并通过质控任务对数据解释进行监控和优化。通过这种方式，保证数据解释质量的同时，提高项目周转的效率。

根据多年的储层预测项目经验[7]，针对塔里木盆地的实际勘探场景，本文在储层预测数据分布式处理的基础上，制定了总体处理技术要求和过程质控要求，并从定性和定量2方面对工作精度要求制定了具体的质控标准。针对塔里木盆地的实际场景需求，结合以往的储层预测经验[8]，制定了适用于该地区的储层预测质控流程，并梳理了重点试验参数。此外，还统一规定了相应的测试范围和区域的基准参数[9]。表1展示了储层预测技术的部分要求，从而保障储层预测的高质量，对各个质控模块的实现进行具体化和模块化。

1.3 过程质控要求

对于储层预测数据，以往质控方式人为主观判断的因素较多，对质控结果存在一定程度干扰。通过三级质检的方式，可以极大降低人为因素所带来的影响，以改善抽检的质量[10]。为了确保储层预测的高质量，针对每个项目采用三级质检的方式完成项目检验，明确规定各个任务的关键步骤的检验点，制定合格标准以及不同级别的抽检率标准，具体质检流程如下。

一级质检：由项目承包商自行进行自检，确保自检率达到100%。

二级质检：由项目监督方进行抽检，抽检率不低于工序中定义的抽检率要求。

三级质检：由专业化小组进行抽检，抽检率不低于工序中定义的抽检率要求。

同时，对每个质控点赋予不同的权重，以便根据各个质控点的考核情况进行综合量化评价。按照从上到下逐级抽检的方式，最终的合格率将根据三级质检的合格率相乘得出。

2 智能质控平台建设

基于储层预测数据分布式处理的组织模式，在降低勘探工作难度的同时，缩短了整体工作周期。然而，在质控方面，传统的质控工作由于没有统一的处理软件，数据需要在不同平台软件之间进行传输[11]，造成资源浪费的同时，也大大影响了工作人员的质控效率以及项目的进度。同时，现有的质检方式大都采用线下的方式进行，这导致了质控流程冗长、数据迁移困难等问题。为了解决以上问题，本文基于储层预测数据分布式处理的组织模式搭建一体化智能质控平台，以实现储层预测数据处理项目的在线远程质控，保障整个质控流程的质量和效率。

2.1 总体设计

一体化智能质控平台的搭建从数据载入、功能构建、用户定制以及应用效果四个方面进行考虑。在数据载入方面，对于GeoEast-iEco平台所处理的数据进行在线载入，而其他处理软件则需要离线载入；在功能构建方面，实现质检进度管理、质控报告及质检记录等功能；在用户定制方面，实现项目承包商、监督方以及监督用户联合保障质检；在应用效果方面，实现在线远程质控、质控结果展示和定量评价。

2.2 技术框架

为了提高储层预测数据质控的效率，本文基于GeoEast-iEco平台搭建了一个并行计算结构，该结构包括存储层、资源管理与作业调度层、并行框架层、质检算法层以及交互层。

在存储层方面，采用了多维度动态道头索引机制、缓存机制以及分布式读写机制，以实现高速数据读取的能力。资源管理与作业调度层利用集群资源管理技术，确保算法能够快速执行。并行框架层负责批量计算各类质检模块。质检算法层则负责进行质检的定量计算。最后，交互层采用GeoToolkit组件[12]为用户提供各类地震成像展示、质检报告生成等交互功能。

通过这样的并行计算结构，能够提高储层预测数据处理的效率，使得储层预测数据的质检工作更加高效准确。

为确保储层预测数据的安全性和完整性，采取了一系列安全措施。首先，部署了一个专用的内部网络，使甲方员工能够安全地访问乙方公司的内部质控平台服务器和Geoeast服务器，同时满足甲方质检员异地访问的需求。

在实现这一目标时，乙方公司在公网IP上部署一个VPN路由器[13]，以便快速、便捷地实现异地用户对乙方公司内网的访问。不论用户是在手机终端还是其他区域局域网用户，都可以通过PPTP/L2TP协议进行访问，并且访问数据会进行加密，直接进入公司内网的质控平台服务器，从而实现协同工作。

通过这样的安全措施，能够确保储层预测数据在项目双方网络中的畅通无阻，同时保证数据的安全性和完整性。用户可以安心地进行远程访问，并参与质控工作。

2.3 质控作业批处理

对于质控作业的批处理，基于MapReduce框架[14]Map阶段负责对数据进行分块处理，而Reduce阶段负责数据的归并处理。通过这种方式，可以有效地完成质控作业的批处理。

用户可以通过前端界面监管作业参数和状态，查看储层预测数据和质控项目的展示等功能。通过这个前端网页，用户可以方便地管理和监控质控作业的进度，并且查看相关数据和项目的展示。

3 实现效果

3.1 全量质控

根据质控指标以及定量检测质控要求，从点、线、面及切片4个维度对储层预测数据进行效果的对比分析。图1的左侧展示了执行波场分离后的Z分量在去噪前后时的对比，图的右侧展示了Z分量[15]在去噪前后的单炮信噪比，从图中可以看出，Z分量的噪声在去噪后从53.88%降低为44.07%，而信号占比从45.61%提高到55.32%。基于批处理算法模块和内置信噪比计算模块，实现储层预测数据的快速信噪比分析计算；同时在Web前端页面，实现分布式远程信噪比分析计算功能，满足了储层预测数据处理解释过程质量控制对信噪比分析计算的需求。

在测井时获得的曲线，可反映出不同岩性、层位特征，相同区域测井曲线反映了本区域的地质特征，具有一定的规律性，通过定性展示特定区域的联井曲线可以对测井曲线质量进行定性质控。图2展示了岩石物理质控中的测井曲线[16]图，其中，数据源为纵波层速度、横波层速度、密度曲线等，可以定性分析测井曲线特征与岩性的吻合程度，为后续处理解释工作提供了质量参考。

3.2 三级质检在线管理

經由本平台创建的质控项目支持三级质检的线上管理，质控项目信息包括油田质检人员、项目承包人员以及专业监督人员，由甲方提供质检需求，乙方进行质控意见的在线反馈，数据经由内部专用网络进行存储和转发，并通过质控平台查看相关质控数据报告以进行在线审核。

3.3 质控报告在线生成

传统的质控记录工作通常是线下进行的，工作人员需要依赖专业软件来记录质检数据，例如质检数量、合格率等，并且需要进行线下的人工签字。为了解决这个问题，智能质控平台构建了一个网页端的系统，可以在线生成质检记录和质控报告。

针对质检过程的在线记录，系统能够自动获取质检用户的信息以及所有的操作，并生成质检记录表。在这个过程中，系统会完成定量质控，而质检人员则负责定性判断。质检表中的关键字段由平台根据相应的数据自动生成，这不仅提高了质控处理的效率，也避免了人为主观因素的影响。

另外，针对质控报告的在线生成，平台会将质控点的处理数据进行存储，并按照指定的模板生成相应的质控报告文档。报告中会说明检验标准以及质控结果是否合格，从而简化了工作人员的报告流程。

4 结束语

通过对储层预测数据分布式处理组织模式的探索，成功地制定了质控处理技术体系，并在此基础上搭建了一体化智能质控平台。平台实现了在线质控、远程质控、三级质检在线管理、质控报告和质检记录的在线生成等功能，大大提高了质量和效率。研究结果表明，智能质控平台对于改善质控流程、提升效率和质量具有重大价值。后续将进一步探索这个领域，包括利用深度学习技术如ResNet和GAN等深度神经网络，来提高质控处理结果的精度。

参考文献：

[1] 滕吉文，司芗，王玉辰.我国化石能源勘探，开发潜能与未来[J].石油物探，2021，60（1）：1-12.

[2] 李虹，蔡希玲，王学军，等.海量地震数据处理方案与技术发展趋势[J].中国石油勘探，2014，19（4）：48-55.

[3] 李铁柱，韩文娜，王铁成.VSP数据管理质量控制方法探讨[J].中国信息界，2012（10）：41-43.

[4] HORNBY B E， YU J， SHARP J A， et al. VSP： Beyond time-to-depth[J]. The Leading Edge， 2006，25（4）：446-452.

[5] 王子兰，王仕俭，李素闪，等.GeoEast处理解释一体化应用[J].天然气工业，2007（S1）：222-224.

[6] WANG X-W， QIN G-S， ZHAO W-F， et al. The application of forward modeling technique in seismic acquisition de-sign[J]. Progress in Geophysics， 2012，27（2）：642-650.

[7] WANG H， LI M， SHANG X. Current developments on micro-seismic data processing[J]. Journal of Natural Gas Science and Engineering， 2016（32）：521-537.

[8] 王喜双，赵邦六，董世泰，等.油气工业地震勘探大数据面临的挑战及对策[J].中国石油勘探，2014，19（4）：43.

[9] LONGDE S， CHAOLIANG F， LIMING S， et al. Innovation and prospect of geophysical technology in the exploration of deep oil and gas[J]. Petroleum Exploration and Development， 2015，42（4）：454-465.

[10] 郭树祥，王立歆，韩文功.叠前地震数据优化处理技术分析[J].石油物探，2006，45（5）：497-502.

[11] 冷广升.地震数据采集质量控制方法研究与应用[J].中国煤炭地质，2010，22（S1）：67-72，76.

[12] BALOVNEV O， BODE T， BREUNIG M， et al. The story of the GeoToolKit-an object-oriented geodatabase kernel system[J]. GeoInformatica， 2004，8（1）：5-47.

[13] SINGH K K V， GUPTA H. A New Approach for the Se-curity of VPN[C]//Proceedings of the Second International conference on Information and Communication Technology for Competitive Strategies， 2016：1-5.

[14] DEAN J， GHEMAWAT S. MapReduce： simplified data processing on large clusters[J]. Communications of the ACM， 2008，51（1）：107-113.

[15] LU J， WANG Y， CHEN J， et al. P-and S-mode separation of three-componentdata[J]. Exploration Geophysics， 2019，50（4）：430-448.

[16] MATEEVA A， ZWARTJES P. Depth calibration of DAS channels： A new data-driven method[C]//79th EAGE Conference and Exhibition 2017，2017：1-5.