水上交通事故组合预测模型的构建及应用

2019-07-01 06:58王当利王雪佳杨馨颖
关键词:预测值算子交通事故

王当利 王雪佳 吕 雪 杨馨颖

(武汉理工大学航运学院1) 武汉 430063) (内河航运技术湖北省重点实验室2) 武汉 430063)

0 引 言

水上交通事故预测是水上交通安全领域的重点研究内容之一,从技术上分为定性预测与定量预测两种,而定量预测方法中又包括单一预测和组合预测.目前,国内外关于交通事故预测使用的单一预测方法主要有灰色理论、时间序列、回归分析、神经网络、马尔科夫链等方法[1-2].Debnath等[3]基于时间序列预测方法对新加坡港航道内碰撞事故进行定量预测;Rahman[4]运用贝叶斯网络分析水上交通事故影响因素与事故概率之间的关系,并对不同类别的事故数量进行有效预测.这些方法均为水上交通事故预测提供了研究思路,但由于模型自身特点导致预测精度有限.组合预测具有能够有效降低预测误差和综合利用单一预测方法的优势,但目前关于水上交通事故组合预测的研究并不多,现有的研究也仅限于灰色预测模型和其他预测模型结合的组合预测,李铃铃等[5]首次将灰色预测模型的预测值残差运用BP神经网络加以修正,进而得到水上交通事故量的组合预测值;赵佳妮等[6]运用马尔可夫预测模型对灰色GM(1,1)预测模型的预测结果进行优化,对具有较强波动特性的数据能得到理想预测结果.与水上交通事故预测相比,道路交通对于组合预测研究更为深入,除了基于传统灰色预测方法的组合预测外,有基于ARIMA模型和支持向量回归机模型的时间序列组合预测、最优加权组合预测、D-S证据理论组合预测等模型.可见,尝试利用其他形式的组合预测方法是水上交通事故预测研究的新思路.

水上交通系统具有典型的非线性、灰色和动态特性,水上交通事故的影响因素众多且影响因素间相互影响、互相关联;另外,受自然条件等外部环境的影响,水上交通事故在不同月份的发生量有所不同,具有明显的季节变化趋势.考虑到多元灰色预测模型MGM(1,n)能够综合考虑多个相关因素对事故发生的影响作用,季节差分自回归滑动平均模型(seasonal autoregressive integrated moving average, SARIMA)能够集合事故数据在周期间和周期内的变化特征,更全面、真实的反映事故发生趋势,本文将选用这两种模型对事故数进行组合预测[7-8].同时,为了突破原有组合预测的局限,改变各单预测模型权系数在待测时间点恒定不变的限制,引入诱导有序加权平均(induced ordered weighted averaging operate,IOWA)算子,以提高预测性能.以天津水域事故统计为原始数据,对比各预测模型的评价结果,验证该模型的适用性及合理性,并对天津水域2018-2020年的事故数进行预测,得到近3年水域内事故发生的趋势.

1 组合预测模型的构建

1.1 基于背景值优化的多元灰色预测模型MGM(1,n)

1) 确定水上交通事故原始数据 根据关联度分析,确定水上交通事故原始数据序列.

(1)

式中:n为系统中变量个数;m为时间点个数.

2) 获取累加生成序列 为了弱化事故数据的随机性,使其呈现出一定规律,对原始数据序列进行一次累加处理,破坏历史事故数据的离乱特性.一次累加生成序列为

(2)

k=1,2,…,m;i=1,2,…,n.

3) 建立n元一阶常微分方程 根据生成数列建立预测模型的一阶常微分方程组,并转换成矩阵形式,为

(3)

4) 求解模型中的参数A和B将式(2)进行离散化处理,利用最小二乘法得:

(4)

k=1,2,…,m;i=1,2,…,n.

(5)

H=(BTB)-1BTY

(6)

式中:

(7)

采用非齐次指数函数对MGM(1,n)模型一次累加生成序列进行拟合,得到优化后的背景值为

(8)

从式(7)的矩阵H中可以得到A和B的辨识值和

(9)

5) 建立时间响应函数 将A的辨识值带入所构造的微分方程组内,同时假定边界条件为然后按一般微分方程组求解的过程进行求解,由此得到时间响应函数为

X(1)(t)=eAtX(1)(0)+A-1B-A-1B

(10)

6) 时间响应函数离散化 将X(0)(1)作为第一个数据的前提,经过k-1个间隔到达X(0)(k),得到:

k=2,3,…,n.

(11)

1.2 SARIMA时间序列预测模型

SARIMA模型即SARIMA(p,d,q)(P,D,Q)s模型,一般形式为

(12)

式中:S为季节性周期长度;φp(Bs)和ΗQ(Bs)ut分别为季节P阶自回归算子和Q阶移动平均算子;P为季节性自回归阶数;Q为季节性移动平均阶数;D为季节性差分阶数.当P,D,Q的值均为0时,此时的模型即为ARIMA模型.模型的具体建模步骤为:

步骤1平稳性检验 通过分析时序图和序列相关图,判断序列的平稳性.当序列出现周期性的变化趋势时,需要对其平稳性进行检验.根据单位根(augmented dickry-fuller,ADF)检验的结果判定待测事故数据序列是否平稳,若序列出现明显的波动性,则需要通过差分和季节差分处理,使之变为平稳序列.

步骤2模型的识别和参数估计 模型识别过程即通过分析自相关和偏相关函数,确定SARIMA模型阶数p,d,q及P,D,Q进而选取预测效果最好的预测模型的过程.当原始事故序列经过 阶差分和步长w的n阶季节差分后平稳,那么d=m,D=n,s=w.通过分析自相关函数和偏相关函数,确定模型的阶数,通过设定不同的预测模型,并根据AIC准则,确定最佳的SARIMA模型.

步骤3白噪声检验 对SARIMA预测模型进行检验时,需要判断残差序列的独立性.当残差序列是白噪声序列时,通过序列t检验或残差的Q统计量判断模型的合理性.白噪声序列是不存在相关关系的序列.

步骤4模型预测 利用Eviews8.0软件对事故数据进行预测,根据上述步骤建立预测模型,实现对样本内事故数据序列的静态预测和样本外事故数据序列的动态预测.

1.3 基于IOWA算子的组合预测模型

1.3.1IOWA算子

设某实际情况的指标序列值为xt(t=1,2,…,N),预测时利用m个单预测模型,xit为第i个单预测模型在t时刻根据预测模型计算得出的预测值,i=1,2,…,m,t=1,2,…,N.ait为第i个单项预测模型在第t时刻的预测精度,同时a的值在0与1的范围之间.可将ait视为xit的诱导值,第t时刻m个单预测模型的预测精度ait及其预测值xit即组成了m个二维数组(a1t,x1t),(a2t,x2t),…,(amt,xmt).

(13)

1.3.2组合预测模型计算方法

每个单预测模型在组合预测中的有序加权平均向量为W=(w1,w2,…,wm)T,按由大至小的排序依次列出m个单预测模型在第t时刻的预测精度序列a1,a2,…,am,根据IOWA算子,得到组合预测模型预测值的计算公式为

fw{(a1t,x1t),(a2t,x2t),…,(amt,xmt)}=

(14)

由于各单预测模型的预测精度随着预测时间点的改变而发生变化,且组合预测方法的权系数仅与单预测方法的预测精度相关.因此,组合预测权重系数确定的关键在于单预测模型在不同时间点上预测精度的高低[9-10].

设ea-index(it)=xt-xa-index(it),N期组合预测误差的总平方和S是:

(15)

综上所述,基于IOWA算子的组合预测模型的计算公式为

W=minS(w1,w2,…,wm)=

(16)

1.3.3基于IOWA-MC的组合预测模型

鉴于IOWA算子组合预测模型中权系数与不同预测时间点的预测精度存在一定相关性,且不能预先获知未来预测时间点的预测精度,因此,对未知序列进行预测时,需要依据各单预测模型预测精度的排序确定单预测模型的权系数.马尔可夫链(MC)是一种能够按照事物原始状态和可能状态之间的转移概率预测下一步发展方向的马尔可夫过程.因此,将MC与IOWA算子组合预测模型相结合,在对将来时间进行预测时,利用MC定性确定每个单预测模型在预测时间点上的预测精度状态.通过确定预测精度排序,计算组合预测模型中的权系数,建立组合预测模型[11-12].设状态转移概率为

(17)

N×N阶状态转移概率矩阵为

(18)

式中:Mi,j(k)为k步转移后状态i变为状态j的样本总数;Mi为处于状态i的样本数;Pi,j(k)为k步转移后状态i变为状态j的可能性.构建IOWA-MC模型的具体步骤如下.

步骤1计算各单预测模型的预测值,并计算各模型的预测精度.

步骤2按照聚类分析方法,将预测精度相差不大的预测时间点视为精度状态相同,并对各单预测模型在预测期间的精度进行状态区间的划分.根据各单预测模型预测精度范围,划分为若干个精度状态区间.

步骤3计算各预测模型预测精度的状态转移概率矩阵.

步骤4根据最近时间点所处的精度状态和转移概率矩阵可以预测出待测时间点预测精度可能的状态.采用滑动转移概率矩阵方法,得到各预测模型全部待测时间点的预测精度状态.

步骤5根据IOWA组合预测模型的建模步骤,确定组合预测模型的权系数,计算组合预测模型的预测值.

2 模型应用

为了验证组合预测模型的合理性,以天津水域2003-2017年水上交通事故的统计数据进行实例研究.首先,依次利用优化的MGM(1,4)预测模型、SARIMA预测模型和IOWA算子组合预测模型对事故数进行预测;其次,通过对比分析三种预测模型的预测误差,证明本文建立的组合预测模型相比于单预测模型来说,能够作为提高预测准确性的有效途径;最后,对天津水域的事故数进行预测,得到近三年水域内事故发生趋势.

2.1 背景值优化的多元灰色预测模型MGM(1,4)

根据陆梦[13]基于DEMATEL与ISM集成方法的水上交通系统脆性影响因素研究,以及指标参数最好不超过三个的选取原则,最终确定选取日交通流量、船员任职资历,以及能见度不良天数三个影响因素与水上交通事故数建立背景值优化的MGM(1,4)预测模型进行实例预测.原始数据序列见表1.

表1 原始事故数据序列

根据式(2),基于背景值优化的MGM(1,4)模型的一次累加生成序列为

根据式(10)~(11),利用Matlab编程进行计算,得到天津水域2008-2015年水上交通事故的预测值,并与实际值进行曲线拟合,见图1.

图1 背景值优化的MGM(1,4)预测模型预测值与实际值拟合图

2.2 SARIMA 时间序列预测模型

根据时间序列预测方法的适用条件,选取天津水域2003-2015年实际水上交通事故月度统计量作为实例研究对象.按照1.1.2的建模步骤重新建立预测模型,通过对模型进行识别和检验,最终确定SARIMA(1,0,1)(1,1,1)12预测模型为最佳预测模型.最后将预测值和实际值进行拟合,见图2.

图2 SARIMA(2,0,1)(1,1,1)12模型预测值与真实值拟合图

利用该模型对2016-2017年的事故进行动态预测,将得到的月度预测值相加,得到年事故量预测值.

2.3 组合预测模型及预测结果分析

2.3.1组合预测模型

根据式(16),分别计算各单预测模型得到的2008-2015年预测事故量及预测精度,将各单预测模型的预测值和预测精度代入式(16)中,得到基于IOWA算子的最优化组合预测模型为

(19)

利用MATLAB对得到的预测模型计算式进行求解,得到最优权系数分别为:w1=0.993 6;w2=0.006 4.根据IOWA算子预测模型的建模步骤,将求得的w1,w2代入式(19),由此,即可得到基于IOWA算子的水上交通事故组合预测模型的预测值,见表2.将三种预测模型的预测值和实际值进行拟合,见图3.

表2 各预测模型的预测值

图3 各预测模型预测值与实际值拟合图

2.3.2组合预测模型评价

为了进一步验证预测模型的合理性,分别对所选用的三种预测模型的预测误差进行比较,检验模型的预测效果.根据组合预测效果评价原则,分别对各预测模型的五项误差指标进行统计,具体结果见表3.由表3可知,组合预测模型的各项误差指标值最小,在整个事故预测过程中预测性能最佳.

表3 预测效果评价

2.3.3未来预测

根据背景值优化的MGM(1,4)模型,得到2018-2020年水上交通事故的预测值分别为23.4,23.6,23.9起.根据SARIMA(1,0,1) (1,1,1)12预测模型,得到2018-2020年的水上交通事故的预测值分别为20.6,23.1,18.5起.

将各单一预测模型2008-2020年的预测值和预测精度代入式(19)中,对数据进行相应整理后,得到如下的最优化组合预测模型.

min(w1,w2)=0.942w1+

(20)

利用MATLAB求解上式,得到最优权系数分别为:w1=0.999 5;w2=0.000 5.将w1,w2代入残差检验公式中,,得到2018,2019及2020年的水上交通事故预测值分别为21,23,19起.

3 结 束 语

本文将诱导有序加权平均算子引入到水上交通事故组合预测中,所建模型能较好利用不同单一模型信息,突破传统组合预测模型的现状,有效降低预测误差,可作为水上交通事故预测研究的新方法,短期预测效果显著,中长期预测精度仍需深入研究.

猜你喜欢
预测值算子交通事故
基于BPNN-AdaBoost的隧道交通事故数预测研究
有界线性算子及其函数的(R)性质
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
AI讲座:ML的分类方法
预防交通事故
Domestication or Foreignization:A Cultural Choice
自体荧光内镜对消化道肿瘤诊断临床应用分析
搭乘同事车辆下班回家途中发生交通事故是否认定工伤
QK空间上的叠加算子
愉快的购物