基于支持向量回归和线性回归的航班延误组合预测*

2019-07-01 06:59王语桐朱金福马思思
关键词:离港进港航班

王语桐 朱金福 马思思

(南京航空航天大学民航学院 南京 211106)

0 引 言

航班延误成为机场运营管理的一大难题,尤其对于枢纽机场,一旦发生大面积航班延误,造成旅客大量积压,会严重影响机场运行秩序.建立有效的航班延误预测模型,预测可能延误的航班数及延误程度,及时调整运行策略,以降低由航班延误导致的各种负面影响.

目前,国内外已有相关学者对航班延误预测进行了研究.文献[1]利用贝叶斯网络分析航班延误在衔接时的传播过程,来预测下游机场的航班延误情况.文献[2]基于集成学习理论和改进型的贝叶斯网络,建立了一种带有自反馈的集成学习系统,对航班延误情况进行预测.文献[3]利用动态数据驱动方法进行航班延误预测,并采用支持向量机和滤波的方法分别对状态空间模型的关键参数进行回归求解和动态数据的同化.文献[4]基于朴素贝叶斯的特征选择方法与气象和飞行性能数据相结合,进行航班延误预测.文献[5]在同时考虑航班自身属性和航空信息网络内其他机场与航班延误有关因素的基础上,对降维后的特征使用支持向量回归方法预测航班的延误时间.文献[6]得出到港延误时间序列存在混沌特性,对其进行相空间重构,并结合算例证明差分进化算法可获得最优的支持向量回归预测模型.文献[7]基于动态贝叶斯网络的航班延误传递模型对航班延误传递的特性进行了分析,并提出航班延误链式逐段扩展预测模型.文献[8]基于监督式学习模型对航班延误进行定性、定量分析和预测.文献[9]通过引入一种新型的多级输入层神经网络模型来预测航班延误.针对机场的进港航班延误预测,文献[10-12]分别采用融合先验知识的支持向量回归方法、决策树方法与多元线性回归方法建立进港航班延误预测模型.上述文献的预测方法大都存在着模型单一的缺点,对于处理影响因素较多的航班延误预测问题存在局限性.同时,单一预测模型比组合预测模型更易受到随机性因素(天气、流量控制等)的影响,进而影响到模型的预测效果.

为克服单一预测模型的缺陷,文献[13-15]建立了航班延误组合预测模型,在一定程度上提高了延误预测的准确性.但是对航班延误预测进行研究时,往往会忽略输入变量之间存在的相关性,且输入数据过多,使得模型训练时间较长且预测结果的误差较大.由于航班延误数据既包含线性趋势又包含非线性趋势,故文中将SVR与MLR相结合,并融合主成分分析法对模型的输入变量进行降维处理,以相应的主成分作为模型的预测变量对航班延误进行预测,该方法在缩短模型训练时间的同时,又保证了预测结果的精确性.

1 预测指标

选择单位小时进离港航班延误架次和平均延误时长作为预测指标.根据中国民用航空局在2016年颁发的《民航航班正常统计办法》,进港正常航班是指不晚于计划到港时间后15 min(含)到港的航班,离港正常航班是指在计划离港时间后15 min(含)之前离港的航班.延误判定标准如下.

1) 航班进港延误

Tdel.A=max{0,ATA-(STA+15)}

(1)

式中:Tdel.A为航班进港延误时间,若Tdel.A=0,表示该航班没有延误,否则表示该航班延误;STA为航班时刻表上的航班计划进港时间;ATA为航班在机位停稳后,地面机务人员挡上航空器第一个轮挡的时间.

2) 航班离港延误

Tdel.D=max{0,ATD-(STD+15)}

(2)

式中:Tdel.D为航班离港延误时间,若Tdel.D=0,表示该航班没有延误,否则表示该航班延误;STD为航班时刻表上的航班计划离港时间;ATD为机组得到空管部门推出或开车许可后,地面机务人员撤去航空器最后一个轮挡的时间.

因此,对于单位小时内航班延误架次的计算,是通过计数的方式统计1 h内的延误航班数目;对于单位小时内航班平均延误时长的计算,首先按照式(1)~(2)计算单个航班的延误时长,然后对1 h内总延误时长取平均值,得到该单位时间航班的平均延误时长.

2 数据预处理

2.1 变量选取及归一化处理

航班起降数据采用上海浦东机场协同运行系统中的航班运行历史数据.选取2016年12月的航班数据作为模型的训练集,2017年1月的航班数据作为测试集.

根据美国联邦航空局中航空系统性能指标数据库中的机场分析模块,与机场航班起降有关的数据字段主要有以小时为单位的机场进离港架次、进离港延误架次、平均延误时长,以及航班性质等.通过对已有数据字段进行补充和修改,得到表1的变量符号及含义.

表1 变量符号及含义

其中,上一时段的进离港航班数据是指前1 h的进离港航班数据.考虑到机场存在宵禁,01:00—05:00机场内起降航班数较少,因此,选取06:00—24:00内的起降数据作为样本.由于各变量量纲不一致,很可能对研究结果造成影响,故采用最大、最小归一化方法分别对训练集和测试集进行归一化处理,使得各变量的数据范围缩放到[0,1]之间,其表达式为

(3)

式中:X和Y分别为归一化前后的数值;Xmax和Xmin分别为样本的最大值和最小值.

2.2 显著变量选取

由于引起航班延误的因素较多,若将所有影响因素都作为模型的输入变量,会增加模型的训练时间且降低了泛化性能,因此,运用R语言对影响机场航班延误的影响因素进行逐步回归分析,得到影响单位小时内进离港航班延误架次和平均延误时长的显著变量,结果见表2.

表2 影响预测指标的显著变量

3 组合模型建立

3.1 共线性检验及主成分分析

多重共线性是指模型中的输入变量之间由于存在高度相关关系而使模型估计失真或难以估计准确,可用方差膨胀因子(VIF)来评估.

(4)

运用R语言对各个输入变量的VIF值进行计算,得出输入变量之间可能存在多重共线性.为消除多重共线性,采用主成分分析法,在尽可能保留原始信息的前提下,通过降维的思想将存在线性相关的输入变量转化为几个线性无关的主成分,并以主成分作为预测变量进行航班延误预测.

根据各个预测指标的主成分累计方差贡献率,在预测进离港航班延误架次和平均延误时长时均选取前6个主成分作为模型的预测变量,使得累计方差贡献率均达到94%以上.

3.2 多元线性回归模型

多元线性回归模型主要用于判断多个预测变量与预测指标之间的关系,其模型表达式为

y=β0+β1Z1+β2Z2+…+β6Z6+ε

(5)

式中:Zk为第k个主成分;β0,β1,…,β6为回归系数;ε为随机误差项.

3.3 SVR模型

支持向量机是建立在VC维理论和结构风险最小原理的基础上,在小样本、非线性及高维数据中表现出很多特有的优点,并且可以根据样本信息在模型复杂性和学习能力之间寻求最佳折衷,以获得最好的推广性能.SVR的基本思想是通过一个非线性映射φ将主成分Zi映射到高维特征空间,并在此空间进行线性回归,十分适合对机场航班延误数据进行回归分析.记z={(z1,y1),(z2,y2),…,(zn,yn)}为航班样本,n为样本量,zi为输入向量,即zi=(Zi1,Zi2,…,Zi6)T,yi为对应的预测指标数据,则SVR问题转化为

(6)

(7)

(8)

式中:核参数σ和惩罚系数C是通过网格搜索法和交叉检验法[16-17]确定,即首先在σ和C取值区间内划分若干网格并遍历取值,而后采用10折交叉验证法,选取所有取值中使得均方误差平均值最小的一组为最优参数对.

3.4 组合权重系数的确定

3.4.1MAPE权重系数

平均绝对百分数误差(MAPE)主要反映预测相对误差的平均水平,所遵循的原则是MAPE大的模型在组合模型中所占的权重系数小,其表达式为

(9)

(10)

3.4.2最小二乘法权重系数

在组合模型中经常用到拟合误差的误差平方和达到最小来计算权重系数wi,称为最小二乘法.最小二乘法可以转化为以误差平方和为准则的线性组合预测模型的最优化问题:

(11)

(12)

式中:ei(t)为第i个模型在t时刻的预测误差;n为样本量.

3.4.3 组合权重系数

组合模型权重是将MAPE权重系数和最小二乘法权重系数相结合,得到组合权重系数.

(13)

式中:ai为第i个模型的MAPE权重系数;wi为第i个模型的最小二乘法权重系数.

经过MAPE和最小二乘法相结合确定的组合模型的权重系数见表3~4.

表3 离港航班组合模型的权重系数

表4 进港航班组合模型的权重系数

所得到的进离港航班延误的组合预测模型为

1) 离港航班延误架次的组合预测模型

(14)

2) 离港航班平均延误时长的组合预测模型

(15)

3) 进港航班延误架次的组合预测模型

(16)

4) 进港航班平均延误时长的组合预测模型

(17)

4 组合模型测试与评估

4.1 组合模型测试

为检验上述组合模型的性能,利用上海浦东国际机场2017年1月的航班数据对组合模型进行测试,测试结果见图1.

图1 组合预测模型的测试结果

由图1可知,对测试数据的预测值与实际值总体相差不大,离港航班延误架次的误差大部分可以控制在两架以内,进港航班延误架次的误差均控制在三架以内,且二者的误差比例大多控制在20%以内.离港航班平均延误时长的误差大部分可以控制在6 min以内,进港航班平均延误时长的误差大部分可以控制在5 min以内.

4.2 组合模型评估

模型评估指标采用均方根误差(RMSE),RMSE是用来衡量预测值与真实值之间的偏差,其值越小代表预测精度越高,其表达式为

(18)

三种模型的误差结果见表5.通过误差结果比较可知,航班延误的组合预测模型的均方根误差小于MLR模型和SVR模型,即组合模型的预测效果优于单一模型.因此,该组合预测模型可用于机场航班延误问题的研究.

表5 模型误差结果比较

5 延误预测

利用上述所得到的航班延误组合预测模型,对上海浦东国际机场2017年12月1日06:00—24:00的进离港航班延误数据进行拟合.所得到的组合模型的预测结果见图2.

图2 组合模型的预测结果

由图2可知,预测值与实际值总体相差不大,离港航班延误架次的误差大部分可控制在3架以内,进港航班延误架次的误差均可控制在1架以内.而离港航班平均延误时长的误差均可控制在4min以内,进港航班平均延误时长的误差大部分可以控制在6min以内.

6 结 束 语

整体来讲,该组合预测模型用于解决机场航班延误问题比单个预测模型具有更高的预测精度.该研究成果在一定程度上可用于机场运行控制人员监控机场拥挤程度,预测未来时刻航班延误情况,为采取适当的资源调度方案等提供参考,以帮助机场及时发布延误预警信息,调整机场运行调度策略和减少航班延误的发生.此外,分析预测结果与实际值误差产生的原因主要有:部分时刻的数据的缺失导致误差;极端恶劣天气情况下的数据没有单独处理;没有将航班取消情况考虑进去.

未来的工作主要有:①在数据处理和筛选阶段考虑航班取消和极端天气等情况;②进一步完善统计数据的属性,增加天气情况、跑道关闭情况等.③在有效预测航班延误情况的基础上,将预测结果作为与机场场面运行相关的优化模型的参数,比如滑行道调度模型、停机位指派模型等.

猜你喜欢
离港进港航班
山航红色定制航班
山航红色定制航班
山航红色定制航班
山航红色定制航班
大型满载油轮使用鱼山作业区南部进港航道航行方法探讨
成都进港流量排序管理系统运维风险分析与优化
船舶进靠浙能台二电煤炭码头风险的研究
国家能源集团珠海煤码头进出港作业能力分析
旺角暴乱嫌犯被禁止离港