铁路旅客列车客座率分类及预测模型研究

2018-03-20 06:38朱建生吕晓艳贾新茹王炜炜
铁道运输与经济 2018年3期
关键词:客座率样本数聚类

张 永,朱建生,冯 梅,吕晓艳,贾新茹,王炜炜

ZHANG Yong,ZHU Jian-sheng,FENG Mei,LYU Xiao-yan,JIA Xin-ru,WANG Wei-wei

(1.中国铁道科学研究院 研究生部,北京 100081;2.中国铁道科学研究院 电子计算技术研究所,北京 100081;3.中国民用航空华北地区空中交通管理局 通信网络中心,北京 100710)

(1.Postgraduate Department,China Academy of Railway Sciences,Beijing 100081,China; 2.Institute of Computing Technology,China Academy of Railway Sciences,Beijing 100081,China; 3.Center for Communication Networks,CAAC North China Regional Administration,Beijing 100710,China)

铁路旅客列车客座率的目标通常是根据现有列车运行信息下达的,传统的做法是将这些列车信息输入到电子表格中,利用人工进行列车信息的处理、分类和客座率的预估,形成一张决策表。在实际工作中,这样的做法存在误差较大、决策信息不一致等问题。在既有的客座率或客运量的预测研究中,主要利用 BP 神经网络、多元非参数回归模型、时空序列和灰色线性回归算法,根据历史客座率或客运量作为训练集进行预测,并没有根据列车属性挖掘出目标变量的生成规则[1-3]。基于上述问题,提出一种基于随机森林算法的旅客列车客座率分类及预测模型,并以 2013 年和2014 年全路开行的 5 种类型的列车 (非临客) 数据作为训练集,2015 年新开行的列车 (非临客) 开行前一个月的数据作为测试集,对新运行图列车进行日均客座率的分类和预测。

1 旅客列车客座率分类及预测模型

1.1 数据预处理

首先,收集列车基础信息,包括列车类型、始发时间、终到时间、停站个数、列车运行里程、运行时间、始发站等级 (始发站日均发送人数)、终到站等级 (终到站日均发送人数),并将这 8 个因素作为输入属性。可以看出,除第 1 个属性为离散型变量外,后 7 个变量和目标变量客座率均为连续型变量。其次,根据随机森林算法的要求,通过离散化算法将连续型变量转化为离散型变量。数据离散化可以有效地克服数据中隐藏的缺陷,避免极端值影响分类结果。

1.1.1 目标变量的离散化

离散化算法分为非监督离散化算法和监督离散化算法[4]。非监督离散化算法,如等频、K 个区间比例加权离散化算法 (WPKID)[5]和基于聚类的算法[6]等;监督离散化算法,如 CACC 算法[7]、ChiMerge 算法[8]、Hellinger 算法[9]和基于信息熵的离散化算法[10]等。由于目标变量为连续型变量,因而需要对目标变量进行非监督的离散化。但是,上述非监督离散化算法忽略了数据分布信息,区间边界的确定不具有代表性。

为解决上述问题,提出一个解决目标变量离散化的算法模型:谱聚类-CACC 模型。该算法首先对客座率利用谱聚类进行非监督的划分,谱聚类是一种基于图论划分[11]的聚类算法,它将数据点和点间距离看做带权无向图,并根据定义的 K 值进行子图的分割。分割结束后,呈现出同簇内部节点之间相互连接密集,不同簇的节点之间连接稀疏的特征。根据聚类之后的类标号,利用 CACC 算法对目标变量进行监督的离散化。目标变量离散化结果和切分点如表 1 所示。

表1 目标变量离散化结果及切分点Tab.1 Discretization of target variables and segmentation points

1.1.2 因素数据离散化

在对目标变量离散化结束之后,根据目标变量离散化结果,对因素数据进行监督离散化。CACC算法是一个自底向上的算法,充分考虑了数据的分布,在后续的决策树算法中准确率更高[4]。将连续型数据中相邻元素的均值作为备选切分点,每次计算数据被切分后,通过公式 ⑴,计算各个区间中目标变量分布的相关性。

式中:C 为 CACC 算法的类-属性相关指数;y' 为目标变量分类在属性变量切分区间的分布;M 为样本总数;S 为目标分类个数;n 为切分区间的个数;qir为目标变量第 i 类,切分区间 [dr-1,dr] 中的样本数;Mi+为目标变量 i 中的样本数;M+r为切分区间 [dr-1,dr] 中的样本数。

在该算法的每次迭代过程中,总是选取相关性最大的点作为切分点,剩下的备选点重复上述步骤,直到全局的相关性达到最大,则切分停止。

对于因素数据,在进行离散化之前,先将始发时间、终到时间和运行时长 3 个与时间有关的属性数据进行取整,如始发时间是 8 ∶ 57,处理为9 ∶ 00,记为 9;再如列车运行时长为 1 h 45 min,转变为小数 1.75,四舍五入结果为 2 等。属性变量离散化结果及切分点如表 2 所示。

1.2 分类结果中最优客座率选取

由于业务的需求,不仅要按照列车不同的属性将客座率进行分类,还要找出在不同客座率分类目标中能满足一定误差的客座率准确取值。在训练集中,经过目标变量的离散化后,每个客座率分类对应一个客座率集合,在这个集合中,要找出一个能使一个分类中在误差范围内样本数达到最大的最优客座率取值。设计一个基于误差区间交集和样本密度的最优客座率选取算法,其在给定的误差范围内,计算每个类中每个值的误差范围,并对它们进行交集运算,统计其中的样本数,最终得到数据密度最大的区间,计算得到最优值。

表2 属性变量离散化结果及切分点Tab.2 Discretization of factor variable and segmentation points

设在第 k 个客座率分类中,对应 N 个实际的客座率,存在按照样本中客座率降序排列样本数据集D = {( y0,k,m0,k,x0,k),( y1,k,m1,k,x1,k),…,( yj,k,mj,k,xj,k),…,( yN,k,mN,k,xN,k)}。其中,yj,k为第k 个客座率分类中第 j 个客座率;mj,k为第 k 个客座率分类中第 j 个客座率所对应的样本个数;xj,k为第 k 个客座率分类中第 j 个客座率所对应的一个客座率取值,使得其在误差范围 [b,a] 内满足集合Aj,k={xj,k| xj,k∈[b + yj,k,a + yj,k]},其中 Aj,k为包含第 k 个客座率分类中第 j 个客座率所在误差范围内的所有客座率取值,则在样本数据集内,存在集合A ={A0,k,A1,k,…,Aj,k,…,AN,k}包括样本集中各个客座率分类中每个客座率实际值在规定误差下所包含的客座率取值。如果在 A 中同一个客座率分类存在几个集合的交集,则满足交集部分的取值覆盖了几个集合所有的样本数。基于误差区间交集和样本密度的最优客座率选取算法步骤如下。

(1)初始化 j = 0,i = 0。

(2)第一重迭代开始,从集合{A0,k,A1,k,…,Aj,k,…,AN,k}中取 Aj,k,并初始化交集集合={Aj,k},计数器 count = 0。

(3)i = j + 1;从原结合中截取子集合{Ai,k,Ai+1,k,…,AN,k}。

(4)第二重迭代开始,从子集合中取 Ai,k。

(5)如果 Ai,k与存在交集,则利用它们的交集更新,更新计数累加器 count = count + length (),更新和保存计数器值最大的交集 max_。

(6)i = i + 1。

(7)第二重迭代结束,j = j + 1。

(8)所有迭代结束后,得到一个交集集合。如果初始化时每个客座率对应的样本数相同,且计数器最终得到的值也为这个样本数,则表明在误差范围内数据无交集,计数器没有累加,最优值为全部数据的均值;否则,利用交集所覆盖的样本数除以对应区间的长度计算样本密度,样本密度最大的交集为最优值存在的集合。

利用训练集计算出每个分类对应的最优值,当利用测试集进行验证时,使预测分类与这些最优值相对应,这样不仅可以为决策者提供一个参考的分类 (离散化后为客座率取值范围),也为其提供了一个参考的客座率取值 (误差范围为 [-10%,10%])。分类结果中客座率最优值计算结果如表 3 所示。

表3 分类结果中客座率最优值计算结果Tab.3 Optimal occupancy rates among classi fi cation results

1.3 基于随机森林算法的预测

随机森林算法由 Breiman[12]于 2001 年提出。该算法主要是通过随机重采样技术-自助法(bootstrap) 进行采样和随机子空间的思想进行特征的选取,构建多个互相没有关联的决策树,通过投票得到最终分类结果。近年来,随机森林算法在很多领域发挥了重要作用[13],其优点主要表现在:①由于在每次迭代之前引入随机采样,使得算法不容易陷入过拟合,并且具有很好的抗噪能力,同时,由于很好地解决了过拟合问题,在算法执行之前和结束不用再进行前或后的剪枝处理;②由于采取了随机子空间的方法进行特征选取,使得在进入算法前不必再进行特征选择的预处理。随机森林算法流程如下。

(1)当训练集进入算法之前,利用 bootstrap 方法进行随机采样,对于大小为 N 的样本,随机地有放回地选取大小为 k (k << N) 的样本,随机选取多个这样的样本构建多个决策树。

(2)在全部的 M 个特征中,每一颗树的每一个节点随机抽取 m (m << M) 作为决策树的决策属性。

(3)利用决策树 C4.5[14]算法对每颗决策树进行分类,使决策树进行最大限度的增长,不做任何剪枝操作。利用决策树 C4.5 算法主要原因是,其利用信息增益率进行节点的分裂,防止了选择属性时偏向选择取值多的属性的不足。

(4)将生成的多颗分类树组成随机森林,用随机森林算法分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。分类器投票公式可表示为

式中:H (x) 为组合分类模型;hi(x) 为单个决策树模型;Y 为目标变量;I (·) 为示性函数,当预测某个分类器预测结果超过总预测结果的百分之 50%,则保留该结果,否则拒绝预测。

2 实验结果及分析

2.1 分类精度评估

利用 Kappa 指数检验分类的精度是否在可接受的范围内,Kappa 指数的计算公式可表示为

式中:Pii为对角线二者完全一致占样本数的比值;Pi+和 P+i分别为第 i 个检验数据点的合计数和列合计数占总样本数的比值。

利用实际客座率分类和预测的客座率分类频数建立一张二维表。不同列车类型的 Kappa 指数如表 4 所示。

表4 不同列车类型条件下的分类 Kappa 指数Tab.4 Kappa coef fi cients for different types of train

Landis 等[15]提出 Kappa 值在 0.21 至 0.40 之间被认为是可接受的;在 0.40 至 0.60 之间被认为是中等的;在 0.61 至 0.80 之间被认为是精度较优的;大于0.81 被认为是完美的分类。根据表 4,可以看出对于不同类型列车的分类精度均在中等或中等以上的一致性范围内。

2.2 目标变量离散化算法有效性验证

为了验证提出的基于谱聚类-CACC 的目标变量离散化模型是否有效,保持模型中的其他模块方法不变,只是将目标变量离散化的方法替换成对比实验中的等频,WPKID 和聚类算法这几个主流的非监督离散化方法。为了验证 CACC 能否改进谱聚类算法的离散化精度,保持数据中的分布信息,在对照的聚类离散化方法中选取谱聚类算法。目标变量离散化算法预测结果如表 5 所示。

表5 目标变量离散化算法预测结果Tab.5 Comparison of predicted results from discretization algorithm of target variables

从上述实验可以看出,谱聚类-CACC目标变量离散化方法相比于其他方法能够显著提高预测的分类精度;谱聚类离散化算法自身较等频和WPKID 算法有着更高的预测精度,经过 CACC 的优化,使模型具有更高的预测精度。

2.3 因素变量离散化有效性验证

将 CACC 算法与主流的监督离散化算法ChiMerge、基于信息熵的离散化算法、基于 Hellinger的算法等相比较,来验证所选用方法的有效性。因素变量离散化算法预测结果如表 6 所示。

从表 6 的实验结果可以看出,CACC 算法较其他有监督的离散化算法在分类精度上表现更优。

2.4 分类算法有效性验证

为了验证论选取的随机森林算法的是否合理,是否较其他分类算法能突出其优点,将随机森林算法的分类预测结果与支持向量机 SVM 和决策树C4.5 算法分类结果相比较。不同分类算法预测结果如表 7 所示。

从表 7 可以看出,相对于其他分类算法,随机森林算法在分类预测方面有着较高的精度。特别是相对于决策树 C4.5 算法,随机森林算法的特征随机选取过程和投票机制是一种改进和优化。

2.5 客座率预测精度

分类结束后,利用之前的基于误差区间交集和样本密度的算法对最优客座率进行选取,考虑不同类型的列车,在相对误差范围 [-10%,10%] 内的开行列车数占总开行列车趟数的占比作为正确率。为了验证提出算法的有效性,提出的选取方法与选取对象所计算的正确率相比较,客座率预测结果如表 8 所示。

从表 8 可以看出,提出的选取客座率的方法能够显著地提高客座率的预测精度。同时,对于不同的列车类型,在误差范围内的列车数占总开行列车数量的 2/3 以上,这也是符合业务需求的。

表7 不同分类算法预测结果Tab.7 Comparison of predicted results from different classi fi cation algorithms

表8 客座率预测结果对比Tab.8 Comparison of predicted passenger occupancy rates

3 结束语

旅客列车客座率分类及预测可以为清算部门下达新开行列车客座率目标提供依据,同时可以为制定旅客列车开行方案提供支撑。新开行旅客列车客座率分类及预测模型的研究,能够得到一张简明、易于理解的决策表,直观地为相关管理部门下达客运指标,比原有方法提高了工作效率和结果的准确性。随着我国高速铁路的快速发展,应进一步收集更多的旅客出行信息进行分析[16-17],以便为铁路旅客运输提供更为科学合理的决策依据,优化列车开行方案,提升旅客运输效率及效益。

[1] 王 卓,王艳辉,贾利民,等. 改进的 BP 神经网络在铁路客运量时间序列预测中的应用[J]. 中国铁道科学,2005,26(2):127-131.WANG Zhuo,WANG Yan-hui,JIA Li-min,et al. The Application of Improved BP Neural Network in the Prediction of Railway Passenger Volume Time Serial[J]. China Railway Science,2005,26(2):127-131.

[2] 徐广岩. 高速铁路动车组列车客座率预测及盈亏分析[D].北京:北京交通大学,2016.

[3] 侯丽敏,马国峰. 基于灰色线性回归组合模型铁路客运量预测[J]. 计算机仿真,2011,28(7):1-3.HOU Li-min,MA Guo-feng. Forecast of Railway Passenger Traffic based on a Grey Linear Regression Combined Model[J]. Computer Simulation,2011,28(7):1-3.

[4] 张钰莎,蒋盛益. 连续属性离散化算法研究综述[J]. 计算机应用与软件,2014,31(8):6-8.ZHANG Yu-sha,JIANG Sheng-yi. Survey on Continuous Feature Discretization Algorithm[J]. Computer Applications and Software,2014,31(8):6-8.

[5] YANG Y,WEBB G I. Weighted Proportional K-Interval Discretization for Naive-Bayes Classi fi ers[M]. Heidelberg:Springer,2003.

[6] GUPTA A,MEHROTRA K G,MOHAN C. A Clusteringbased Discretization for Supervised Learning[J]. Statistics &Probability Letters,2010,80(9):816-824.

[7] CHENGJUNG T C I L,WEI P Y. A Discretization Algorithm based on Class-Attribute Contingency Coefficient[J].Information Sciences,2008,178(3):714-731.

[8] SU C T,HSU J H. An Extended Chi2 Algorithm for Discretization of Real Value Attributes[J]. IEEE Transactions on Knowledge & Data Engineering,2005,17(3):437-441.

[9] LEE C H. A Hellinger-based Discretization Method for Numeric Attributes in Classi fi cation Learning[J]. Knowledgebased Systems,2007,20(4):419-425.

[10] 高建国,崔业勤. 基于信息熵理论的连续属性离散化方法[J]. 微电子学与计算机,2011,28(7):187-189.GAO Jian-guo,CUI Ye-qin. A New Discretization Method for Continuous Attributes based on Information Entropy[J].Micro Electronics & Computer,2011,28(7):187-189.

[11] LUXBURG U V. A Tutorial on Spectral Clustering[J].Statistics and Computing,2007,17(4):395-416.

[12] BERIMAN L. Random Forests[J]. Machine Learning,2001,45(1):5-32.

[13] 方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-36.FANG Kuang-nan,WU Jian-bin,ZHU Jian-ping,et al. Survey on Random Forest Methods[J]. Statistics &Information Forum,2011,26(3):32-36.

[14] QUINLAN J R. C4.5:Programs for Machine Learning[M].San Mateo:Morgan Kaufmann,1993.

[15] LANDIS J R,KOCH G G. The Measurement of Observer Agreement for Categorical Data[J]. Biometrics,1977,33(1):159-174.

[16] 张 航,赵 鹏,乔 珂,等. 高速铁路旅客出行时间选择 Logit 模型与分析[J]. 铁道运输与经济,2017, 39(1):55-60.ZHANG Hang,ZHAO Peng,QIAO Ke,et al. Analysis on Logit Model of High-speed Railway Passengers` Travel Time Choice[J]. Railway Transport and Economy ,2017,39(1):55-60.

[17] 潘玲巧. 基于集对分析的铁路大客户等级模糊综合评价[J].铁道货运,2017,35(5):36-40.PAN Ling-qiao. Fuzzy Comprehensive Evaluation of Railway Major Client Level based on SPA[J]. Railway Freight Transport,2017,35(5):36-40.

猜你喜欢
客座率样本数聚类
提升高铁列车开行效益的实践与思考
境外蔗区(缅甸佤邦勐波县)土壤理化状况分析与评价
勘 误 声 明
孟连蔗区土壤大量元素养分状况分析
基于K-means聚类的车-地无线通信场强研究
航空:上半年各航司运营数据解析
南航迎旺季 油价跌利好
航空:客座率同比改善
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现