基于随机森林构建集装箱堆存时间预测分类器的港口翻箱研究

2022-06-04 06:43劳钰钞刘秀峰杨锦礼
装备制造技术 2022年2期
关键词:堆场外贸集装箱

劳钰钞,刘秀峰,杨锦礼,蒋 志

(1.广州中医药大学医学信息工程学院,广东 广州 510006;2.广州奥赛软件有限公司,广东 广州 510006)

0 引言

全球经济一体化发展的背景下,港口行业迅速发展,全球港口集装箱吞吐量大幅增加,2021 年上半年全球主要港口吞吐量报告(apecpsn.org)显示,2021 年上半年全球主要港口吞吐量十大集装箱港口中有七大港口为中国港口,其完成集装箱吞吐量超过9500万TEU,占比约为71.60%,较2016 年上半年约增加了14.51%。自2020 年新冠肺炎疫情在全球爆发以来,中国港口在世界集装箱港口行业中的作用和重要性不仅没有下降,反而上升,详见表1。

表1 2021 年上半年全球主要港口吞吐量

港口行业发展势力迅猛,集装箱船不断朝着大型化发展,国内外部分老旧港口堆场资源相对有限,堆场趋于饱和致港口作业成本升高的现象在老旧港口成为常态,部分港区开始出现严重的拥堵问题,严重制约港口作业和集疏运效率[1,2]。

在多数自动化程度不高的港口里,集装箱的堆放位置由吊机人员和堆场策划人员随机安排,无序度高。当前港口堆场翻箱的主要形式有3 种:(1)出口装船造成翻箱;(2)进口外贸客户提箱造成翻箱;(3)由于商品检验、转堆等对集装箱进行移箱造成翻箱,致使港口耗费多余的电力、人力。随着国际航运行业的快速发展,集装箱的吞吐量在逐年上升,但是港口资源却始终有限,港口能容纳的集装箱数量逐步饱和[2,3],堆存高度在港口面积有限的情况下,堆存高度不断增加,翻箱率亦随之升高[3]。如何降低港口中集装箱翻箱一直以来都是国内外学者关注的问题。

根据王志明《基于遗传算法的集装箱后方堆场箱位分配策略》一文指出,若能准确预测卸船时集装箱的堆存时间,在集装箱进港口时将集装箱合理策划位置,堆存时间较长的箱下层放置,堆存时间短的上层放置,则可大幅度减少集装箱出场时的翻箱,促进港口经济发展[4]。

目前已有关于集装箱翻箱的研究主要集中在翻箱路径的仿真和NP 问题模型的构建,旨在构建和优化集装箱的翻箱路径规则[4,5],侧重于对集装箱的规则库的研究和应用,但目前研究多处于翻箱时各贝位都为静态的模型,而本研究的方向为对集装箱堆存时间的预测,旨在通过预测集装箱堆存时间,对集装箱进场时进行合理的堆位策划,以减少集装箱翻箱造成的无效成本,无需考虑各吊机的协同性合作以及各贝位在后续翻箱中位置的变化,在前者的基础上更侧重于应用。

当前此类研究在国内外鲜有人涉足,完成后会为国内外众多港口行业应用于生产提供更多方法,提高港口的效率及减少港口的作业成本,从而促进港口行业发展。

1 对象与方法

1.1 研究对象

本研究纳入广州某港口2021 年1 月1 日-2022年10 月31 日业务数据共计689956 例曾在堆场停留的集装箱的出场记录,根据港口实际要求将堆存时间分类设为0~5 天,6~10 天,10 天以上3 个类别进行以预测。纳入标准:(1)剔除在业务数据库中重复录入的集装箱进场、商检、翻箱的业务数据;(2)剔除直装直卸,不经过堆场堆放的集装箱的出场记录;(3)符合业务规则及较为完整的集装箱出场数据。

1.2 研究港口试点翻箱情况描述性统计

当前试点港口中吞吐量逐年上升,堆场容纳量日趋饱和,翻箱情况严峻,造成港口运营成本不断升高。经统计得知,2021 年1 月到10 月经过堆场的离场集装箱数约为69 w,平均翻箱次数(平均翻箱次数= 离场时总翻箱次数/ 出场目标箱数)为49/100,图1 为反映2021 年1-10 月的翻箱情况折线图,即每100 个集装箱离场,平均需要造成49 次翻倒,根据试点港口的成本估算每次翻箱成本为50 元,则2021 年1 月到10 月,该试点港口仅在翻箱上就产生作业成本,而用于翻箱的成本对于港口运营来说是无价值的支出,若能减低翻箱,则可以把节约的成本用于公司运营[6]。

图1 2021 年1 月到10 月翻箱情况折线图

1.3 随机森林模型特征选取

通过前期数据分析,港口业务数据共149 个字段,从中选取持箱人、空重箱、箱型、收货人、发货人、货物、载货港、卸货港等与内容较为完整,与翻箱关联性较大的维度作为预测模型的特征。

1.4 数据处理

选取出的持箱人、空重箱、箱型、收货人、发货人、货物、载货港、卸货港等数据为高基类数据,将其进行序列编码,并将进场时间转换成星期时间加入特征。

1.5 随机森林原理

随机森林分类是由很多决策树分类模型{h(XΘk),k= 1,…,}组成的组合分类模型,且参数集{Θk}是独立同分布的随机箱量,在给定自变量x下,每个决策树分类模型都由一票投票权来选择最优的分类结果。随机森林的基本思想为:首先利用bootstrap 抽样从原始训练集抽取k个样本,且每个样本的样本容量斗鱼原始训练集一样;其次,对k个样本分别建立k个决策树模型,得到k中分类结果;最后根据k种分类结果对每个记录进行投票表决,决定其最终分类[7-12],如图2。

图2 随机森林原理图

2 测试流程及结果分析

考虑不同时间段的船舶对集装箱业务数据的影响,因而不采取数据集中随机抽取的方法,而是根据时间顺序划分数据集,并进行测试。在该数据集中,本研究采用多种数据集分类方式进行预测,以验证该模型的泛化性和稳定性。

2.1 按时间进行数据集划分及结果分析

采用2021 年1 月1 日到2021 年8 月31 日的数据共546814 例作为训练集,2021 年9 月1 日到2021年10 月31 日数据共143142 例作为测试集,准确率为69.2%;采用2021 年1 月1 日到2021 年9 月30日的数据共612419 例作为训练集,2021 年10 月1日到2021 年10 月31 日数据共77537 例作为测试集,其预测准确率为72.02%,划分情况如图3。

图3 数据集划分图示

两种数据集划分对比得出,训练集数据量较大的情况下,测试结果较好,测试结果详见表2;后续将采用第二种划分数据集方法,对测试数据进一步进行测试和开展试点的实船测试。

表2 2021 年业务数据按时间划分数据集

2.2 按业务类型作为测试集测试及结果分析

采用2021 年1 月1 日到2021 年9 月30 日的数据共612419 例作为训练集,将2021 年10 月1 日到2021 年10 月31 日数据按业务类型进行测试,通过进口外贸、进口内贸、出口外贸、出口内贸四个基本业务类型分别进行预测,查看具体业务类型的预测效果,以进行对比验证,准确分类的范围在42% ~87%之间,其中进口外贸的预测准确率最低,仅为42.01%;外贸出口的准确率最高,为87.31%,详见表3。

表3 2021 年数据按业务类型测试预测效果

结合测试结果和实际业务情景下分析得知,不同业务类型的预测准确率因为业务场景的差异确有明显差异,因为港口中进口外贸的集装箱堆存时间受到海关查验,海关放行,国外环境形势等不可控因素影响较大,且货主信息在业务数据中数据准确性低,货主提货时间随意性较大,导致进口外贸在主要业务类型中的预测效果最低,其预测准确性与实际业务情况相吻合。

通过统计得知,进口外贸在堆场中的翻箱最多,其2021 年1 月到10 月的平均翻箱次数为130/100,造成的无效作业成本最高,是降低港口翻箱的重点分析方向。

2.3 按外贸进口船作为测试集测试及结果分析

进一步对11 月的进口外贸船进行抽样测试,以验证外贸进口业务类型的实际预测效果,分析外贸进口业务类型准确率较低的影响因素,对测试结果进一步分析和评价,外贸进口船测试情况详见表4。

表4 2021 年10 月外贸进口船数据测试情况

共测试了10 月卸船的集装箱数量较多的6 个外贸进口船,测试结果得其准确分类范围落在40% ~56%之间,根据实际业务数据分析得知,在6 个测试船之中,分类准确率最低的为SPX 船,仅为40.95%,其数据特征中,货主的信息最为不完善,经统计,在货主信息中有21.6%的货主字段信息空缺, 且货物字段数据中空缺数据较多,有3%的占比为空缺数据;而在分类准确率最高的SBA 船,其准确率为56.68%,其货主信息中仅有12.3%的货主字段信息空缺,且货物字段数据空缺较少,仅有1 个空缺货物字段内容;同验证其余外贸进口船的数据情况,如上述一致,可知,外贸进口的数据内容完整性不高,加上商检等业务影响,导致其准确性在同月份的其他类型对比中稍显劣势。

3 实船验证流程及结果分析

模型进行测试和优化的同时,试点中同步进行实际进口外贸的船舶测试,验证构建集装箱堆存时间预测分类器方案对于港口降低翻箱的实际效果。

实船测试流程如下:(1)在外贸进口船舶靠泊前,试点港口提交即将靠泊的外贸进口船舶集装箱数据于港口业务操作系统;(2)操作系统触发集装箱堆存时间预测分类器,预测提交集装箱的堆存时间,港口根据预测结果进行堆场策划,堆存时间短的集装箱压堆存时间长的集装箱,对预测结果为同一时间段的集装箱分类存放;(3)集装箱在堆场堆存一定时间段后被提箱出场,统计集装箱实际堆存时间和翻箱情况,验证预测分类器准确率和分析预测分类器对实际翻箱的效果[13]。

实船测试共进行5 次,分别是船名ZYB 航次2139W 的140 个集装箱,船名SBA 航次1041S 的364个集装箱,船名ZYB 航次2142W 的135 个集装箱,船名SPX 航次2121S 的356 个集装箱以及船名SBA航次1043S 的366 个集装箱,本次测试实船的业务类型都为外贸进口,其船过往航次的平均翻箱次数和测试后的实际平均翻箱次数如表5 所示,其中预测准确率在42%~82%之间,其中过往平均翻箱次数和实际测试船的平均翻箱次数相比较,测试过的实船,其平均翻箱次数都呈下降趋势,且下降范围在10/100~28/100 次。

表5 2021 年测试实船翻箱情况

由实船测试结果可知,基于随机森林算法构建集装箱堆存时间分类器的方案对港口行业实现降低翻箱成本目标具有实际应用价值,从侧面也说明了机器学习算法在港口行业的有效性和应用性。

4 分析与讨论

随着集装箱港口行业的发展和自动化程度的提高,国内老旧港口堆场难以本研究通过数据处理,构建机器学习预测分类器、模型测试以及实船验证等过程,可得出利用机器学习等方法预测集装箱堆存时间,将预测得出的堆存时间用于港口堆场策划辅助得方案,对港口堆场降低翻箱有明确的应用价值;且本研究通过对业务数据的分析和再利用,可实现港口运营成本的控制和作业效率的提升。

由于港口行业中业务类型繁杂,仅是提箱作业就是一个复杂的系统工程,要解决当前港口中翻箱的严峻情况更需要不断加深当前研究,并不断尝试新方向,以改善老旧港口的严峻的翻箱现状。已有研究的不足之处表现在:

(1)特征数据质量不高,模型预测的准确率较低,无法有效减少翻箱。

(2)目前对堆存时间的预测采用了分类的方式,在分类的时间段内,还是会产生较多翻箱。

(3)当前仅对进口外贸业务进行实船测试,没有扩展至整个港口堆场进行实船测试。

(4)降低翻箱的方法当前仅从集装箱卸船前的堆场策划中出发,没有从二次翻箱的角度对翻箱路径优化方面进行考虑来降低堆场翻箱[14-18]。

本研究虽然从实船测试中取得一定效果,但还需要进一步研究,以实现最佳的降低翻箱方案。从当前研究的不足之处开始,进一步的研究方向可从以下几个方面开始:

(1)尝试从数据角度思考,从试点中采取措施规范数据录入,或找到最合适的数据处理方法,提高数据质量及预测的准确性。

(2)尝试从模型角度思考,进行模型优化,提高模型准确性。

(3)扩大堆场的测试范围,进一步验证该研究对降低堆场翻箱情况的实际效果。

(4)从其他作业出发,找到降低翻箱的最优方案[19-22]。

(5)考虑构建影响集装箱堆存时间的相关特征,并加以分析和建模。

猜你喜欢
堆场外贸集装箱
我国外贸进出口连续14个月同比正增长
2021年上半年我国机电外贸运行情况
共享堆场协议下海铁联运集装箱堆场分配优化
大地调色板
虚实之间——集装箱衍生出的空间折叠
70年外贸大事记
一种新型集装箱起重吊具设计
数字看重庆2015年前2月外贸
一种新型自卸式污泥集装箱罐
集装箱码头堆场布置形式比较