基于XGBoost的船舶能耗实时预测

2022-04-02 11:10胡智辉金永兴周田瑞胡勤友
上海海事大学学报 2022年1期
关键词:航速预处理能耗

胡智辉 金永兴 周田瑞 胡勤友

摘要:为更加准确地预测船舶能耗,提出一种基于新兴XGBoost算法的船舶能耗实时预测模型。通过传感器采集大量船舶能耗数据;结合领域知识,提出一种数据预处理方法;利用贝叶斯超参数优化及交叉验证方法优化模型性能。实验结果表明,数据预处理和超参数调优均能在一定程度上提高模型性能。与多元线性回归、人工神经网络、岭回归和随机森林模型相比,本文提出的模型具有更好的预测性能,且模型运行时间能达到秒级响应,满足船舶实时预测要求。高准确度、实时性强的能耗预测模型能为船舶未来采取合理的节能减排措施提供理论依据,对船舶运营公司提高竞争力和保护环境具有重要意义。

关键词:

XGBoost; 船舶能耗预测; 集成学习; 超参数调优

中图分类号:  U676.3

文献标志码:  A

Real-time prediction of ship energy consumption based on XGBoost

HU Zhihui, JIN Yongxing, ZHOU Tianrui, HU Qinyou

(Merchant Marine College, Shanghai Maritime University, Shanghai 201306, China)

Abstract:

In order to predict ship energy consumption more accurately, a real-time ship energy consumption prediction model based on the emerging XGBoost algorithm is proposed. A large amount of ship energy consumption data is collected through sensors; a data preprocessing method is proposed based on the domain knowledge; the Bayesian hyper-parameter optimization and cross-validation methods are used to optimize the model performance. Experimental results show that the data preprocessing and the hyper-parameter tuning can improve the model performance to some extent. Compared with the multiple linear regression, artificial neural network, ridge regression and random forest models, the proposed model in the paper is of better prediction performance, and the running time of the model can reach a second-level response, meeting the requirements of ship real-time prediction. The energy consumption prediction model with the high accuracy and strong real-time performance can provide a theoretical basis for ships to adopt reasonable energy-conservation and emission-reduction measures in the future, which is of great significance for ship operating companies to improve their competitiveness and protect the environment.

Key words:

XGBoost; ship energy consumption prediction; ensemble learning; hyper-parameter tuning

0 引 言

海上交通运输量约占全球贸易总量的90%[1]。随着国际贸易的不断发展,大量的船舶投入到海上运输中,必然要消耗大量的能源,同时排放大量的温室气体,给环境造成很大的影响。近年来,国际海事组织(International Maritime Organization,IMO)及各国均出台了一系列船舶能耗管理计划,期望提高船舶能效,从而达到船舶节能减排的效果。

高准确度、强鲁棒性的船舶能耗实时预测是提高船舶能效的前提和基础。实时、准确预测出不同船况、不同海况下的船舶能耗,可为挖掘出船舶能耗最少的最优航线和航速以及船舶操纵方案提供参考依据,从而为船公司和船员等相关人员制订节能减排计划提供决策支持。

船舶能耗预测建模方法以往主要以传统经验公式[2-4]、仿真实验[5-6]为主,前者所需船舶参数众多,需要一定程度的领域知识,后者仿真时间成本较高,难以满足船舶实时预测要求。随着IMO及各国采取船舶能耗数据采集措施,大量船舶午时报告(noon reports)数据及传感器(sensors)数据被采集,因此,基于能耗数据的船舶能耗预测模型逐渐成为研究热点。BIALYSTOCKI等[7]通过收集船舶午时报告数据,并根据当时船舶所处的风、流环境,对船舶航速进行更正,最后利用更正的船舶航速与船舶能耗数据进行拟合,得到船舶能耗与航速呈二次方关系,度量拟合优度的可决系数R2=0.755 7。SONER等[8]、WANG等[9]通過最小绝对收缩选择算子(least absolute shrinkage and selection operator,LASSO)或岭回归(ridge regression,RR)算法对船舶能耗数据进行特征筛选或压缩,并进行能耗预测建模,获得

较高预测准确度的模型。HU等[10]利用人工神经网络(artificial neural network,ANN)和高斯过程回归方法分别对

包含、不包含海上环境因素的能耗数据进行建模,并进行了性能对比,实验结果证明海上环境因素对船舶能耗建模具有一定的贡献度。牟小辉等[11]以长江干线某旅游船为研究对象,提出利用随机森林(random forest,RF)方法建立船舶能耗预测模型,实验结果显示RF模型优于ANN模型和支持向量机模型。YANG等[12]和CORADDU等[13]建立了船舶能耗灰箱模型,虽然该模型在预测准确度上稍逊于黑箱模型,但其可解释性更强,便于理解。GKEREKOS等[14]通过对比船舶能耗预测模型的性能,发现基于集成学习的船舶能耗预测模型预测准确度更高(达0.97)。

从上述文献可知:基于能耗数据的船舶能耗预测模型各不相同,其研究方法主要以神经网络为主,但神经网络在小数据集中容易产生过拟合现象,泛化能力差;LASSO和RR算法在处理维度大、样本小的数据上具有较大优势;集成学习预测模型同样被证明是一种较好的能耗预测模型,但其超参数的合理设置是一个难点;不同数据集适合的方法也各不相同[15]。因此,本文结合采集的船舶能耗数据特点,基于一种新兴算法XGBoost对船舶能耗进行实时预测建模,利用贝叶斯优化其超参数值,获得较好的预测性能,并且可满足船舶能耗实时预测要求。

1 船舶能耗及其特征数据的采集与处理

1.1 船舶能耗及其特征数据的采集

对某集装箱船能耗及其特征数据进行采集,时间跨度为2017年9月14日—2018年9月25日,数据量共24 386条,每条数据包括采集时间、每15 min的实时能耗、航速、吃水、纵倾、流速、流向、风速、风向、浪高和浪向等。将测得的船舶主机每15 min消耗的重油体积(用体积流量计采集)与重油密度相乘,可获得船舶每15 min的实时能耗;通过全球定位系统(global positioning system,GPS)可获得船舶航速;通过对测深仪测得的艏吃水、艉吃水分别求均值和差值(艏吃水-艉吃水)可获得吃水和纵倾;通过测风仪可获得风速和风向数据;通过测波仪可获得浪高和浪向数据。

船舶实时能耗为船舶主机每15 min消耗的能源。为便于后续研究,计算每日能耗来取代实时能耗,其计算公式为

Ei=4Fi×24=96Fi (i=1,2,…,n)

(1)

式中:Fi为第i个15 min的船舶能耗,n为采集的数据总量。船舶能耗及其特征数据样本见表1。

1.2 船舶能耗及其特征数据的预处理

数据预处理是基于数据建模的重要环节。数据预处理的主要对象是数值为空、明显错误和不合理的数据。

数值为空的数据:由于天气、设备等原因,数据丢失,造成某时间段船舶能耗或其某一特征值为空,导致该时间段数据不可用,直接刪除。

明显错误的数据:根据领域知识,风、流、浪向大小范围应该为0~360°,因此若风、流、浪向不在0~360°范围内,则可直接删除相应时间段的数据。通过上述两个步骤处理后,数据还剩9 371条。

不合理的数据:将航速限定在10~30 kn内,并根据航速与每日能耗的关系,删除不合理的数据。处理步骤[16]如下:(1)删除航速小于10 kn或者大于30 kn的数据。(2)计算任意两次采集的船舶每日能耗比值

k(k=Ei/Ej,i, j=1,2,…,n),作为判断能耗数据是否异常的依据。如果k<

min

{(vi/vj)2,(vi/vj)4}或者k>max{(vi/vj)2,(vi/vj)4}(vi和vj分别为第i和j个

15 min内的航速),则这2条数据异常得分皆加1。遍历所有数据,统计出每条数据的异常总得分。(3)按数据异常总得分从大到小排序,将前20%数据作为异常数据删除。将不合理的数据删除后,获得7 493条干净、可靠的数据。

由图1a可知,预处理前的能耗分布比较分散、凌乱,随航速变化的规律不明显。由图1b可知,预处理后的能耗随航速的变化表现出一定的规律,能耗分布更加集中。

2 船舶能耗预测模型的建立

2.1 船舶能耗实时预测模型框架

基于XGBoost的船舶能耗预测模型具体框架见图2。首先通过不同传感器采集数据,并进行数据预处理,建立高质量的数据库;其次将数据按4∶1的比例随机划分为训练集和测试集,并结合超参数调优和交叉验证方法对本文模型(XGBoost)和参考模型(ANN模型、RF模型、RR模型和多元线性回归(multiple linear regression,MLR)模型)进行训练;最后利用测试集对不同模型的性能进行评估,验证本文模型的有效性和实时性。

2.2 XGBoost数学原理

XGBoost算法具有精度高、正则化、支持并行运算、可对缺失值进行自动处理等优势,在各领域具有广泛的应用[17-18]。该算法在进行t次迭代后的目标值Ot为

2.3 超参数调优

对模型的超参数进行优化,能有效提升模型预测性能。由于超参数的随机组合是无穷的,所以超参数的组合优化只能获得更优解,没有最优解。超参数调优方法主要有网格搜索、随机网格搜索和贝叶斯优化。网格搜索对枚举的所有可能性进行全面搜索,能获得所有枚举组合中的最优超参数组合,但耗时

太长。随机网格搜索对超参数的可能组合进行一定的随机搜索,因此运行速度较快,但获得“最优”组合的概率较低。贝叶斯优化性能介于上述两种方法之间,运行速度较快,而且也能获得较优的超参数组合。在超参数调优过程中,为避免数据随机划分带来的偶然性,通常结合k折交叉验证方法训练模型,从而获得更加合理的超参数组合。

2.4 模型评价指标

为对比船舶能耗预测模型的性能,构建5个评价指标:可决系数R2、均方误差

eMS、均方根误差eRMS、平均绝对误差

eMA和模型运行时间t。各评价指标计算公式如下:

3 实验结果分析

所有模型的实验环境为64位Windows 10操作系统、i5-7200 CPU、12.0 GB内存,编程软件采用Python 3.5。

为验证本文模型的有效性和优势,与现有文献的研究方法(参考模型)进行船舶能耗预测性能对比,将经过预处理的数据以4∶1的比例

随机划分为训练集和测试集。

由于船舶能耗及其各特征值的取值范围不同,如航速为10~30 kn,风向为0~360°等,会对模型(XGBoost和RF除外)性能造成一定的影响,所以要对数据进行标准化处理:

3.1 数据预处理对模型性能的影响分析

为验证数据预处理对建模的影响,利用模型分别在数据集Set1(9 371条数据,已删除有空值及明显错误的数据)和数据集Set2(7 493条数据)中进行建模和性能对比,结果见表2。表2中数据皆为5个评价指标在不同训练集下的均值。从表2可知,5种模型皆在数据集Set2中表现出更好的预测性能,如XGBoost、RF、ANN、RR和MLR模型的评价指标R2分别提高了0.015 3、0.019 6、0.020 3、0.096 1和0.096 1,

eMS、eRMS和eMA皆有一定程度的减小,并且由于数据量的减少,运行时间也相应地减少。

3.2 超参数调优对模型性能的影响分析

为验证超参数调优对模型性能的影响,对所有模型进行超参数调优前后性能的对比。采用贝叶斯优化模型的超参数和5折交叉验证方法。超参数调优值为某一数据集的调优值,随着数据集的不同,其超参数调优值也会发生改变,见表3。某次的超参

数调优前后模型性能指标R2对比如图4所示。从图4可知,MLR模型和RR模型在超参数调优前后的R2未变,这是因为MLR

模型没有超参数,不需要进行超參数调优,而RR模型超参数默认值较优,故其超参数优化效果不明显。ANN、RF和XGBoost模型在进行超参数调优前,其性能指标R2皆已达到0.98以上,在超参数调优后R2分别提升了0.003 7、0.003 3和0.001 8。

3.3 不同模型性能对比分析

为验证本文模型的有效性和优势,将其与4种参考模型进行性能对比。同时,为防止数据集随机划分带来的偶然性,采用所有模型重复实验5次,并计算其性能指标的平均值作为最终值。5种模型的评价指标值见表4。从表4可以看出:XGBoost模型表现较优,其R2高达0.992 8;在5个指标中,XGBoost模型有3个指标是最优的,分别为R2、eMS和eRMS;RF同样作为一种集成学习方法,其性能指标评价仅次于XGBoost;ANN是深度学习的一种,其R2为0.986 7,稍逊于集成学习方法;MLR模型和RR模型表现较差,其R2只有0.926 8,且其eMS、eRMS、eMA也比其他3种模型的高,只在时间指标t上占有优势;由于数据采集时间间隔为15 min,而5种不同模型皆能达到秒级响应,因此皆满足实时预测要求。

不同模型预测值对比见图5。图5只展示出小部分(第1 340~1 440个样本)能耗预测值(测试集共1 499条数据),并将其中一部分(第1 357~1 360个样本)放大。从图5可以看出:MLR和RR模型预测效果最差(RR模型预测值与MLR模型的基本

相同),偏离真实值程度较大; ANN、RF和XGBoost模型预测效果最佳,皆与真实值接近程度较好,其中XGBoost模型的预测值与真实值最接近。图5反映的模型预测性能与表4的高度一致。

3.4 不同特征对船舶能耗的影响分析

船舶能耗受多种因素(特征)影响,且影响机理复杂,因此定量计算出不同特征对能耗的重要度有助于理解船舶能耗内在机理。利用XGBoost和RF两种模型对不同特征的重要度进行计算,其结果见图6。

从图6可知:航速在XGBoost和RF模型中均为重要度最高的特征,重要度分别为0.841 3和0.649 8,表明航速对船舶能耗影响最大,航速越大船舶能耗越大(根据文献[12,19],能耗与航速近似呈三次方关系,甚至六次方关系),这也是当今船舶主要通过降速达到节能减排效果的关键原因;其次为纵倾和吃水,这是因为不同的纵倾会导致船舶受到的阻力不同,并且船舶纵倾和吃水造成的阻力变化大小取决于船型,尤其是船首形状,阻力变化与纵倾呈非线性关系,与吃水大致呈三分之二次方关系[20];航速、纵倾和吃水三者重要度之和在两种模型中分别达到0.920 5和0.938 9,表明这3种特征在船舶能耗建模中起主导作用。

在环境因素特征中,浪(重要度为0.039 7)和风(重要度为0.023 5)是最重要的特征因素,即浪和风皆会导致船舶能耗的增加[21]。这是由于风速的增加会导致船舶航行阻力增加,风阻力与风速呈二次方关系,而浪阻力与浪高和船舶静水航速皆呈二次方关系。流的重要度仅为0.016 2,其原因是:建模研究对象是每日能耗,而不是单位距离能耗,流会影响单位距离能耗,但对每日能耗的影响很小。

4 结论与展望

基于XGBoost算法建立的船舶能耗实时预测模型,对传感器采集的实船能耗数据进行分析,并与当前参考文献中的模型进行对比,获得如下几点结论:(1)数据预处理能在一定程度上提高船舶能耗预测性能。XGBoost、RF、ANN、RR和MLR模型在预处理后的数据集中皆表现出更佳的性能,R2分别提高了0.015 3、0.019 6、0.020 3、0.096 1和0.096 1。(2)超参数调优能有效提升基于深度学习和集成学习的能耗预测模型性能。(3)航速、纵倾和吃水是最主要的能耗影响因素,其重要度之和在0.92以上,该结论可为后续模型特征筛选提供参考。(4)与参考模型相比,XGBoost模型表现出更优的预测性能。与RF、ANN、RR、MLR模型相比,其R2分别高出0.000 1、0.006 1、0.066 0、0.066 0,其eMS分别降低0.089 2、7.185 9、78.289 9、78.290 1,并且模型运行时间达到秒级响应,能满足船舶实时预测要求。提出的模型具有高预测精度和实时响应速度,

能为未来船舶能耗实时优化提供参考,进而助力船公司增效提质、提高竞争力以及减少船舶温室气体排放等。

参考文献:

[1]PALLOTTA G, VESPE M, BRYAN K. Vessel pattern knowledge discovery from AIS data: a framework for anomaly detection and route prediction[J]. Entropy, 2013, 15: 2218-2245. DOI: 10.3390/e150 62218.

[2]LI X H, SUN B Z, ZHAO Q B, et al. Model of speed optimization of oil tanker with irregular winds and waves for given route[J]. Ocean Engineering, 2018, 164: 628-639. DOI: 10.1016/j.oceaneng.2018.07.009.

[3]文元桥, 耿晓巧, 黄亮, 等. 风浪流影响下的船舶废气排放测度模型研究[J]. 安全与环境学报, 2017, 17(5): 1969-1974. DOI: 10.13637/j.issn.1009-6094.2017.05.067.

[4]王直欢, 王维勋, 施欣. 基于AIS数据的船舶排放估测模型与实船验证[J]. 上海海事大学学报, 2019, 40(4): 12-16. DOI: 10.13340/j.jsmu.2019.04.003.

[5]刘伊凡, 孙培廷, 张跃文, 等. 船舶能效营运指数预测的建模及仿真分析[J]. 哈尔滨工程大学学报, 2016, 37(8): 1015-1021. DOI: 10.11990/jheu.201505053.

[6]ABOUELFADL A H, ABDELRAOUF E E Y. The impact of optimizing trim on reducing fuel consumption[J]. Journal of Shipping and Ocean Engineering, 2016, 6(3): 179-184. DOI: 10.17265/2159-5879/2016.03.006.

[7]BIALYSTOCKI N, KONOVESSIS D. On the estimation of ship’s fuel consumption and speed curve: a statistical approach[J]. Journal of Ocean Engineering and Science, 2016, 1(2): 157-166. DOI: 10.1016/j.joes.2016.02.001.

[8]SONER O, AKYUZ E, CELIK M. Statistical modelling of ship operational performance monitoring problem[J]. Journal of Marine Science and Technology, 2019, 24: 543-552. DOI: 10.1007/s00 773-018-0574-y.

[9]WANG S Z, JI B X, ZHAO J S, et al. Predicting ship fuel consumption based on LASSO regression[J]. Transportation Research Part D, 2018, 65: 817-824. DOI:10.1016/j.trd.2017.09.014.

[10]HU Z H, JIN Y X, HU Q Y, et al. Prediction of fuel consumption for enroute ship based on machine learning[J]. IEEE Access, 2019, 7: 119497-119505. DOI: 10.1109/ACCESS.2019.2933630.

[11]牟小輝, 袁裕鹏, 严新平, 等. 基于随机森林算法的内河船舶能效预测模型[J]. 交通信息与安全, 2017, 35(4): 100-105. DOI: 10.3963/j.issn.1674-4861.2017.04.013.

[12]YANG L Q, CHEN G, RYTTER N G M, et al. A genetic algorithm-based grey-box model for ship fuel consumption prediction towards sustainable shipping[J]. Annals of Operations Research, 2019. DOI: 10.1007/s10 479-019-03183-5.

[13]CORADDU A, ONETO L, BALDI F, et al. Vessels fuel consumption forecast and trim optimisation: a data analytics perspective[J]. Ocean Engineering, 2017, 130(15): 351-370. DOI: 10.1016/j.oceaneng.2016.11.058.

[14]GKEREKOS C, LAZAKIS I, THEOTOKATOS G. Machine learning models for predicting ship main engine fuel oil consumption: a comparative study[J]. Ocean Engineering, 2019, 188: 1-14. DOI: 10.1016/j.oceaneng.2019.106282.

[15]OLSON R S, CAVA W L, MUSTAHSAN Z, et al. Data-driven advice for applying machine learning to bioinformatics problems[J]. Pacific Symposium on Biocomputing, 2018: 192-203. DOI: 10.1142/9789813235533_0018.

[16]MENG Q, DU Y Q, WANG Y D. Shipping log data based container ship fuel efficiency modeling[J]. Transportation Research Part B, 2016, 83: 207-229. DOI: 10.1016/j.trb.2015.11.007.

[17]CHEN T Q, GUESTRIN C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York City: Association for Computing Machinery, 2016: 785-794. DOI: 10.1145/2939672.2939785.

[18]史佳琪, 张建华. 基于多模型融合Stacking集成学习方式的负荷预测方法[J]. 中国电机工程学报, 2019, 39(14): 4032-4041. DOI: 10.13334/j.0258-8013.pcsee.181510.

[19]YAO Z S, NG S H, LEE L H. A study on bunker fuel management for the shipping liner services[J]. Computers & Operations Research, 2012, 39: 1160-1172. DOI: 10.1016/j.cor.2011.07.012.

[20]BOCCHETTI D, LEPORE A, PALUMBO B, et al. A statistical approach to ship fuel consumption monitoring[J]. Journal of Ship Research, 2015, 59(3): 162-171. DOI: 10.5957/JOSR.59.3.150012.

[21]王凯. 基于营运数据分析的内河船队能效优化方法研究[D]. 武汉: 武汉理工大学, 2018.

(编辑 贾裙平)

收稿日期: 2020-11-23

修回日期: 2021-05-12

基金项目: 上海市科学技术委员会重大项目(18DZ1206300)

作者简介:

胡智辉(1991—),男,江西上饶人,博士研究生,研究方向为船舶能效数据管理与分析,(E-mail)2276366212@qq.com;

金永兴(1958—),男,上海人,教授,博導,博士,研究方向为载运工具应用、船舶航行安全,(E-mail)yxjin@shmtu.edu.cn

猜你喜欢
航速预处理能耗
非水溶剂预处理木质纤维原料研究进展
不同预处理对铁皮石斛热风干燥特性及品质的影响
严寒区太阳能资源分区与集装箱房供暖期能耗
公共建筑年能耗强度影响因素交互作用
手术器械预处理在手术室的应用
污泥预处理-厌氧消化体系的能源经济性评价
国网浙江电力 多措并举抓好电力保供和能耗双控“头等大事”
大连港超大型船舶夜航可行性研究
水下拖曳航行器水动力和拖缆姿态仿真分析
水下飞起滑翔机