基于RF-双向LSTM的集装箱吞吐量预测
2022-04-02孙晓聪付玉慧
孙晓聪 付玉慧
摘要:为提高集装箱吞吐量的预测精度,使其满足港口未来发展需求,提出基于随机森林(random forest, RF)与双向长短期记忆网络(long short-term memory network, LSTM)结合的集装箱吞吐量预测方法(简称RF-双向LSTM)。分别用RF-LSTM、RF-双向LSTM和BP神经网络预测2010—2019年青岛港40个季度的集装箱吞吐量,并对未来2020—2025年青岛港集装箱吞吐量进行预测。结果表明,RF-双向LSTM预测精度最高,其均方根差、平均绝对误差和平均绝对百分比误差分别为2.45、1.17和0.26%,与BP神经网络相比平均绝对百分比误差低了5.35个百分点。本文提出的集装箱吞吐量预测方法可为港口未来发展与规划布局提供决策指导。
关键词:
集装箱吞吐量; 双向长短期记忆网络(LSTM); 随机森林(RF); 组合预测
中图分类号: F552
文献标志码: A
Container throughput prediction based on RF-bidirectional LSTM
SUN Xiaocong, FU Yuhui
(Navigation College, Dalian Maritime University, Dalian 116026, Liaoning, China)
Abstract:
In order to improve the prediction accuracy of container throughput and make it meet the future development need of ports, a container throughput prediction method based on a combination of the random forest (RF) and the bidirectional long short-term memory network (LSTM) (RF-bidirectional LSTM, for short) is proposed. RF-LSTM, RF-bidirectional LSTM and the back propagation (BP) neural network are respectively applied to the prediction of the container throughput of Qingdao Port in the 40 quarters from 2010 to 2019, and the prediction of the container throughput of Qingdao Port from 2020 to 2025 in the future. The results show that, RF-bidirectional LSTM is of the highest prediction accuracy, its root mean square error, mean absolute error and mean absolute percentage error are 2.45, 1.17 and 0.26%, respectively; compared with BP neural network, the percentage error decreases by 5.35 percentage points. The container throughput prediction method proposed in this paper can provide decision-making guidance for the future development and planning layout of ports.
Key words:
container throughput; bidirectional long short-term memory network (LSTM); random forest (RF); combination prediction
0 引 言
集裝箱吞吐量是影响港口未来发展和航道优化布局的重要因素。从20世纪80年代起,许多国内外学者对集装箱吞吐量进行了大量研究与实践,提出了多种预测方法,如灰色马尔科夫预测法[1]、支持向量回归机法[2]、神经网络法[3]、TEI@I方法论[4]和组合模型法等[5-6]。曹杰等[7]运用遗传算法优化反向传播(back propagation, BP)神经网络,并与传统BP神经网络作比较,其拟合度和预测精度均较高。冯宏祥等[8]先后运用经验模式分解算法和季节性自回归移动平均模型,将月度集装箱吞吐量数据进行特征分量分解,证明了间接性预测模型的可行性。范莹莹等[9]先用主成分分析法对上海港港口吞吐量数据影响因素进行相关性分析,再将上海市生产总值这一影响因素作为外部输入引入带外源输入的非线性自回归神经网络,其拟合度和泛化能力均较好。集装箱吞吐量变化具有复杂性和动态性,仅分析集装箱吞吐量数据,难以反映集装箱吞吐量的内在变化规律。不仅如此,由于影响集装箱吞吐量的因素有很多,如果将这些因素全部作为考虑对象则会造成模型训练烦琐,容易出现错误的结果,这更增加了问题的复杂性。同时,由于各影响因素指标均是对同一事物的反映,不可避免会造成信息的重叠,所以需要分析这些影响因素的重要程度,提取最重要的因素。李怡莹[10]将港口吞吐量的影响因素引入宽度学习系统中,建立基于宽度学习系统的多因素影响下港口吞吐量预测模型,结果表明考虑影响因素的预测模型均比不考虑影响因素的自回归移动平均模型和宽度学习系统模型的预测精度高。文献[11-12]说明加入影响因素的预测模型的预测精度更高,用随机森林(random forest, RF)的方法筛选出的影响因素更具说服力,模型收敛速度更快。
因此,本文将RF算法与双向长短期记忆网络(long short-term memory network, LSTM)相结合,以青岛港2010—2019年40个季度的集装箱吞吐量数据为基础,建立基于RF-双向LSTM的集装箱吞吐量预测模型。首先采用RF算法对搜集到的集装箱吞吐量影响因素与集装箱吞吐量进行关联性分析,选出与集装箱吞吐量关联度较高的特征,从而降低模型的复杂程度、提高训练速度。多年来的研究已经证明神经网络在预测方面的适用性,本文选择目前较先进的双向LSTM进行预测,以期给相关人员合理规划港口未来布局提供参考。
1 基本原理及方法
1.1 RF特征选择原理
运用具有集成学习思维的RF算法,将多个决策树集成进行预测。在每棵决策树每个节点的建立过程中,需要对所有的影响因素进行比较,选择导致不纯度下降最大的影响因素和分裂值。对于分类问题通常采用基尼不纯度或者信息增益,对于回归问题一般采用方差度量不纯度。
在RF算法的基础上,利用RF特征选择中的平均不纯度减少(mean decrease impurity)的方法对集装箱吞吐量所有影响因素进行关联性分析。在利用RF算法生成决策树的過程中,可以计算出每个特征减少了多少树的不纯度,得到平均不纯度减少值并对影响因素的重要程度进行排序。如果这个因素对模型很重要,那么将这个因素用噪声代替之后,模型的表现肯定会下降,差值也就越大,因此哪个因素下降得多就证明哪个因素越重要,从而找到与集装箱吞吐量高度相关的因素。
2 RF-双向LSTM预测模型建立
2.1 模型构建流程
RF-双向LSTM预测模型构建流程见图3。
2.2 RF模型建立
本文以青岛港直接经济腹地山东省青岛市为依托,青岛港集装箱吞吐量为研究对象。综合考虑各方面影响因素,初步选取以下主要指标:青岛市GDP,涵盖了青岛市所有的经济领域,能够真实反映青岛市经济情况;外贸出口总额,反映青岛市对外经贸关系,是外向型经济发展的重要指标;货物吞吐量,反映青岛港在国内外物资交流中所起的作用,真实反映港口腹地运输业发展情况;山东省交通运输固定资产沿海建设投资,反映沿海运输业的发展趋势和集装箱腹地运输情况;社会消费品总额,是研究人民生活水平、社会消费品购买力的重要指标。
构造一个RF模型,首先确定森林中树的数量,采用试算法对模型各个参数进行调试,最终确定树的数量为50,特征子集中特征数量为5。构建决策树,将搜集到的所有特征数据导入模型,设置集装箱吞吐量为预测值。
2.3 特征选择
为增强预测模型的收敛速度,提高模型泛化能力,防止出现过拟合的情况,分析搜集到的5种集装箱吞吐量影响因素数据,从中选出与集装箱吞吐量关联度最大的影响因素。采用RF算法进行建模,对5种影响因素进行归一化处理,消除量纲影响。计算各影响因素的平均不纯度减少值,计算结果见表1。
选择的影响因素过多,会导致预测模型泛化能力弱;选择的影响因素过少,会遗漏有用信息,降低预测模型精度。根据表1,选择使平均不纯度减少最多的3个影响因素(货物吞吐量、外贸出口总额、
青岛市GDP)作为模型输入值进行预测。
3 实例验证
3.1 数据来源
为验证所提出模型的有效性,搜集整理2010—2019年青岛港季度集装箱吞吐量数据,以及基于RF模型得到的与集装箱吞吐量关联度最大的3个因素(货物吞吐量、外贸出口总额和青岛市GDP)数据,见表2。
3.2 数据分析与预处理
所有搜集到的数据均为真实数据,考虑到试验的真实性,不做异常值处理。对数据进行归一化处理,以消除由各个因素量纲不同所造成的误差,在模型训练完成后再进行反归一化处理。
3.3 集装箱吞吐量预测
数据样本选取2010—2019年青岛港共40个季度的集装箱吞吐量数据,以及与集装箱吞吐量关联度最高的3个影响因素数据。关于LSTM的构建,首先经过不断测试与调试找到最适合学习的神经网络模型结构,在不断调试中确定采用三层神经网络结构,其中前两层为双向LSTM层,第三层为全连接层。第一、第二、第三层的神经元数量分别为50、128、1。训练次数为4 000次,一次训练所抓取的数据样本数量为128,以前36个季度数据为训练集,以2019年的4个季度数据为测试集。将RF算法的输出结果与集装箱吞吐量一起输入双向LSTM进行预测。
针对所提出的组合预测方法进行预测结果的验证,逐次用BP神经网络、RF-LSTM和RF-双向LSTM预测2019年青岛港集装箱吞吐量,结果见表3。
图4和5分别为2种预测模型的集装箱吞吐量预测值与真实值对比。其中,横坐标刻度10-1表示2010年第一季度,10-2表示2010年第二季度,其他刻度的意义以此类推。
3.4 模型评价
利用均方根差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)和平均绝对百分比误差(mean absolute percentage error,MAPE)进行评价,表4为3种预测模型的误差对比。可以看出,精度最高、效果最好的为RF-双向LSTM,其RMSE、MAE和MAPE分别为2.45、1.17和0.26%。通过统计数据比较可知:这两种组合预测模型在青岛港集装箱吞吐量预测中,基于RF-双向LSTM的集装箱吞吐量预测模型表现最为优异。通过调试发现,基于RF-LSTM的集装箱吞吐量预测模型明显优于BP神经网络预测模型,但随着训练次数的增多其预测精度变化不大。
3.5 预 测
运用已建立模型对2020—2025年青岛港集装箱吞吐量进行预测,并与2020年青岛港集装箱吞吐量数据比较,结果见表5。
由表5可以看出,用所提出的组合预测模型得到的2020年前三个季度的集装箱吞吐量预测值与真实值基本相同,2020年第四季度的预测精度略有降低。总体上看,从2019年开始,前6个季度的预测精度较高,从第7个季度开始预测精度降低。未来5年预测数据仅供港口相关工作人员参考。
4 结 论
本文通过数学建模将随机森林(RF)分别与单向、双向长短期记忆网络(LSTM)进行组合,并对青岛港集装箱吞吐量进行了预测。两种组合预测模型相比,用加入RF算法考虑多种影响因素的双
向LSTM预测青岛港集装箱吞吐量具有更好的效果,并且预测精度和收敛速度都得到了较大提升,验证了将RF模型与LSTM结合预测集装箱吞吐量的合理性。
参考文献:
[1]汤天辰, 李林. 基于灰色马尔科夫模型的上海港集装箱吞吐量预测[J]. 物流科技, 2020, 43(3): 105-108, 114. DOI: 10.13714/j.cnki.1002-3100.2020.03.026.
[2]王炳丹. 基于SVM的集裝箱吞吐量预测研究[D]. 北京: 北京交通大学, 2011.
[3]陈锦文, 兰培真. 改进型BP神经网络的港口吞吐量预测[J]. 集美大学学报(自然科学版), 2019, 24(5): 352-357. DOI: 10.19715/j.jmuzr.2019.05.05.
[4]田歆, 王皓晴, 朱佳仪, 等. TEI@I预测的有效性: 来自持续五年公开预报珠三角港口运输需求项目的证据[J]. 管理评论, 2020, 32(7): 76-88. DOI: 10.14120/j.cnki.cn11-5057/f.2020.07.008.
[5]王振振, 苌道方, 朱宗良, 等. 基于ES-Markov模型的港口集装箱季度吞吐量分析与预测[J]. 中国航海, 2019, 42(4): 125-130.
[6]刘钰. 基于VMD-ARIMA-HGWO-SVR组合模型的港口集装箱吞吐量预测[D]. 兰州: 兰州大学, 2018.
[7]曹杰, 黄富程, 安天圣. 基于GA优化BP神经网络的港口集装箱吞吐量预测[J]. 天津航海, 2020(3): 42-45.
[8]冯宏祥, GRIFOLL M, AGUSTI M, 等. 基于数据分解的上海港集装箱吞吐量预测模型[J]. 中国航海, 2019, 42(2): 132-138.
[9]范莹莹, 余思勤. 基于NARX神经网络的港口集装箱吞吐量预测[J]. 上海海事大学学报, 2015, 36(4): 1-5. DOI: 10.13340/j.jsmu.2015.04.001.
[10]李怡莹. 基于BLS的多影响因素下港口吞吐量预测研究[D]. 大连: 大连海事大学, 2020.
[11]杨文峰, 王艳, 纪志成. 基于RF-GA-BP神经网络的N-乙酰氨基葡萄糖含量预测[J]. 系统仿真学报, 2020, 32(10): 2034-2040. DOI: 10.16182/j.issn1004731x.joss.20-fz0335.
[12]郭昱辰, 杨亮, 刘春红, 等. 基于RF-LSTM的鸡舍恶臭气体预测研究[J]. 中国环境科学, 2020, 40(7): 2850-2857. DOI: 10.19674/j.cnki.issn1000-6923.2020.0318.
[13]曾慧洁, 郭建胜. 双向LSTM神经网络的航空发动机故障预测[J]. 空军工程大学学报(自然科学版), 2019, 20(4): 26-32. DOI: 10.3969/j.issn.1009-3516.2019.04.004.
(编辑 贾裙平)
收稿日期: 2020-12-14
修回日期: 2021-05-18
作者简介:
孙晓聪(1995—),男,河北石家庄人,硕士研究生,研究方向为海上事故调查与分析,(E-mail)sunxiaocong1995@163.com;
付玉慧(1963—),男,辽宁大连人,教授,硕士,研究方向为海上事故调查与分析,(E-mail)fuyhui@aliyun.com