基于集成预测模型的集装箱吞吐量预测研究
2019-07-15郭雪
郭雪
摘要:本文综合运用ARIMA预测模型和LSSVR预测模型,提出了一种集成预测模型,并将该模型应用于上海港的集装箱吞吐量预测研究中。此外,采用不同的参数估计方法估计ARIMA模型的参数,得到了两种ARIMA预测模型。研究表明,集成预测模型可以提高预测模型的准确性,不同的估计方法也会影响模型的预测表现。
关键词:单整自回归移动平均模型(ARIMA);最小二乘支持向量回归(LSSVR);LS估计;ARCH估计;集成预测
中图分类号:U169.6 文献标识码:A
0引言
20世纪70年代,中国海上集装箱运输正式启动。自20世纪80年代以来,中国集装箱运输的增长速度始终以远远超过世界平均增幅的水平发展,随着经济全球化的深入和国际贸易的频繁交换,集装箱运输在减少运输时间和贸易成本方面发挥了重要作用。近年来,我国港口的集装箱吞吐量快速增长,如何科学地预测吞吐量的数据成为港口运营商管理的重要内容。准确预测港口的集装箱吞吐量数据,不仅可以为港口自身提供决策支持,而且对国家的可持续发展至关重要。因此,加强对我国港口集装箱吞吐量预测的研究对我国港口的发展具有重要意义。
至今为止,国内外学者已经对港口集装箱吞吐量预测做了大量研究并取得了丰硕的研究成果。但是,对于如何科学地捕获集装箱吞吐量的历年变化规律和趋势,以及如何获得比较精确的预测结果仍然没能找到一个普遍适用于各种时间序列的方法。目前,用于集装箱吞吐量预测的方法和模型主要涉及到两大类:定性预测和定量预测。定性研究主要依赖于人的主观意识,预测结果具有很大的不确定性。学术研究一般更倾向于定量预测,其中定量预测可以分为单一模型预测和组合模型预测。在单一预测模型中,单整自回归移动模型(ARIMA)、最小二乘支持向量机(ISSVR)、灰色模型等得到了大量的运用,如Mark和Yang、刘雷丽等、薛俊强、田雪等、朱念等、Peng和Chu,结果发现这些预测模型的预测精度具有不确定性。近年来,组合预测模型得到了越来越多的关注,其可以结合各单项预测模型的优势,往往会在预测中展现出较大的优势,如:鲁博等、Xie、施泽军和李凯、赵尚威和周建红、许利枝汪寿阳、梁小珍旧等均采用集成预测模型进行了研究,而且得到了更高预测精度的效果。
根据以往研究表明,LSSVR预测模型具有良好的数据特征提取效果,模型的预测精度比较高,本文将LSSVR模型作为集成预测模型法的单项模型。在ARIMA建模时,难点是关于参数P、D、Q的确定,这三个参数直接关系到所建模型预测性能的好坏。建立ARIMA模型时,大量的研究表明LS估计具有很好的作用,但是,本文提出用自回归广义异方差估计(ARCH)法建立的ARIMA模型对提高最终的预测结果起到了关键性作用。
本文首先详细介绍了用到的模型和方法以及论文的研究思路、论文框架;然后进行实例研究,将提出来的模型用于上海港集装箱吞吐量的预测,并与ARIMA、LSSVR等单一模型以及运用LS估计和ARCH估计等不同预测模型的预测结果进行了对比;最后阐述了本文的研究结论。
第三,运用LSSVR预测模型得到2018年1月至2018年11月的集装箱吞吐量预测值;
第四,运用SA集成方法将ARIMA模型和LSSVR模型的预测值进行集成,得到最终的集装箱吞吐量预测值。
2实证研究
2.1数据描述与评价准则
选择上海港集装箱吞吐量为样本数据,以2001年2月至2018年11月为样本区间,共计214个数据,其趋势图如图2所示(样本来源于宏观经济数据库万德数据库)。为了验证本模型的有效性。将样本数据分成训练样本(2001年2月至2017年12月,共计203个数据)和测试样本(2018年1月至2018年11月,共计11个数据)。从图中可以发现,该时间序列具有某种上升趋势,此外,还有很大的波动性,即该时间序列不平稳。
2.2预测结果及分析
2.2.1实验设计
数据具有平稳性是运用ARIMA模型的前提,故在运用ARIMA模型进行集装箱吞吐量预测时,首先检验数据数列是否具有此特征。若原始时间序列不具有平稳性,可以采用差分法将不平稳序列转化为平稳序列,通常情况下,进行一次或者两次差分就可以将不平稳数据转化成平稳序列。数据平稳性检验可以通过单位根检验来实现,常用的单位根检验是Augmented Dickey-Fuller(ADF)检验。根据ADF检验原理,可以得到上海港集装箱吞吐量的单位根检验结果,如表1所示:
由表1可知,该时间序列的T统计量值大于临界值,显然原始时间序列不具有稳定性。故对原数据进行一次差分,将其转化成平稳序列。同理得到其T統计量的值为-3.414611,小于临界值-3.140847。所以,在90%的条件下可以认为一节差分序列为平稳数列,即符合运用ARIMA模型的条件。
在运用ARIMA模型时,最关键的是确定p、d、g三个参数的值,根据自相关偏自相关图以及差分次数,运用LS估计和ARCH估计分别建立了ARIMA(3,1,4)和ARIMA(2,1,4)两种不同的模型。
运用LSSVR模型时,选择嵌入维度为10,即用前十个数据预测第十一个数据,以此类推。在预测时采用滚动预测,即将每次的预测结果加入训练集,进而得到下一个预测值。
2.2.2模型预测结果与评价
根据2.2.1中对各种预测模型的设计,得到了最终的预测结果。为了验证本文提出的预测模型的有效性,本文也给出了单独运用ARIMA模型和LSSVR模型的预测结果。
图3、图4分别展示了用不同的估计方法估计ARIMA模型时得到的单项模型和集成预测模型烦人预测结果,除了2月和9月外,这些模型都能取得良好的效果,为了说明论文所建模型的优越性,表2、表3展示了各种预测模型的MAE和MAPE。
由表2、表3可知,若以MAE作为评价预测模型的指标,(1)不管以哪种方式估计ARIMA模型的系数,SA集成预测的预测效果都要高于单一预测模型的预测效果,表明了集成预测模型的优势;(2)最小二成支持向量回归LSSVR的预测效果要优于单整自回归移动模型ARIMA的预测效果;(3)采用ARCH估计ARIMA模型的参数可以提高模型的预测精度,而且可以使得其对应的集成预测模型的预测效果得到改善。而且以MAPE作为评价预测模型的指标,虽然LSSVR模型的预测误差要小于LS估计ARIMA模型时对应的集成预测模型的误差,但是其误差要大于ARCH估计ARIMA估计时对应的集成预测模型的预测误差,这就说明选择合适的参数估计方法可以提高预测模型的表现。
3结论
本文以上海港2001年2月至2018年11月的集装箱吞吐量数据为研究对象,综合利用ARIMA和LSSVR模型,从LS估计和ARCH估计的角度,分别建立了一套适用于该港口集装箱吞吐量预测的集成预测模型。研究发现,LSSVR和ARIMA预测模型都具有良好的预测精度,但是集成预测方法保留了这两种预测模型的优势,得到的整体误差比单一模型的预测误差更小。而为ARIMA模型选择合适的参数估计方法可以显著提高模型的预测表现。
考虑到港口市场竞争激烈,提高集装箱吞吐量的预测精度可以为港口运营商提供决策支持,使得港口运营商做出更利于自身发展的决定。基于此,本论文从提高预测模型的预测精度出发,为建立预测港口集装箱吞吐量的模型提供了新的思路。