APP下载

大数据集下休息日效应的客流量预测模型

2018-04-09武汉大学武汉430072

长江工程职业技术学院学报 2018年1期
关键词:客流量季节性差分

 (武汉大学,武汉 430072)

城市公交线路客流量预测是智慧出行的重要组成部分。根据历史公交刷卡数据,了解各时段客流量的波动特征,准确预测未来各时段的客流情况,可提前为人们选择合适的交通线路、避开线路客流高峰以及合理调配公交资源提供信息支持,为广大乘客提供良好的出行环境。

在交通流量方面,国内外学者利用时间序列建模进行预测已有部分研究。蔡昌俊[1]等基于乘积ARIMA模型实现了对城市轨道进出站客流量的精确预测,王莹[2]等基于季节性时间序列SARIMA模型研究了北京地铁进站的客流量变化规律,成诚[3]等基于多元季节性时间序列SARIMAX原理建立了考虑节假日效应的城市交通枢纽客流量预测模型,Williams[4]等基于SARIMA模型完成了对美国佛罗里达地区快速路车流量的预测。

上述研究成果对本文研究具有重要的指导意义,但仍存在缺陷。首先,在建模之前,往往需要对原始数据进行清洗处理,从而得到样本数据,上述文章缺乏对样本数据来源的阐述。面对大数据集,传统的工具如Matlab、SPSS等已经不能适应直接对原始数据进行操作,这样容易出现内存溢出(OOM),导致工具崩溃。其次,节假日、周末是影响人们出行的重要因素,上述文章缺乏对休息日效应的剖析。公交客流量在节假日期间有所下降,以旅游为主要形式的出行明显增多,城市交通客流量结构发生变化;导致人们每天各时段的出行行为也会发生变化。本文通过大数据工具(Hadoop分布式集群)对广东省部分公交线路岭南通用户2014年度8-12月期间的800多万条刷卡数据进行清洗得到样本数据,进而通过对日时段客流量时间序列的分析建立多元季节性时间序列模型,并对该模型进行预测评估。研究的整体流程图如图1。

图1 整体流程图

1 多元季节性时间序列模型SARIMAX

SARIMAX多元季节性时间序列模型来源于季节性时间序列模型(SARIMA),后者主要用于分析具有周期性变化的时间序列,对ARIMA模型进行基于周期的季节性差分。SARIMAX模型属于短时预测模型,在考虑到内生变量稳定性的同时也兼顾了外生变量的冲击作用,可有效定量化评估外部因素对数据波动造成的影响,在外部环境条件变化时,该模型仍然具有较高的预测精度。多元季节性时间序列SARIMAX(p,d,q)x(P,D,Q)s的常规形式如下:

2 客流量预测模型建模及模型评估

2.1 建立模型

本文以广东省公交线路10号线岭南通用户2014年8-12月期间的800多万条刷卡数据为基础,利用大数据工具对数据进行清洗得到样本数据,以每日7-8时段为研究时段区间,建立日时段客流量的SARIMAX模型。Hadoop分布式集群充分利用集群环境下每台机器的存储和计算能力,完成对海量原始数据的处理,其算法模型主要分为map和reduce两个阶段,先切片,后合并,清洗前后数据对比如图2、图3,其中清洗前数据每行数据代表一次刷卡记录,清洗后数据前三项分别代表时段、日期和时段客流量,后面几项对应各变量值。绘制公交每日7-8时段客流量数据时间序列图如图4所示。建模过程中,将前19周每日7-8时段数据用于模型标定,由于模型具有短时相关性,将元旦前5天数据用于检验模型的预测效果,进而预测2016年元旦及元旦后两天的客流量变化。

图2 清洗前数据

图3 清洗后数据

图4 每日7⁃8时段客流量数据时间序列图

根据图4所示,第8、9周(国庆节前后)客流量波动较为明显,第4周末(中秋节前后)客流量变化相对显著,而其它各周客流量变化趋于稳定。另外,各周周一到周五的客流量大致维持在一个较高的水平,周六、周日下降幅度较大,周六的客流量水平总是高于周日。总体来看,公交每日7-8时段的客流量未呈现明显的递增或递减趋势,而以周为周期的季节性波动较为鲜明,同时单周内每日客流量变化幅度较大,休息日每日客流量亦存在密切的关系。

图5 原始序列自相关函数

图5为原始序列自相关函数(ACF),其中大部分自相关估计落在95%置信区间外,滞后一周处的样本自相关函数均较高,由此反映出该序列具有一定的周期性,非平稳序列。为建立平稳的时间序列模型,对原始序列分别进行1次和2次周差分处理,如图6所示,原始序列经2次周差分后的ACF与1次周差分后的ACF具有相同的趋势,未出现周期性,由此判定1次周差分使序列平稳,取d=0、D=1。同时,1次周差分ACF拖尾,PACF截尾,可以采用 模型,即P=1、Q=0。

考虑到休息日(节假日或周末)、调休工作日客流量的波动特性,本文中的外界变量设计如表1:

表1 外界变量表

2.2 模型参数估计与检验

在以上分析的基础上,运用条件最小二乘法,对标定数据进行拟合,对模型中的各变量加以估计。在5%的参数显著性水平下,经过一系列估计,最终确认模型 SARIMAX(1,0,5)(1,1,0)7,其参数估计结果如表2,模型统计结果如表3:

图6 1、2次周差分自相关函数及1次周差分偏自相关函数(从左至右)

表2 SARIMAX模型参数估计结果

表3 模型统计

参数估计结果表明,节假日、周末期间交通客流量逐渐减少,存在较为明显的波动。根据显著性指标所示,将除去休息日、原本是工作日的节假日之外的其它变量均予以剔除。对模型进行诊断,发现残差的白噪声检验结果为0.095(大于0.05),统计量为22.503;如图7所示,残差序列的ACF和PACF基本处于可接受误差的范围内,因此接受原假设,即残差为随机性序列,根据显著性检验原理,判定预测模型合理。

图7 残差ACF和残差PACF图

利用建立的SARIMA模型对2015年元旦前后5天每日7-8时客流量进行预测,预测结果及95%的置信水平下区间估计上下限见表4。根据已知数据对外推预测结果进行检验,结果见表5,其中第21周周四为元旦,即2015年1月1日。元旦前5天客流量预测误差不超过7%,模型的外推预测能力较好。

表4 SARIMA模型预测结果

表5 外推预测结果

3 结 论

利用大数据工具从原始数据中提取样本数据,根据广东省公交线路10号线每日7-8时段客流量变动规律建立了合理的多元季节性时间序列SARIMAX模型,该模型能较好地拟合客流量的变动趋势,具有较高的预测精度,研究得到以下结论:日时段客流量基本呈现较为规律的以周为周期的波动性,即存在季节性效应,根据波动规律可以有效调配公交资源,为乘客出行提供信息支持;公交客流量在节假日前后波动较为明显,周末亦存在显著变化。利用SARIMAX模型对日时段客流量进行短时预测,能得到较为准确的预测值。本模型的建立,由于获取的样本量较少,也未考虑天气等因素的影响,存在一定的预测误差。实际工作中可加大样本数据,引入相关因素变量,修正模型,提高模型的预测精度。

参考文献:

[1]蔡昌俊,姚恩建,王梅英,等.基于乘积ARIMA模型的城市轨道交通进出站客流量预测[J]. 北京交通大学学报(自然科学版), 2014, 38(2): 135-140.

[2]王莹,韩宝明,张琦,等.基于SARIMA模型的北京地铁进站客流量预测[J].交通运输系统工程与信息, 2015, 15(6):205-211.

[3]成诚,杜豫川,刘新.考虑节假日效应的交通枢纽客流量预测模型[J].交通运输系统工程与信息, 2015, 15(5):202-207.

[4]Williams B M, Hoel L A.Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process: Theoretical basis and empirical results[J].Journal of Transportation Engineering, 2003, 129(6):664-672.

[5]顾杨,韩印,方雪丽.基于ARMA模型的公交枢纽站客流量预测方法研究[J].交通信息与计算机, 2011, 29(2):5-9.

[6]郝军章,崔玉杰,韩江雪.基于SARIMA模型在我国铁路客运量中的预测[J].数学的实践与认识, 2015, 45(18):95-104.

猜你喜欢

客流量季节性差分
粕类季节性规律:豆粕篇
数列与差分
季节性需求放缓 钾肥价格下行
蔬菜价格呈季节性回落
基于嵌入式系统的商场客流量统计算法
远离季节性过敏
基于AFC数据的城轨站间客流量分布预测
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
差分放大器在生理学中的应用