基于非参数回归的城轨实时进出站客流预测
2017-06-21谢俏李斌斌何建涛姚恩建
谢俏,李斌斌,何建涛,姚恩建
(1.广州地铁集团有限公司,广州510030;2.北京交通大学交通运输学院,北京100044)
基于非参数回归的
城轨实时进出站客流预测
谢俏1,李斌斌2,何建涛1,姚恩建2
(1.广州地铁集团有限公司,广州510030;2.北京交通大学交通运输学院,北京100044)
为准确预测城轨实时进出站客流,构建基于非参数回归的实时进出站客流预测模型。首先,对不同特征日分时进出站客流量进行对比分析,据此构建历史数据库;其次,通过计算历史分时数据的相关系数,并设置阈值对分时客流数据间的相关性进行判断,从而确定合适的非参数模型状态向量;再次,根据K近邻样本与预测目标的客流量差异性,设计基于权重加权的预测算法;最后利用广州市城轨客流数据对预测模型进行精度分析,对全网站点多天的预测结果显示:全天平均绝对百分比误差均在2%以下,分时平均绝对百分比误差均在14%以下,表明模型具有较高的预测精度和良好的适用性。
城市轨道交通;进出站客流;实时预测;K近邻;非参数回归
1 研究背景
随着城市轨道交通网络格局的逐步形成,网络客流规模持续攀升,地铁运营压力日益凸显。运营管理部门需要实时掌握未来短时间内客流量的变化趋势,以制定和实施合适的运营管理及客流组织计划[1]。因此,需要利用数据挖掘技术,深入剖析实时客流变化规律,滚动精准地实时预测网络客流分布状态和趋势,实现高效、精准的客流预测和预警,诱导乘客合理有序出行,节约乘客出行成本。
在实时客流预测方面,国内外已有诸多研究,常用的模型有时间序列模型[23]、卡尔曼滤波模型[45]、神经网络模型[69]、支持向量机模型[1011]等。时间序列模型是在过去变化规律的基础上来推断和预测其未来值,因此对于具有固定变化规律的数据可以得到较好的预测结果,而小粒度下的进出站客流量变化随机性较大,另外由于在预测时模型参数固定,使其难以达到实时客流非静态预测的要求。卡尔曼滤波模型则是由状态方程和观测方程组成,采用递推算法,但其在对非线性、波动性较大的客流做预测时,精度较差。对于神经网络模型,其根据历史数据训练神经元,得到输入与输出数据之间内在的复杂、非线性关系。通过训练好的模型输出预测值,具有一定的自适应性,但容易陷入局部最优和过拟合的困境,且预测精度受到训练样本量的影响较大。而支持向量机模型虽然克服了小样本问题,但对于变化性较强的实时进出站客流预测,其精度也达不到预测精度的要求。
相对于参数回归,非参数回归(nonparametric regression,NPR)是另一类预测方法,它并不对数据作任何严格的限定,而是依赖于已有数据来决定输入和输出的关系。新观测到的数据可以方便地加入到非参数回归模型中去,而不像在参数回归的环境下需要对参数做耗时的调整。它所具有的数据挖掘能力,不需要任何先验知识和大量的参数识别,只需借助足够的历史数据来描述这个系统。另外,非参数回归保持了原始数据的特性,因为它并没有对原始数据做平滑处理,因此在历史数据库样本量增大时,非参数回归预测的准确性也随之提高。
Davis G A[12]最早于1991年真正将非参数回归的方法应用到了交通流量预测中,得到了较好的预测结果,并得到大样本量将会提高预测精度的结论。宫晓燕[13]对传统的非参数回归进行了改进,运用变K搜索算法得到基于动态聚类和散列函数的历史数据组织方式。翁剑成[14]对基于北京市快速路上的检测器所采集的历史数据,经过数据筛选及处理后建立了交通状态演变系列的历史样本数据库,并基于K近邻的非参数回归构建了短时交通预测模型,并得到了较好的预测结果。张涛[15]利用K近邻方法对短时交通流进行了预测,考察了模型中关键因素对预测效果的影响,但对于K值并没有给出较为合理的取值,在实际场景应用中可操作性及可移植性较差。以上研究中,国内外的学者主要将非参数回归模型应用到交通流的预测中,对城轨进出站客流的预测研究较少,而城轨作为一个较为封闭的系统,利用AFC(auto fare collection)系统可以较为容易地采集得到分时进出站客流量,并且随着客流运营的时间推移,历史样本数据量不断增加,为非参数回归提供了很好的应用基础。
2 实时进出站客流特征分析
国内绝大部分城市轨道交通采用AFC,可以较为便利地获取大量的实时进出站客流数据,笔者利用广州地铁AFC系统所采集的进出站客流,充分挖掘进出站客流的规律。对于实时客流预测,其时间粒度一般控制在15 min以内,因此本文重点对15 min粒度的客流进行分析。
2.1 平常日客流变化规律差异性
挑选广州市城市轨道交通线网中的某站点为研究对象,随机挑选2015年的连续一周15 min粒度的分时进站客流数据进行分析,画出其变化折线图,如图1所示。
图1 广州市轨道交通某站点一周内15 min分时进站客流量变化Fig.1 15min entrance passenger flow of one station in Guangzhou metro
从图1中可以看出,该站点周一至周日的变化规律存在一定的差异,具体表现在:1)周一至周五的7:00—9:00存在较大的客流高峰,而在18:00—19:00时存在较小的客流高峰,周六、日则不存在;2)周一至周五的客流变化也不尽相同,如周一的早高峰峰值更大,周五的晚高峰持续时间较其他工作日长;3)周六、周日客流量较工作日有整体下降,而周六与周日相比存在较小的早晚高峰。
2.2 平常日客流变化规律相似性
为更好地把握平常日进出站客流变化特征,不仅需要对分时客流变化规律的差异性进行分析,同时也需要对其相似性进行分析。下面分析不同周之间的客流变化规律。
从2015年的3月、6月、9月和12月中随机挑选一周的分时客流数据,画出不同月份的周一、周三的客流变化折线图如图2、3所示。
图2 广州市轨道交通某站点不同月份的周一15 min分时进站客流量变化Fig.2 Entrance passenger flow of one station in Guangzhou metro on Mon of differentmonths
图3 广州市轨道交通某站点不同月份的周三15 min分时进站客流量变化Fig.3 Entrance passenger flow of one station in Guangzhoumetro on Wed of differentmonths
从图2、图3可以看出,不同月份的周对应日的分时客流变化规律相似性较高,在早晚高峰及平峰期间的客流变化基本一致,可以得到周内次序相同日间相似性较高的结论,这将为非参数回归模型中历史库的构建提供依据。
3 实时进出站客流预测模型
3.1 模型框架
本文重点考虑城轨分时进出站客流数据的特点,建立适用于城轨实时客流预测的模型。K近邻算法是基于实例学习的非参数预测法,其核心思想是取得一个尽量完备的历史数据库,提取数据特征,根据当前的数据特点搜索历史数据库中与预测值的状态向量最相似的K个样本来进行预测。
根据上一节对进出站客流变化规律特征的研究,发现周内次序相同的日间客流变化规律具有较好的相似性,而对于平常日其历史数据样本量也较大,因此对于平常日的预测,本文构建周一至周日7个历史数据库,以提高模型预测效率与精度。之后,根据预测目标与历史数据库中样本的状态向量计算距离,并依照距离进行排序,抽取出与预测目标距离最近的K个近邻样本,并利用K近邻样本进行计算,得到下一时段的分时进出站客流量。其中,K的取值会影响预测结果,本文选取预测日前多个相同场景日作为虚拟预测日,通过构造与预测时类似的历史数据库,对虚拟预测日进行预测,预测过程中逐渐增加K值(起始值为1),得到在不同K值下的预测结果,通过计算绝对误差,将误差最小时对应的K值作为预测时的最优K值。
3.2 状态向量选取
分时进(出)站客流量具有时间序列的特征,与预测时段进(出)站客流量最密切相关的是相邻时段的进(出)站客流量,因此,通常选取预测时段前m个时段的进(出)站客流量作为状态向量。本文通过计算进(出)站客流量组成的时间序列的自相关系数量化相邻时段进(出)站客流量间的相关性以确定m的取值,计算公式为
通常当相关系数rix,q≥0.5时,可认为i站点x日分时进(出)站客流序列中间隔q个时段的两个值相关性较强。为更好地把握客流变化规律,需尽可能多地包含与预测时段分时客流有较强相关性的客流时段,因此取值m=max(q),即m取令rix,q≥0.5的最大q值。
根据2014—2015年广州市轨道交通线网全部站点平常日(去除节假日、大型活动等特殊日期)15 min分时进站客流量数据,以每日每站点72个分时进站客流量数据为一个样本序列,根据公式(1)和(2)计算样本各阶自相关系数,并按周一至周日进行统计,结果如表1所示。
表中结果显示,周一至周日7个子样本库中当q= 1,2,3时,有90%以上样本数据满足rix,q≥0.5,而q=4时,绝大多数的样本均不能满足rix,q≥0.5,可以认为在分时进站客流量数据中,前3个时段的进站客流量数据与预测时段的进站客流量数据相关性比较强。因此,确定平常日场景下预测进站客流量时,状态向量为预测时段前3个时段的分时进站客流量。3.3预测算法
表1 广州市轨道交通分时进站客流量自相关系数统计Tab.1 Self correlation coefficient of entrance passenger flow in Guangzhou metro%
传统K近邻非参数回归中的预测算法较多是直接对K个近邻的客流数据进行平均后得到预测客流数值,但对于匹配得到的K个近邻来说,其与预测目标间的距离不尽相同,因此有必要基于近邻样本与预测目标距离越小权重值越大的原则,对K个近邻设置权重,进行加权平均得到预测值。同时随着时间的推移,城市轨道交通车站的进出站客流量存在一定的自然增长趋势,因而通过匹配得到K个近邻的客流数据与预测日的客流数据会存在不同程度的差异。为了减小差异性,提高预测准确度,设置趋势系数,用已发生时段近邻数据的客流增长情况反映预测时段客流的增长情况。将预测日记为T,预测时段记为t,根据状态向量匹配的K个近邻对应的日期记为z1z2…zK,具体计算方法如下:
3.4 模型验证
应用所构建的K近邻非参数回归模型,对广州地铁各个站点的分时进出站客流量进行预测。采用2014年9月1日至2015年12月19日期间平常日的分时进出站客流量作为历史数据,结合当天已发生时段的分时客流数据对2015年12月14—20日(周一至周日)实时进(出)站量进行预测,通过计算预测结果与实际值,得出全网全天平均绝对百分比误差ED与15 min粒度分时平均绝对百分比误差Et,对模型进行精度检验,计算公式如下所示,统计结果如表2所示。
表2 广州市轨道交通全网站点预测误差统计Tab.2 Error of all stations’entrance and exit passenger flow in Guangzhou metro%
从误差统计来看,预测日线网全天平均绝对百分比误差ED与分时平均绝对百分比误差Et分别在2%、14%以下,预测精度较高。为更加详细地分析预测效果,挑选12月14日的线网所有站点的分时进站客流数据,做出预测值与真实值的对比图(见图4),并计算每个站点分时进站客流量预测值的平均绝对百分比误差(MAPE),对其误差分布情况进行统计,见图5。
图4 全网站点分时进站客流预测值与真实值对比Fig.4 Comparisons between actual and estimated entrance passenger flow of all stations
图5 全网站点预测误差分布Fig.5 Error distribution of all stations’entrance passenger flow
从图4可以看出,大部分数据点分布在45°线附近,说明预测结果与真实值非常靠近,未出现“漂移”现象,说明预测结果较合理。同时由图5得到,52.2%的站点MAPE在10%以下,79.4%的站点MAPE在15%以下,89.7%的站点MAPE在20%以下,而大于50%的站点只有1个,通过查找原始数据,发现其为低涌站,进一步分析发现,该站点客流量非常小,15 min粒度分时进站客流量大部分为10人次以下,由于基础量过小而造成站点MAPE过大。由此说明,本文构造的非参数回归模型在实时进出站客流预测应用中具有较好的预测精度和良好的适应性。
4 结论
本文以轨道交通进出站客流为研究对象,通过研究分析实时进出站客流特征,对平常日客流进行合理归类。然后,对模型中的状态向量选取及预测算法进行研究,构建适用于实时进出站客流预测的K近邻非参数回归模型。最后,基于所构建的非参数回归模型,预测了2015年12月14—20日线网各站点的分时进出站客流量,并通过与实际数据进行对比分析,检验了预测模型的精度。结果显示,该模型预测的分时进出站客流量的全天平均绝对百分比误差ED与分时平均绝对百分比误差Et在2%、14%以下,其中,89.7%的站点误差在20%以内,只有极少的站点在20%以上。由此表明,该模型具有较高的精度和良好的适用性,可以为城市轨道交通运营组织管理工作提供重要的决策依据。
[1]吕利民,李吴,温辛妍,等.城市轨道交通短期客流预测方法[J].都市快轨交通,2015,28(2):21- 25.
LYU Lim in,LIWu,WEN Xinyan,et al.Methods for forecasting short- term urban mass transit passenger flow[J].Urban rapid rail transit,2015,28(2):21 25.
[2]VAN DER VOORT M,DOUGHERTY M,WATSON S.Combining kohonen mapsw ith arima time seriesmodels to forecast traffic flow[J].Transportation research part C:E-merging technologies,1996,4(5):307- 318.
[3]W ILLIAMS B M,HOEL L A.Modeling and forecasting vehicular traffic flow as a seasonal arima process:theoretical basis and empirical results[J].Journal of transportation engineering,2003,129(6):664- 672.
[4]OKUTANI I,STEPHANEDESY J.Dynam ic prediction of traffic volume through Kalman filtering theory[J].Transportation research part B:Methodological,1984,18(1): 1- 11.
[5]张春辉,宋瑞,孙杨.基于卡尔曼滤波的公交站点短时客流预测[J].交通运输系统工程与信息,2011,11(4): 154- 159.
ZHANG Chunhui,SONG Rui,SUN Yang.Kalman filter based short- term passenger flow forecasting on bus stop[J].Journal of transportation systems engineering and information technology,2011,11(4):154- 159.
[6]XIAO JM,WANG X H.Study on traffic flow prediction using RBF neural network[C]//International Conference on Machine Learning and Cybernetics,IEEE,2004:2672 2675.
[7]鲁明旭,叶银忠,马向华.神经网络在地铁客流预测中的应用[J].机械研究与应用,2012,25(3):86 89.
LU M ingxu,YE Yinzhong,MA Xianghua.Application of neural network in the subway passenger flow prediction[J].Mechanical research&application,2012,25(3):86 89.
[8]董升伟.基于改进BP神经网络的轨道交通短时客流预测方法研究[D].北京:北京交通大学,2013.
DONG Shengwei.The research of short-time passenger flow forecasting based on improved BP neural network in urban rail transit[D].Beijing:Beijing Jiaotong University,2013.
[9]邹巍,陆百川,邓捷,等.基于遗传算法与小波神经网络的客流预测研究[J].武汉理工大学学报(交通科学与工程版),2014,38(5):1148 1151.
ZOUWei,LU Baichuan,DENG Jie,etal.Passenger flow prediction based on genetic algorithms and wavelet neural networks[J].Journal of Wuhan University of Technology (transportation science&engineering),2014,38(5): 1148- 1151.
[10]杨军,侯忠生.基于小波分析的最小二乘支持向量机轨道交通客流预测方法[J].中国铁道科学,2013,34(3): 122- 127.
YANG Jun,HOU Zhongsheng.A wavelet analysis based LS- SVM rail transit passenger flow prediction method[J].China railway science,2013,34(3):122- 127.
[11]赵丽琴.混合核支持向量机在地铁客流预测中的应用研究[D].兰州:兰州交通大学,2015.
ZHAO Liqin.Application and research on prediction of subway passenger flow using m ixed kernel support vector machine[D].Lanzhou:Lanzhou Jiaotong University,2015.
[12]DAVISG A,NIHAN N L.Nonparametric Regression and Short- Term Freeway Traffic Forecasting[J].Journal of transportation engineering,1991,117(2):178 188.
[13]宫晓燕,汤淑明.基于非参数回归的短时交通流量预测与事件检测综合算法[J].中国公路学报,2003,16(1): 83- 87.
GONG Xiaoyan,TANG Shum ing.Integrated traffic flow forecasting and traffic incidentdetection algorithm based on non-parametric regression[J].China journal of highway and transport,2003,16(1):83- 87.
[14]翁剑成,荣建,任福田,等.基于非参数回归的快速路行程速度短期预测算法[J].公路交通科技,2007,24 (3):93- 97.
WENG Jiancheng,RONG Jian,REN Futian,et al.Nonparametric Regression Model Based Short-term Prediction for Expressway Travel Speed[J].Journal of highway and transportation research and development,2007,24(3): 93- 97.
[15]张涛,陈先,谢美萍,等.基于K近邻非参数回归的短时交通流预测方法[J].系统工程理论与实践,2010,30 (2):376- 384.
ZHANG Tao,CHEN Xian,XIE Meiping,et al.K NN based nonparametric regression method for short-term traffic flow forecasting[J].Systems engineering-theory&practice,2010,30(2):376- 384.
(编辑:郝京红)
Real- time Forecasting of Entrance and Exit Passenger Flows for Urban Rail Transit Station:A Non- parametric Regression Approach
XIE Qiao1,LIBinbin2,HE Jiantao1,YAO Enjian2
(1.Guangzhou Metro Group Co.,Ltd.,Guagnzhou 510030; 2.School of Traffic and Transportation,Beijing Jiaotong University,Beijing 100044)
The short term fluctuations of passenger flows should be responded quickly w ith the help of re al- time forecasts to guarantee safe transportation.A non parametric regression model is established to accura tely forecast the real- time entrance and exit passenger flows in urban rail transit stations.Firstly,the time- sharing data for entrance and exit passenger flows of different days are compared and analyzed to lay a foundation for the construction of historical database.Secondly,the appropriate state vector for the non-parametricmodel is defined by calculating the self- correlation coefficient of historicaltime share passenger flow data and setting the threshold value of correlation to judge the data dependency.Thirdly,the forecasting algorithm is designed according to the entrance and exitpassenger flows’difference between K- nearestneighbor samplesand prediction objectives.Finally,the data of entrance and exit passenger flows collected from Guangzhou metro system is used for the case study,and the result shows that themean absolute per centage errors for the day and time- sharing passenger flowsare successfully limited to 2%and 14%respectively,which demonstrates that the forecasting accuracy of the proposedmodel is satisfactory.
urban rail transit;entrance and exit passenger flows;real- time forecast;K- nearest neighbor;non-parametric regression
U231
A
1672- 6073(2017)02- 0032- 05
10.3969/j.issn.1672 6073.2017.02.007
2016- 09 29
2016 11 27
谢俏,女,本科,线网管控中心副总经理,铁道工程(站场)工程师,轨道交通运输管理方向,xieq iao@gzm tr.com
李斌斌,男,博士研究生,交通运输规划与管理方向,16114203@b jtu.edu.cn
中央高校基本科研业务费专项资金资助(2016YJS066)