APP下载

基于客流大数据分析和支持向量回归的地铁乘客出行时间预测研究

2020-10-13陈东洋陈德旺陈开河

现代城市轨道交通 2020年9期
关键词:客流神经元预测

陈东洋 陈德旺 陈开河

摘 要:随着地铁线网规模的扩大,地铁客流大数据不断产生并积累,其中包含大量信息。地铁乘客出行时间是反映地铁系统运行状况和乘客满意度的重要指标。传统的地铁乘客出行时间预测没有充分利用客流大数据,因此有进一步提升空间。文章基于地铁客流大数据,整理了大量乘客出行属性和实际出行时间的数据集,并采用多种回归模型建立地铁乘客出行时间预测模型。结果表明:使用径向基核函数的支持向量回归模型预测效果最好,可较好应用于乘客出行时间预测,为乘客出行规划及运营公司调度提供参考。

关键词:地铁;客流;大数据;支持向量回归;乘客出行时间

中图分类号:U231+.92

1 研究背景

地铁在城市公共交通中发挥着越来越不可替代的作用,不仅方便了人们的生活,也缓解了城市日益严重的交通拥堵现象,是一种高效环保的可持续城市公共交通方式[1]。地铁乘客出行时间的预测具有重要意义[2],不仅能帮助乘客更好地规划行程,而且能够反映地铁的运营状况,为地铁运行调度提供数据支撑,提高地铁的运营效率。目前对于乘客出行时间的预测研究大都集中在公交、汽车或多种交通工具相结合的方向。

王群[3]结合卡尔曼滤波方法以及粒子群算法优化的支持向量机模型,建立了道路的旅行时间预测模型。You等[4]结合地理信息系统(GIS)技术建立一种混合行程时间预测模型,用于预测拥挤道路网络中的路段行程时间。林永杰等[5]提出一种基于稀疏出租车全球定位系统(GPS)数据的大范围城市路网出行时间估计方法,利用车辆的时空位置数据估算路段速度,进而得到路段旅行时间。沙云飞等[6]提出利用GPS数据对路段旅行时间和路段平均速度进行估计的算法,以描述路网的运行状态。Zhou等[7]建立地铁步行时间预测模型,推导乘客的等待时间和出行时间,为地铁时刻表管理提供量化依据。Duan等[8]认为出行时间是旅客最为关心的问题之一,并使用长短期记忆人工神经网络(LSTM)模型对出行时间进行预测。张威威等[9]选择不同类型的LSTM神经网络架构对道路旅行时间进行预测。Hinsbergen等[10]将贝叶斯推理理论与神经网络算法相结合,对出行时间进行预测。王芳杰等[11]通过分析车辆、道路以及天气等特征,建立基于LightGBM算法的公交车站点间行程时间预测模型。陈旭梅等[12]基于GPS数据,结合卡尔曼滤波与支持向量机模型,对快速公交系统(BRT)行程时间进行预测。

本文借助大数据分析技术,基于历史客流大数据,并采用多种机器学习模型,挖掘地铁乘客出行特征与出行时间之间的关系,实现对乘客出行时间的预测,为乘客出行规划提供参考,为地铁运营调度优化提供支撑。

2 数据简介

2.1 数据来源

本文采用福州地铁1号线的实际运营数据。福州地铁1号线于2017年1月6日开通运营,线路总长24.89km,共设21个站点,全天运营时间为6 : 30—23 : 00,全程用时约45 min。选取2017年的刷卡数据作为实验的数据集,为避免节假日的影响,从工作日以及周末数据集中随机抽取了54万条刷卡数据。

2.2 数据处理

原始数据中每条记录包含乘客ID、卡类别、线路ID、进出站口ID、进出站设备ID、进出站时间、日期、票价等属性。根据研究需求,先将数据进行预处理,删除多余属性,保留所需属性。此外,乘客的部分出行属性需要对原始属性进行处理后才能得到。通过分析,最终选取日期、进站点、出站点、进站时间、理论运行时间、乘坐距离、发车间隔、实际出行时间用于乘客出行时间预测。

在预处理过程中,对日期以及车站等属性采取编号的量化方式,将日期替换为1,2,…,7以表示该条记录属于星期几(如“1”表示该条记录属于“星期一”);将1 号线的21个站点分别按1,2,3,…,19,20,21编号表示,如表1所示。

同时为便于计算,将乘客的实际出行时间以及发车间隔等时间单位统一为秒,处理之后的部分数据如表2所示。

2.3 大数据平台

地铁客流大数据具有大量、高维、低价值密度等特点,采用常规的方法手段难以高效准确地进行客流数据的处理挖掘和提取数据中潜在的应用价值。因此本文借助于大数据平台进行客流大数据的分析挖掘。

Spark是一个基于内存计算的大数据处理框架,可以将计算的中间结果保存在内存之中,这种方式避免了频繁的文件读取,加快了系统运行,因此适用于需要递归、迭代计算的数据挖掘算法中。

本文以spark大数据平台为基础,进行客流大数据的清洗、处理等,并以此为基础进行地铁乘客出行时间预测模型研究,提高模型的性能、效率。

3 回归模型

回归分析是数据挖掘的一种重要技术,其研究的是数据中自变量(输入)与因变量(输出)之间的關系,是一种预测性的建模技术。回归分析技术通常用于数据的预测分析等方面。本文以客流大数据为基础,选取多元线性回归、支持向量回归等几种经典的回归分析算法,建立地铁乘客出行时间预测模型。

3.1 多元线性回归模型

3.2 BP神经网络模型

反向传播(Back Propagation,BP)神经网络是目前使用最广泛的神经网络模型之一,由Rumelhart等[14-15]于1986年正式提出。模型网络分为输入层、隐藏层、输出层3部分,通过输入的正向传播以及误差的反向传播来综合调整模型各个层的连接权重与阈值,并最终建立合适的模型。

图1为BP神经网络结构示意图,该网络的输入层神经元、隐藏层神经元、输出层神经元个数分别为d、q、l。其中输入神经元 i 与隐藏神经元h 之间的连接权表示为 vih,隐藏神经元 h 与输出神经元 j 之间的连接权表示为whj。隐藏神经元 h 的输入为 ,输出神经元j

的输入为 (其中 bh为隐藏神经元 h 的输出)。

BP神经网络模型在学习中需要学习的参数主要是各层之间的连接权值,以及隐藏层与输出层的神经元阈值,算法的参数是在不断的迭代学习中进行迭代更新的。

3.3 支持向量机回归模型

支持向量机(Support Vector Machine,SVM)是一种经典的监督学习模型[16]。通过建立训练集与类别标签两者之间存在的关系模型,从而预测新数据对应的类别。而处理回归模型问题时可以采用支持向量回归(Support Vector Regression,SVR)模型[17]。

SVR算法能够较好的解决局部最优解问题,而且在样本容量小时不会产生过拟合现象,相比其他方法有优势。在实际应用中,核函数的选取也是影响SVR算法性能的重要因素,线性核、多项式核以及径向基核是SVR算法常用的3种核函数,其中径向基核函数在各种类型的数据中均可以适用,因此应用最为广泛。

3.4 决策树回归模型

决策树是常用的一种分类以及回归模型,可根據需要构建相应的分类树或回归树来解决问题。回归树就是将特征空间划分成为多个单元,每个单元对应一个特定的输出。算法根据某一标准来确定每一步的划分点以及选取划分点最优的阈值,并以此决定样本在每个步骤所选取的路径。首先在训练集的输入中,采用递归的方法将所有区域分为2个相互独立的子区域,再确定每个子区域相应的输出。回归树的构建步骤[18]如下。

3.5 算法性能指标

为描述算法结果的准确性,本文使用4个评价指标来综合评价实验结果,分别为:均方根误差(Root Mean Square Error,RMSE)、平均相对误差(Mean Absolute Percentage Error,MAPE)、平均绝对误差(Mean Absolute Error,MAE)以及决定系数R2。对于包含n个样本的数据集D ={(,y1),(,y2),…,(,yn)},其中为输入值 对应的预测值,yi为输入值 对应的真实值,则RMSE、MAPE、MAE以及R2的计算公式如下:

RMSE能够很好地衡量预测值和真实值之间的偏差,而MAPE则能够很好地反映实验中预测结果的准确度,MAE反映了预测结果的绝对误差大小,对于这3个指标,值越小代表预测效果越好。R2则反映了输入属性对输出属性的可解释程度以及该模型的拟合程度的优良,R2的取值区间为[0,1],R2的值越大说明模型对输入输出属性之间关系的拟合越好。

4 实验结果

为使实验结果更具有普遍性,本文将数据集划分为4个部分,分别为数据集A、B、C、D,各数据集的数据量分别为4万、10万、15万、25万条。此外,对每个数据集随机选取75%数据作为模型的训练数据集,剩余的25%数据作为模型的测试数据集。

4.1 模型参数确定

由于部分模型需要根据实际情况确定模型关键参数,本文选取数据量适中的数据集C(15万条)来进行前期的模型参数选取工作。

BP神经网络输入层的神经元个数为数据集的输入属性的维数,输出层的神经元个数为数据集的输出属性的维数。因此在本文中,最终确定网络的输入神经元个数为7个,输出神经元个数为1个。同时本文根据经验公式(15)来进行隐藏神经元个数的确定。

式(15)中,n,l分别为输入神经元个数、输出神经元个数;α为随机选取的1到10之间的某个常数;m为隐藏神经元个数。本文最终确定隐藏神经元个数为10个。

模型中损失值随训练次数变化情况如图2所示,训练6次及之后的损失值变化如图3所示。

损失值在模型训练40次之后趋于稳定,因此BP模型的训练次数确定为40次。

决策树模型中的关键参数为树深,本文使用MAPE与R2作为评价标准确定树深。模型训练30次,每个树深的MAPE与R2取值取30次训练的平均值。图4为MAPE平均值与R2平均值随树深增加的变化图。

模型的MAPE以及R2都在树深等于8时取最优值,此时MAPE = 13.01%,R2 = 0.8943,因此决策树模型的树深选取8。

4.2 实验结果对比

为使实验结果更具有一般性,本文将 4 种模型分别在A、B、C、D 4个数据集上进行30次实验,每个模型的指标取相应数据集上30次结果的平均值。其中SVR模型选取线性核、多项式核、径向基核3种核函数进行实验。实验结果对比如表3~表6所示。表中RMSE_AVG、MAPE_AVG、MAE_AVG、R2_AVG分别表示各模型在相应数据集上训练30次的指标平均值,RMSE_MIN、MAPE_MIN、MAE_MIN、R2_MAX分别表示各模型在相应数据集上训练30次中的最优值。

从表3~表6可见,在4个数据集的预测中,4个指标的平均值以及最优值表现效果最好的都为基于径向基核函数的SVR模型,该模型的稳定性以及预测精度波动均优于其他模型。其在4个数据集上的MAPE平均值分别为12.92%、12.90%、12.82%、12.88%,相比其他模型的MAPE平均值降低了0.05%~0.36%,而MAPE的最优值分别为12.64%、12.74%、12.70%、12.70%,相比其他模型的MAPE最优值降低了0.09%~0.36%。

5 结论

本文主要基于客流大数据进行地铁乘客出行时间预测模型研究,首先在大数据平台上进行原始客流数据的处理,提取所需属性,构建实验所需数据集。并在此基础上选取多元线性回归、支持向量回归、BP神经网络以及决策树共4种模型进行实验。

对比实验结果中各个指标,发现基于径向基核函数的SVR模型预测精度最高,模型的稳定性最好,波动最小。其MAPE平均值相比其他模型降低了0.05%~0.36%,MAE平均值为133~135s,这对于乘客来说是完全可以承受的。说明使用径向基核函数的SVR模型能够较好的预测地铁乘客的出行时间。

当然,本文考虑的一些因素有很多不足,在数据处理时对异常情况可能考虑不全面,对最终结果产生影响。在属性选取时也没有考虑天气、客流等影响因素。在回归模型的选取上也只选取了几种模型进行比较,而且模型的参数也没有进一步优化,还有很多有待改进的地方,误差还有进一步缩小的空间。

参考文献

[1]Yu Xue, Xue Mei, Youran Zhi, et al. Sub-health state identification method of subway door based on time series data mining[J]. Journal of Computer Applications, 2018(3):905-910.

[2]Meilan Jiang, Takayuki Morikawa. Theoretical analysis on the variation of value of travel times avings[J]. Transportation Research, Part A (Policy and Practice),2004,38(8):566-571.

[3]王群. 基于藍牙技术的城市道路短时旅行时间预测方法研究[D]. 上海:上海交通大学,2015.

[4]Jinsoo You, Tschangho John Kim. Development and evaluation of a hybrid travel time forecasting model[J]. Transportation Research Part C (Emerging Technologies), 2000(8):231-256.

[5]林永杰,邹难,朱琳,等. 基于稀疏出租车GPS数据的大范围城市路网旅行时间估计方法,中国,201510203390.7[P]. 2020-07-15. http://d.wanfangdata.com.cn/patent/CN201510203390.7.

[6]沙云飞,曹瑾鑫,史其信. 基于GPS的路段旅行时间和速度估计算法研究[C]//中国智能交通年会,2005.

[7]Yuyang Zhou, Lin Yao, Yi Gong, et al. Time prediction model of subway transfer[J]. Springerplus,2016,5(1):44.

[8]Yanjie Duan, Yisheng Lv, Fei-Yue Wang. Travel time prediction with LSTM neural network[C]//2016 IEEE 19th International Conference on Intelligent Transportation Systems(ITSC),2016.

[9]张威威,李瑞敏,谢中教. 基于深度学习的城市道路旅行时间预测[J]. 系统仿真学报,2017(10):2309-2315,2322.

[10] Hinsbergen C P I V, Lint J W C V, Zuylen H J V. Bayesian committee of neural networks to predict travel times with confidence intervals[J]. Transportation Research Part C Emerging Technologies,2009,17(5):498-509.

[11] 王芳杰,王福建,王雨晨,等. 基于LightGBM算法的公交行程时间预测[J]. 交通运输系统工程与信息,2019,19(2):120-125.

[12] 陈旭梅,龚辉波,王景楠,等. 基于SVM和Kalman滤波的BRT行程时间预测模型研究[J]. 交通运输系统工程与信息,2012,12(4):29-34.

[13] 王劭逸. 基于GCV方法的线性回归模型岭参数估计[D]. 安徽合肥:中国科学技术大学,2012.

[14] Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[M]. Netherlands,Amsterdam: Elsevier Inc,1988.

[15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986,6088(323):33-536.

[16] Chow D K T, Lee T L T. Image approximation and smoothing by support vector regression[C]// International Joint Conference, 2001.

[17] 田英杰. 支持向量回归机及其应用研究[D]. 北京:中国农业大学,2005.

[18] 李航. 统计学习方法[M]. 北京:清华大学出版社, 2012.

收稿日期 2020-04-27

责任编辑 胡姬

猜你喜欢

客流神经元预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
城市轨道交通节假日期间大客流行车组织思考与实践
基于大小交路套跑对地铁不均衡客流的可靠性分析
AI讲座:神经网络的空间对应
仿生芯片可再现生物神经元行为
这个神经元负责改变我们的习惯
地铁换乘客流预警及应对
研究人员精确定位控制饮酒的神经元
地铁线网客流优化配置研究与应用