APP下载

基于SVR 的地铁载客人数预测算法研究

2019-04-12商志巍

现代计算机 2019年7期
关键词:刷卡事务站台

商志巍

(四川大学计算机学院,成都610065)

0 引言

近几年来,随着城市的现代化建设和快速发展,城市居民交通出行需求持续增长,交通拥堵现象的发生日益频繁,出行的方式逐渐呈现多样化趋势,包含地铁、轻轨等城市轨道交通系统在众多大型城市中扮演着至关重要的角色。地铁系统得益于其运行速度快、可靠性高、载客量大、票价低廉等优点,越来越多的居民将地铁作为首选的出行方式。载客人数指列车在车站装载的乘客数量,是地铁运载效率的重要指标,通过预测地铁列车在未来某一时段内的载客数量,有助于地铁运营商能提前获知地铁系统运载效率的变化趋势,在优化列车时刻表、提升地铁系统整体运载效率、减少乘客平均耗时等领域有重要的研究意义。传统的统计学方法需要耗费大量的时间和人力成本进行现场调研,数据量小,无法量化各影响因素与列车载客人数之间的关系,预测精度差。而一些熟知的时间序列模型仅考虑时间因素,无法用于评估调整其他影响因素后对列车载客人数造成的变化。

1 方法

1.1 历史位置提取

地铁系统中,自动检票系统(Auto Fare Collection,AFC)记录了海量的乘客进出站信息,使得我们可以采用数据挖掘方法从中获取乘客过去任意时刻的位置。通过合并所有乘客的位置信息,可以进一步得到过去任意时刻地铁系统的运行情况,为分析各影响因素与装载人数的关系提供基础。

图1 乘车事务

本文将乘客从起点站刷卡进站直到到达终点站刷卡出站的整个过程定义为一条乘车事务,如图1 所示,一条由站点i 出发,到达站点j 的事务的总耗时计算公式如下:其中,Tij为该事务的总耗时,为该乘客从i 车站的检票闸机到站台的步行时间,为该乘客从进入站台到所乘坐列车离开该站的等待时间,为列车从i 站出发到达j 站开启车门的总行驶时间,为该乘客离开列车到j 站检票闸机刷卡出站的步行时间。按上述时间节点可将乘客历史任意时刻位置划分为:未进站、步行进站、站台候车、乘车、步行出站、已出站。

当乘车事务数据足够多时,会出现列车准备关门前刚好到达站台的乘客,即这些乘客未经历站台等待时间,对应事务的总耗时计算公式为:

假设,对于站点i 所有乘客进出站时间TiK相同,对于站点i 站点j 所有列车行驶时间TijB相同。则Tij*在所有由i 到j 的事务中总耗时最短,其他由i 站到j 站的乘客经历的等待时间TiW为:

对于按列车行驶方向排序的3 个站点p、i、q,对应的最短事务Tpi*、Tiq*、Tpq*的关系如图2 所示:

图2 最短耗时事务间的关系

由图2 可以推得:

其中,TiD为列车在i 站从打开车门到关闭车门的时间,本文也假设对所有列车,TiD相同。若Tid已知,则可求得i 站平均步行时间Tik。通过以上步骤,可以得到乘客乘车事务中任意时段的耗时,并估算各关键时间节点的发生时间,进而获得乘客过去任意时刻所在位置。

1.2 SVR

支持向量机回归(Support Vector Regression,SVR)作为支持向量机的一个重要分支,基本思想是将特征向量映射到高维特征空间中,再进行回归。SVR 的一般回归形式为:

其中ω ⊂Rn,b ⊂R,Φ 为Rn到高维空间的非线性转换。确定w 和b 的问题转化为:

C 为常量,表示对估计误差的惩罚系数,Γ()∙为损失函数:

w 可以用数据点表示为:

将上式代入f(x)中:

k(xi,x)即为核函数,核函数使得我们可以在不知道具体映射函数Φ 的情况下,使用低维空间特征输入在高维特征空间中执行点积,本文采用线性核函数。通过求解二次优化问题最小化目标函数:

拉格朗日乘子ai,ai*是二次优化问题的解。再通过KKT 条件计算b:

2 数据与实验

2.1 数据

研究所分析的数据来源为重庆轨道交通系统检票闸机的刷卡数据。数据包含重庆地铁1 号线从2014年12 月1 日至2014 年12 月31 日的所有乘客的刷卡数据,共计11454362 条记录,乘客每进站或出站一次则产生一条记录,每条记录包含以下字段:卡片id、刷卡时间、站点id、进出站标志。列车在站台的平均停靠时间通过现场调研的方式获取。

2.2 实验过程

(1)构建乘车事务

由于原始数据只包含单次进站或出站的刷卡记录,没有包含一次完整的乘客乘车事务信息,所以需要对刷卡记录进行匹配。将原始数据按卡片id 分组,再按刷卡时间排序。刷卡记录中进出站标志字段21 表示进站,22 表示出站。排序后再按进出站标志前后匹配对,生成完整的乘车事务。

(2)提取耗时最短乘车事务

对特定的起点站和终点站,生成的事务中包含总耗时过短或过长的噪声数据,采用一种基于密度的聚类算法DBSCAN 去除这些噪声。最终得到关于不同起点站和终点站的矩阵,矩阵中的元素为对应站点的最短事务的总耗时。

(3)站台实时人数计算

由站台上的人数变化可以表现地铁列车从站台装载的乘客人数。对于一个特定站点,由最短事务矩阵可以计算多组进出站步行时间,取其平均值最为该站点步行时间的估计值。则由该站点出发的所有乘客对应乘车事务的关键时间节点都可计算得到,对于时刻t,将到达站台时刻小于t,列车离开时刻大于t 的乘客判别为该时刻在站台候车的乘客。从最早运营时间开始,每15s 计算一次站台实时候车人数。图3 以一个站点下行方向站台为例展示了计算结果,图中曲线的波动性符合实际站台乘客人数的变化规律。

(4)SVR 预测列车载客人数

由本文的定义可以推出,图3 曲线中人数最高的时刻即为列车驶离站台前最后一个时刻,相邻的下一个时刻为列车离开后的第一个时刻,对应图中波谷,则波峰时刻的人数与相邻波谷时刻人数的差即为该班列车在该站台上的装载人数。此外,所有波峰对应时刻形成了该站台当天的列车时刻表。本文将列车序号、列车与前一班列车之间的发车间隔、列车发车时刻、站台总乘客数,作为SVR 模型的输入特征,进行训练和预测。

2.3 结果分析

均方根误差和平均绝对误差是回归问题领域常用的两种评价指标,我们采用这两种指标验证本文提出的方法的有效性,其定义如下:

其中yi为模型的预测值,yi*为真实值。将本文提出的模型与其他两种预测模型进行比较,结果如图4 所示,表明本文提出的基于SVR 的方法相比于其他模型在预测精度上均有明显提升。

3 结语

本文提出了基于SVR 的地铁载客人数预测算法,在真实的地铁系统运营数据集上进行了实验,并与两种常用模型进行了对比,RMSE 和MAE 两种回归评价指标的计算结果,验证了本文算法能更为精确地预测地铁列车的载客人数,为地铁运营商提供有效参考。除地铁交通系统外,本文的算法也适用于普通铁路系统、高速铁路系统、公交系统等场景,具有一定的延展性。

图3 站台实时人数

图4 实验结果

猜你喜欢

刷卡事务站台
北京市公共机构节能宣传周活动“云”彩纷呈北京市机关事务管理局
一种基于GPS和RFID的智能公交站台定位方法
针对基于B/S架构软件系统的性能测试研究
一种Web服务组合一致性验证方法研究
另类的公交站台
Hibernate框架持久化应用及原理探析
相遇
刷卡
结账
刷脸就可以购物