基于手机信令大数据的轨道交通短时流量预测
2021-03-31周剑明黄杉
周剑明, 黄杉
(1. 中国联通广州市分公司, 广东 广州 510000; 2. 智慧足迹数据科技有限公司, 北京 100023)
0 引言
轨道交通方式成为我国大中型城市的主要交通方式之一,但巨大的客流量为轨道交通的运营管理带来新的挑战[1]。短时流量预测是轨道交通运营管理的基础,流量预测是以时间序列为基础预测未来时间段的客流量[2],一般情况下,短时流量预测的时间粒度小于20min。短时流量预测可以为轨道交通客运管理与组织安排提供有力参考并缓解轨道交通拥堵概率,提升交通服务质量。手机基站发出的信令数据具有数据量大、客观真实和易获取等优势[3],随着手机用户数量的提升,手机定位技术的信令数据重要性日渐增强。同时与基于交通大数据[4]或基于组合模型的流量预测方法相比[5],手机信令数据还具有低成本,高覆盖区域等优势。因此,在轨道交通短时流量预测过程中融入手机信令,提出基于手机信令大数据的轨道交通短时流量预测方法以预测轨道交通短时流量。
1 基于手机信令大数据的轨道交通短时流量预测
基于手机信令大数据的轨道交通短时流量预测方法的整体架构,如图1所示。
预测过程主要分为以下几个环节:由手机网络运营商处和轨道交通运营商处分别获取用户手机信令数据和轨道交通路线信息;依照道路匹配算法确定轨道交通路线上移动的手机用户[6];搭建轨道交通流量大数据库,实时更新轨道交通路线上手机用户的手机信令数据;分析轨道交通流量特性;基于K值自适应算法预测轨道交通短时流量。
图1 预测方法整体架构
1.1 手机信令与轨道交通路线的获取
基于手机网络运营商的BSS(Business Support System,业务支撑系统)域数据管理系统设定手机信令数据采集时间阈值,根据设定阈值实时采集城市范围内手机用户的信令数据。所采集手机信令数据为从某运营商处获得的脱敏数据,可以在不违反系统规则条件下,改造真实数据并提供测试使用[7]。所采集手机信令数据结构,如表1所示。
表1 所采集手机信令数据
在采集的手机信令数据内,各用户具备唯一的身份识别ID,经纬度维数为手机基站的所在位置,当用户手机达到基站服务范围内基站自动生成时间戳,并记录用户手机在该基站范围内停留时间,再获取城市轨道交通路线信息。
1.2 道路匹配与用户判定
选取GIS缓冲分析方法对基站与轨道交通路线实施叠加,根据手机信令数据将手机基站拟合至轨道交通路线上。由于城市内基站服务范围通常为500 m。因此设定缓冲半径为500 m,基站与交通轨道路线拟合结果,如图2所示。
图2 基站与轨道交通路线拟合结果
基于GIS缓冲分析方法对基站与轨道交通路线的拟合,确定不同轨道交通路线上的基站分布序列,用Qi={n1,n2,…,nf}表示,Qi和nf分别表示第i条轨道交通路线和基站序列内第f个基站,将Qi={n1,n2,…,nf}作为轨道交通路线的基站切换序列。依据时间维度整理排列用户手机信令切换数据,能够确定不同用户经过基站的切换顺序,用Pj={n1,n2,…,nm}表示用户手机基站切换序列,Pj和nm分别表示第j个手机用户和其经过的第m个基站。计算Pj={n1,n2,…,nm}和Qi={n1,n2,…,nk}之间的相似度(欧氏距离),如式(1)。
(1)
基于式(1)确定手机用户移动轨迹与轨道交通路线匹配的信息,当相似度高于设定值时,即可判定该手机用户为轨道交通路线上的手机用户。
1.3 轨道交通短时人流量特性分析
利用以上获得的手机用户和Oracle Database关系数据库管理系统,构建手机信令样本数据库,手机信令数据采集时间阈值实时更新数据库信息并分析轨道交通流量特性,可知城市轨道交通短时人流量时间序列存在显著的周期性变化特征。由于交通流量及具体运行模式不同时,其预测的精度和动态特征也不同,为了以最低计算量获取相关的交通短时流量参数,本文采用基于K值自适应的轨道交通短时流量预测算法预测城市轨道交通短时流量。
1.4 K值自适应的轨道交通短时流量预测算法
利用轨道交通路线上用户手机信令样本数据库,依照轨道交通人流量特性生成K近邻模型的状态向量。依照距离度量方式与自适应K值计算确定近邻搜索机制。根据当前时刻轨道交通流量数据预测下一时刻轨道交通流量。状态向量是对比交通轨道流量历史状态与当前状态的标准,如式(2)。
Ea=(xa1,xa2,…,xat)
(2)
(3)
K近邻模型中,K值表示数据库内选取近邻数量的参数,该值直接影响预测精度。因此选取基于平均绝对百分比误差最小的K值自适应计算模型计算K值。计算模型,如式(4)。
(4)
K=min{k1,k2,k3,…kλ}
(5)
(6)
2 应用分析
采用本文方法对某市轨道交通二号线进行短时流量预测以测试性能。预测过程中使用的手机信令大数据来源于同三大营销商的合作项目,轨道交通路线信息来自研究对象所在城市轨道交通运营商。
2.1 预测结果
2.1.1K取值
采用本文方法进行研究对象短时流量预测,基于数据库内已有数据得到不同K值下的预测结果平均绝对百分比误差,其中曲线表示平均绝对百分比误差值,如图3所示。
图3 不同K值下的平均绝对百分比误差
分析图3能够得到,随着K取值的提升,短时流量预测结果的平均绝对百分比误差整体表现出先下降后提升的趋势。当K取值在1—4时,预测结果平均绝对百分比误差从0.056下降至0.038;当K取值在4—16时,预测结果平均绝对百分比误差从0.038上升至0.076,这是因为当K取值过大或过小时,均会提升研究对象短时流量预测结果的平均绝对百分比误差,而4恰巧在取值过大或过小的中间节点上,因此此取值为预测精度最高。实验结果表明采用本文方法预测研究对象短时流量时,K取值为4时,本文方法预测精度最高。
2.1.2 流量预测
以2020年5月1日(法定节假日)和5月6日(非节假日)为预测日,采用本文方法进行研究对象短时流量预测,设定预测时间粒度为20 min,K取值为4。预测结果,如图4所示。
(a) 2020年5月1日
综合图4(a)与图4(b)的数据能够得到本文方法针对节假日条件下研究对象流量预测结果较好。整体预测过程中本文方法对于研究对象流量的变化趋势感知较为敏感,可依照实时流量波动快速修正预测趋势。本文方法在节假日条件下针对研究对象进行流量预测过程中,全天平均绝对百分比误差低于5%,满足实际预测需求。且本文方法针对非节假日条件下研究对象流量预测结果与实际流量基本一致,预测过程中,全天平均绝对百分比误差低于3%。证明了本文方法可准确预测研究对象短时流量,并根据实际流量,实施修正预测趋势,提升后续预测精度。
2.2 预测性能对比分析
选取均方根误差(其值越小误差越小)和运行时间(其值越大方法复杂度越高)作为预测性能评价指标。针对研究对象5月6日流量预测结果的评价指标,以文献[4]和文献[5]中方法对比本文方法,如表2所示。
表2 不同预测方法的评价
分析表2可得,本文方法在均方根误差上的评价结果与基于交通大数据的预测方法差距较小,但显著优于基于组合模型的预测方法;在运行时间方面的评价结果与基于组合模型的预测方法差距较小,但显著优于基于交通大数据的预测方法。综合可知本文方法预测性能优于对比方法。
3 总结
本文提出基于手机信令大数据的轨道交通短时流量预测方法,拟合手机基站与交通轨道路线,根据手机信令数据判断交通轨道路线上的用户,采用基于K值自适应的轨道交通短时流量预测算法进行实时准确的短时流量预测。但本文方法在研究过程未考虑天气异常与突发事件等条件,因此,在后续优化过程中将基于此对方法实施改进。