共享单车站点潜在需求预测问题研究
2020-05-25李思其李源庆臻
李思其 李源庆臻
针对传统共享单车需求预测中潜在需求缺失的问题,文章分析了站点借还量与调度需求量的关系,提出站点潜在需求问题,并利用美国芝加哥Divvy Bikes公共自行车系统实际运营数据,综合考虑天气、气温、风力、站点容量与初始车辆数等因素,以历史每日正常数据构建训练网络,通过三种神经网络方法预测出具有潜在需求站点的借还量。该研究方法的应用可以提高共享单车调度的科学性和准确性。
共享单车;潜在需求;需求预测;神经网络
U491-A-42-147-6
0 引言
作為解决“最后一公里”问题的共享单车系统正处于快速发展期,已经成为城市居民出行的重要方式。共享单车系统理想状态是各站点的自行车数量和空桩数量维持着一种平衡状态,为此运营商需要对共享单车进行周期性或动态的调度,首先需要进行各站点共享单车的需求量预测。
关于共享单车需求量预测的研究是近年的热点问题。
一部分学者从出行链入手预测站点需求,如Ying Zhang等人[1]通过结合分析个人出行、出行链以及过渡活动来研究共享单车用户的出行习惯,构建了出行链和换乘行为的矩阵,结合站点类型、单位小时内的租借和归还活动,揭示共享单车使用的时间模式和潜在目的。兰鹏等[2]提出了基于出行目的链的出行生成-分布组合模型,模型考虑了居民出行链、出行目的等对客流预测的影响。江国俊[3]以基于活动的出行需求分析理论为基础,研究自行车出行方式选择机理,建立了基于出行链的自行车方式选择模型。但是从出行链角度预测,所需成本大,实时性不强,可操作性较差。
运营商和一部分学者更倾向于从共享单车系统历史出行数据中挖掘各站点的用户使用规律,确定站点未来的需求量,利用数据挖掘方法使预测工作变得简单高效。如JiaShu、Chou和Liu等[4]通过使用OR模型估计各个时间段各租赁点用户流量从而推导出不同租赁点的需求总量,继而得到系统内各租赁点车辆借还的预测值。Borgnat等人[5]分析了里昂共享单车系统数据。他们通过系统数据分析了自行车使用时空特性以及影响因素。谭玉龙[6]结合Markovchain的性质,对自行车的供需进行研究,结合自行车的刷卡数据,建立了共享单车的站点日均还车、借车需求预测模型。Li和Yao等[7]构建了交通流阻塞条件下的出行方式决策方法,并借助智能算法完成了共享单车的客流估计。
通过历史数据预测需求,成本小,实时性强。但是,采用运营数据而进行的需求预测仍存在较大缺陷,不能完全反映用户需求:(1)由于某时段某些租赁点共享单车使用需求较大,而共享单车供给不足,造成用户无法及时租借自行车,而会选择其他站点租车或更换交通方式;(2)由于某时段某些租赁点的还车需求较大,而站点停车桩全部被占用,造成用户无法及时归还自行车,用户会选择去其他站点还车。这两种情况本文称为潜在需求缺失。站点潜在需求无法体现在共享单车历史出行数据上,会导致需求预测与实际情况不符合。
针对共享单车站点潜在需求预测问题,本文拟采用数据挖掘技术中解决数据缺失问题的方法,通过站点原始出行数据找出站点处于满载临界状态和空载临界状态的时间段序列,将该时段的借车量/还车量数据视为缺失数据,使用神经网络对该时段的缺失数据进行预测。研究是对现有自行车站点需求预测方法的补充,能有效提高共享单车调度的有效性。
1 研究思路
本文数据来源见美国Divvy共享单车系统[8],关于站点需求预测的具体研究步骤如下:
(1)提取出原始数据中各站点工作日和周末的借车数据和还车数据,以自行车ID在前一天晚上12点之前最后的停留站点作为隔天站点初始车辆数,结合站点初始车辆数和站点借还车数量,判断站点的实时车辆数。
(2)以7 d的周期循环提取每个站点每段时间的租/还车数、站点车辆数、站点ID和当天的天气数据,分析影响站点车辆使用的主要因素。
(3)根据所有提取出来的站点数据分析站点车辆数变化趋势与其临界状态,识别具有潜在需求的站点。按60 min间隔生成时间序列,统计每个序列中的租借数、归还数、租还差值、租还差累计值和站点车辆数,根据站点车辆数变化曲线找出处于满载临界状态和空载临界状态的时间段序列。对空载/满载临界状态下的站点可认为站点无法满足后续一段时间里的租借/归还服务,将该时段的借车量/还车量数据视为缺失数据,使用神经网络对该时段的缺失数据进行预测。
(4)为了预测出该时段的潜在需求,先将站点的容量限制假设为无容量限制,分别筛选出同一站点在不同时期具有潜在需求与不具有潜在需求的历史数据,将不具有潜在需求的数据作为人工神经网络的训练样本,计算网络预测输出值并计算网络输出值和期望输出值的误差e,根据误差e修正网络权值和函数参数[9],使网络预测值逼近期望值。
(5)将具有潜在需求的数据作为测试样本用于测试网络预测精度并预测出站点的潜在需求量。
其中步骤(1)到步骤(3)为数据准备。例如提取站点2在2017年2月里所有星期三的相关数据,首先提取2月1日(星期三)的数据,隔7 d继续提取2017年2月8日(星期三)的数据,按照7 d的周期提取出2月份所有星期三的共享单车出行相关数据。提取的站点车辆变化轨迹如图1所示。
步骤(4)与步骤(5)则为基于神经网络的站点潜在需求预测。
2 基于神经网络的站点潜在需求预测估算
2.1 预测方法的选取
处理不完整数据集的方法主要有三大类:删除元祖、数据补齐和不处理。其中数据补齐这类方法是用一定的值去填充空值,从而使信息表完备化。文献[10]研究表明,决策树插补法、k最近邻插补法、神经网络插补法三种方法表现最好。
站点历史出行数据能够提供芝加哥Divvy Bikes大量的站点使用数据,如站点初始车辆数、单位时间内的借还数、出行时间、站点使用人群占比等。而神经网络作为一种先进的人工智能技术,非常适用于此类数据挖掘的问题。本文采用BP神经网络、小波神经网络与灰色神经网络分别对潜在需求量进行预测。
2.2 指标选择
实际影响潜在站点需求预测的因素很多,但不是所有指标都会产生重要影响。本文从站点信息、天气信息和区域特征筛选影响因素,具体研究的影响因素、取值和符号如表1所示。
2.3 站点潜在需求量计算模型
站点是否具有潜在需求与站点车辆数是否达到临界状态有关,结合站点两种临界状态与站点租/还量的预测值,给出站点潜在需求量的计算公式(1):
PD i(t)=c 1,i(t)B i(t)- i(t)+c 2,i(t) t(t)-R i(t)
(1)
式(1)中,PD i(t)表示站点i在第t个时间段的潜在需求量,PD i(t)可正可负,为正数时表示站点有潜在的还车需求,为负数时表示站点有潜在的借车需求;c 1,i(t)为判断站点i在第t个时间段是否达到空载临界状态,如是则为1,否则为0;c 2,i(t)为判断站点i在第t个时间段是否达到满载临界状态,如是则为1,否则为0;B i(t)表示站点i在第t个时间段的实际租借量; i(t)表示站点i在第t个时间段的预测租借量;R i(t)表示站点i在第t个时间段的实际归还量; i(t)表示站点i在第t个时间段的预测归还量。
2.4 神经网络的输入输出
本文选择历史不同周同一星期如所有周二预测时段前三个小时借/还车数据、站点初始车辆数、站点容量、借车总量、还车总量、最高气温、最低气温、天气和风力水平等数据作为系统输入,系统输出为预测时段的借/还车数据。其中若预测时段临界状态为空载状态,则输入系统的数据为借车数据,系统输出为预测借车数据;若临界状态为满载状态,则输入系统的数据为还车数據,系统输出为预测还车数据。详见表2。
将Divvy Bikes站点2作为研究对象,选择2017-01-01至2017-12-31期间所有星期二的租/还车数据和天气数据共52组作为算例数据,其中39组为正常数据集,但有3组数据无租/还车记录,另外13组为具有潜在需求的数据集。潜在需求数据集中有10组达到空载临界状态具有潜在借车需求;有3组数据达到满载临界状态具有潜在还车需求。最终剔除无租/还车记录的3组数据,将36组正常数据集作为训练数据,将13组具有潜在需求的数据集作为测试数据,利用MATLAB_R2014b的神经网络工具的小波神经网络预测临界状态时段的租借量或归还量。取预测t时刻、t-1 h时刻、t-2 h时刻、t-3 h时刻及其他8个影响因素的值,作为网络的训练样本。相关数据见表3。
2.5 预测结果分析
本节介绍MAE(平均绝对误差)、MSE(均方误差)这些指标概念和公式,从插补误差比较三种神经网络的预测效果。平均绝对误差计算公式如式(2)所示,均方误差计算公式如式(3)所示。
MAE=1n∑ni=1 i-y i(2)
MSE=1n∑ni=1 i-y i2(3)
式中, i——第i个预测值;
y i——对应的真实值;
n——预测值的个数。
MAE值的大小反映了预测值与真实值之间的误差,MAE值越小表示预测值与真实值偏差越小,说明预测效果越好,反之说明预测效果不好。MSE值也同理,当几个预测方法的MAE值相同时,MSE值越小,预测方法的效果也越好[10]。
三种神经网络预测结果的MAE值与MSE值如表4所示,小波神经网络预测租借量的均值MAE和均值MSE分别为3.42和23.52;预测归还量的均值MAE和均值MSE分别为3.36和24.69,均是三种方法预测结果的最小MAE和MSE。
案例中的小波神经网络租借量预测值与实际值差异如图2和图3所示。
根据潜在需求计算公式(1),使用小波神经网络预测结果获得站点2具有潜在需求当天的潜在需求量,如表5所示。
3 结语
本文在共享单车站点需求预测中提出潜在需求概念,对站点潜在需求量进行预测。用BP、小波和灰色三种神经网络预测具有潜在需求当天的站点各时间段的租借量和归还量。通过MAE与MSE指标分析,结果表明三种神经网络算法中,小波神经网络在共享单车站点租借量和归还量的预测精度更高,更为适合共享单车潜在需求的预测。
参考文献:
[1]Y Zhang,MJG Brussel,T Thomas,et al.Mining bikesharing travel behavior data:An investigation into trip chains and transition activities[J].Computers Environment & Urban Systems,2018(5):39-50.
[2]兰 鹏,高跃文,韩宝明.基于出行目的链的出行生成—分布组合模型分析[J].数学的实践与认识,2011,41(13):94-98.
[3]江国俊.基于出行链的自行车出行方式选择实证研究[D].北京:北京交通大学,2012.
[4]JiaShu,Mabel Chou,Qizhang Liu,et al.Bicyclesharing System:Development,Utilization and the Value of Redistribution[J].National University of Singapore,2010(12):1-33.
[5]Borgnat P,Abry P,Flandrin P,et al.Shared bicycles in a city:A signal processing and data analysis perspective[J].Advances in Complex Systems,2011,14(3):415-438.
[6]谭玉龙,基于马尔可夫链模型的公共自行车站点供需研究[D].成都:西南交通大学,2015.
[7]ZhiChun Li,MingZhu Yao,William H.K.Lam,et al.Modeling the effects of Public Bicycle Schemes in a Congested MultiModal Road Network[J].Taylor&Francis Ltd,2015,9(4):282-297.
[8]Divvy System Data[DB/OL].https://www.divvybikes.com/systemdata.
[9]史 峰,王小川,郁 磊,等.MATLAB神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010.
[10]廖祥超.九种常用缺失值插补方法的比较[D].昆明:云南师范大学,2017.