APP下载

基于GPS数据的出租车出行需求预测研究*

2021-11-12孙立山魏中华李俊峰

交通信息与安全 2021年5期
关键词:载客高峰出租车

孙立山 贾 琳 魏中华▲ 李俊峰

(1.北京工业大学城市建设学部 北京100124;2.北京千方科技股份有限公司 北京100191)

0 引言

互联网+交通的发展促进了“网约车”的快速发展,但由于乘客出行的随机性与空载出租车司机寻找乘客的盲目性,导致出租车供需时空分布严重不平衡,出租车空载时间和空驶里程增加,交通资源利用水平低,进一步加剧城市道路拥堵。部分地区出租车数量供给不足,这样很容易出现打车难的现象,且等车时间长影响乘客出行体验。因此,为有效地的提高载客率、改善乘车体验,挖掘出租车载客热区进而实现实时调度成为解决该问题的重要手段。

1)出行分布特征研究。诸多学者对出租车出行时空分布特征进行了研究。曹梁[1]研究了上海地区乘客出行规律;付鑫等[2]采用ArcGIS建立OD矩阵,分析了出租车出行时空特征;张俊涛等[3]采用路径识别算法,对时空分布规律进行了研究;J.A.Alvarez-garcia等[4]采用隐马尔可夫算法对出租车行驶时的特征进行了分析。

通过分析乘客出行分布规律得出居民出行高峰时段等,为司机提供依据,也为载客热区的挖掘及出行需求预测提供基础。

2)载客热区挖掘。已有的研究侧重于居民出行轨迹方面。林基艳等[5]引入DBSCAN(density-based spatial clustering of applications with noise)算法确定出热点区域分布情况。何月等[6]针对出租车空载率高的问题,采用基于网格的聚类算法,实现了载客热点区域的挖掘。Tang等[7]提出了1种混合路径尺寸对数模型(MPSL),并验证该模型可以分析出租车司机的路线选择行为。Zheng等[8]提出了1种基于网格密度的聚类算法,验证其算法的有效性。王明[9]采用密度DBSCAN算法进行分析,发现热点区域挖掘结果的应用价值明显提高。Luo等[10]提出1种基于混合特征的密度测量方法,并对停靠点进行提取处理。桂智明等[11]利用DBSCAN空间聚类算法确定出载客热区。王郑委[12]对相关的K-means聚类算法设计,然后聚类分析了出租车载客点信息,确定出相应的热点区。

综上,针对出租车载客热区挖掘识别方面所采用的算法,现有研究多使用K-means和传统的DBSCAN等,但K-means需要指定簇的个数,K值难以确定。尽管DBSCAN聚类算法不需要指定簇的个数,但参数的选择对聚类结果影响较大,因此研究引进k-距离曲线确定参数以改进DBSCAN聚类算法,提高聚类效果,使得分类更加精确。

3)出租车出行需求预测。Zhang等[13]从复杂网络动力学的层面对出租车出行网络的复杂度的日常动态演变进行了分析,并应用BP神经网络模型提高了出租车出行网络的管理水平。王芮[14]通过网格划分法对出租车需求量进行估计,采用卡尔曼滤波算法、研究了目标区出租车的出行需求。席殷飞等[15]对既有的出租车出行需求预测方法进行了分析,得出国外预测分析要早于国内的结果,国内侧重于研究面向传统巡航式出租车的乘客需求热点区域,而对网约车出行需求预测的定量分析较少。张文胜等[16]提出1种改进的灰狼算法优化BP神经网络,提高了短时交通流预测的精度。叶秀秀等[17]采用多元线性回归算法预测无检测器路段的交通流。Yang等[18]提出了1种新的基于注意机制的端到端神经网络来预测轨道交通客流,以提高预测效果。Wang等[19]运用门控回归单元网络,对有效波高进行预测,得出模型预报速度更快,适应性更强。李岩[20]采用了随机森林模型以及岭回归模型对出租车的出行需求进行预测。

总结出行需求预测的现状可知,神经网络在预测中应用频率较高,性能较好,但现有的出租车出行需求预测往往集中随机森林模型等基于统计分析或者非线性理论的模型,使用神经网络预测较少,因此研究将BP神经网络应用到出行需求预测中,以提高出租车出行需求预测的精度。

1 出租车出行分布规律

1.1 数据处理

本文研究过程中的数据来源为滴滴平台。数据包括成都市2016年11月1日—30日的1万多辆出租车的轨迹数据和订单数据。获取的每一行数据包括车辆的ID,运行时间,订单ID,实时经纬度等。相关数据段见表1。其中,轨迹ID字段为车辆编号;订单ID字段为订单编号;GPS Longitude和GPS Latitude为GPS记录的经纬度;GPS Time字段为记录采样时刻。

表1 GPS轨迹数据字段及含义Tab.1 Data fields and meanings of the GPS track

数据处理主要包括数据清洗、地图纠偏,以及出租车的上下客点提取。

1)数据清洗。GPS数据采集过程中如果受到隧道和建筑物等障碍物的干扰、外界天气及设备故障的影响,接收端返回的数据会存在噪声数据。因此应剔除不重复的、超出区域的GPS数据。

2)地图纠偏。因坐标系选择的影响,获取的出租车轨迹往往会和实际路网相背离,为了保证出租车空间分布的准确性,需要借助ArcGIS对部分偏离路网的轨迹数据修正。

3)上下客点提取。结合GPS轨迹数据和订单数据,提取出租车上下客点,图1(a)~(b)分别为某1个工作日的上下客点。

图1 某工作日出租车上下客点Fig.1 Taxi pick-up and drop-off points on a working day

1.2 出行需求时间分布规律

出行需求时间分布规律主要包含工作日与非工作日的出行需求分布规律,同一星期属性的出行需求分布规律。

根据常识,工作日与非工作日出行需求分布规律存在一定的差异性,将数据分为周一~周五、周六、周日这3组,因订单时长15 min左右的所占比例最大,所以按照15 min为1个时间间隔进行统计,将全天分为96个时间段,得到不同星期属性的出租车出行需求时间变化规律,见图2(a)。

另外,同一星期属性的出行需求分布规律比较类似,研究选取11月2日、11月9日、11月16日、11月23日这4个周三的数据,对成都市同一星期属性不同时刻的出租车出行需求分布规律进行分析,其变化规律见图2(b)。

图2 出行需求人次分析Fig.2 Quantitative analysis of travel demands

1.3 载客时长

载客时长指出租车完成1次订单所需的时间。根据前文处理后的数据,按照星期属性,将数据分为2组,笔者选取1个工作日和1个非工作日的数据,统计分析结果见图3。

由图3(a)可见,07:30—09:30和16:30—18:30等高峰时段内,出租车平均载客时长都处在较高的水平,源于这2个时段分别处于上下班高峰期,乘客出行需求大导致道路交通拥堵,影响出行速度,因而这2个时段载客时长增加。为深入对出租车的平均载客时长进行分析,将出租车平均载客时长所占比例进行统计汇总,见图3(b)。

图3 载客时长分布Fig.3 Distribution of passenger-carrying time

2 基于改进DBSCAN算法的出租车载客热区挖掘

2.1 DBSCAN算法

DBSCAN算法的思想为:根据区域范围内的密度值进行聚类,然后在指定的位置根据需要确定密度阈值。DBSCAN算法可以把任意形状的簇挖掘出来,且抗噪能力很强。综上,笔者选用并改进DBSCAN算法作为热点地区挖掘的聚类算法,以确保最终结果的可靠性和有效性。

DBSCAN基于1组邻域(neighborhood)的参数(ε,MinPts)来确定数据分布的紧密程度。其中ε为搜索半径,MinPts为最小密度阈值。给定数据集Q,定义以下几个概念:①ε-近邻,样本数据集中出租车上下客点p的ε-近邻指,与其之间的距离小于ε的点数据;②核心点,对于p点,当其存在领域时,相应的邻域至少包含MinPts个数据点,则p为1个核心对象,该对象的领域可以有无数多个;③边界点,边界点是指落在某个核心点的ε邻域内的点;④噪声点,除边界点外的任何点,通常,噪声点越少,得出的结果越有效。

以上几种概念之间存在某种联系,其关系图见图4。DBSCAN聚类算法的流程图见图5。

图4 核心点、边界点、噪声点示意图Fig.4 Schematic diagram of core points,boundary points and noise points

图5 DBSCAN算法流程图Fig.5 Flow of the DBSCAN algorithm

2.2 参数标定

2.2.1 搜索半径ε的确定

本研究引入k-距离曲线来计算出搜索半径。选取2016年11月2日上客点数据的经纬度作为研究数据,考虑到计算量太大,利用Python编写程序,计算数据集中每个点的k-距离,考虑到实际数据的特性,这里取k值为1,然后按照从小到大的序列排序,绘制出k-距离曲线图,见图6。

图6 出租车上k-客距离曲线图Fig.6 The k-distance curve of taxi boarding

由图6可知,0.004~0.005之间曲线的走向发生了变化,可知,ε范围大致在0.004~0.005之间。根据经纬度与城市实际距离之间的换算,结合本文研究范围大约为半径500 m,综合考虑搜索半径取为0.004 6。

2.2.2 密度阈值MinPts的确定

参数MinPts的选取需满足1个原则,既不能太大也不能太小。若取值太小,则聚成簇的数量会太多,而且分散;若取值太大,则2个密度较大的近邻簇会被合并为1个簇,导致聚类效果差。得出ε后,结合出租车上客点数据,采用特定的方法来进行反复聚类,当MinPts=110,可知载客热点区域区分比较好,与前面章节空间维度分析得到的出租车出行需求空间分布规律相符合。

综上分析,本文载客热点区域挖掘设置的算法参数为:搜索半径取为0.046,MinPts取为110,即在搜索半径500 m范围内,出租车上下客次数大于等于110次的区域是本文挖掘的载客热点区。

2.3 载客热点区域的挖掘

选取2016年11月2日(周三)的上、下客点数据作为研究数据,对工作日的3个特征时段:早高峰(07:30—09:30),晚高峰(16:30—18:30),夜高峰(20:30—22:00)分别进行载客热点区域的挖掘及可视化。采用DBSCAN算法对工作日出租车出行需求早高峰进行聚类,在搜索半径取0.046,最小密度阈值取110的情况下,最终将出租车早高峰上下客经纬度数据聚成7个簇,成都市早高峰的聚类结果见图7。

图7 早高峰出行需求聚类结果Fig.7 Clustering results of travel demands in the morning peak

由图7可知:图中深色区域代表DBSCAN算法聚类结果中的噪声点,即在ε为500 m的范围内,出行需求较少。同理,可得晚高峰被聚为8簇,夜高峰被聚为7簇,3个高峰时段的可视化过程如下。

1)早高峰载客热点区域可视化。为了对图7中早高峰出租车上下客点聚类结果进一步细化,用每一簇的质心代表其对应的热点区域。根据表2不难发现,相应的载客热点区共有7个。除了成都站外,载客热点区域多集中在住宅区、办公区、校园区。

2)晚高峰载客热点区域可视化。同理,对晚高峰时段内的每一类载客热点区域进行质心求解,见表3。该时间段内共有8个出租车载客热点区。

表3 2016年11月2日晚高峰载客热点区域Tab.3 Attractive areas of passengers during the evening peak on November 2,2016

3)夜高峰载客热点区域可视化。夜高峰时段载客热点区域见表4,该时间段内共有7个出租车载客热点区。

表4 2016年11月2日夜高峰载客热点区域Tab.4 Attractive areas of passengers during the night peak on November 2,2016

3 基于BP神经网络的出租车需求预测

3.1 BP神经网络参数标定

从表2~4中可得,3个高峰时段内成都站均是载客热区,以成都站为例,选取该区域的2016年11月2日—23日之间工作日出租车出行需求数据作为预测原始数据,对3个高峰时段出租车需求量进行预测。

表2 2016年11月2日早高峰载客热点区域Tab.2 Attractive areas of passengers during the morning peak on November 2,2016

在神经网络参数标定之前,需要根据变量以及变量之间的相关性确定输入层。对工作日不同时段的出租车出行需求量的相关性进行分析,记Q(n,m)为出租车在第n天第m时段的出行需求量,分析结果见表5。

由表5的相关系数可知,同一工作日中当前时间段与临近时间段的出租车出行需求量相关性较高,并且随着时间推移,不同变量之间的相关性越来越弱。而根据进一步的分析可知,当前时间段与第4个时间段的相关系性明显减弱,据此不难看出,当前出行需求数量受60 min前的出行需求量影响较小,故应选择Q(n,m-1),Q(n,m-2),Q(n,m-3)作为模型的输入变量。

表5 同一工作日当前时段与临近时段出行需求相关性分析Tab.5 Correlation of travel demands in the current working time and the adjacent time on the same working day

对同一时段不同星期属性的出租车出行需求量相关性进行研究,假设Q(n,m)代表周三的出行需求量,则Q(n-1,m),Q(n-2,m),Q(n-5,m),Q(n-6,m),Q(n-7,m)分别代表周二、周一、上周五、上周四、上周三的出行需求量。分析结果见表6。由表6可知:相邻的工作日之间出行量具有高度的相关性。随后相关性系数呈现出不断递减的趋势,Q(n-5,m)为0.732,即与Q(n-5,m)的相关系数为0.732,随后相关系数又出现了上升。由此可知,当前工作日与相邻的工作日之间有高度的相关性,与历史时间段的同一工作日也具有高度相关性,而与前1周星期属性较远的相关性并不明显,正好验证了前文分析的出租车出行需求在同一星期属性上存在着周期性规律。

表6 同一时段当前工作日与临近工作日出行需求相关性分析Tab.6 Correlation analysis of trip demands between current working day and near working day in the same period

将2016年11月23日(周三)作为预测日期,由以上分析可以确定出BP神经网络模型的输入层、隐藏层、输出层等信息,见表7。

表7 BP神经网络参数设置Tab.7 Parameter setting of the BP neural network

3.2 模型预测结果与评价

3.2.1 评价指标

评价指标包括平均绝对误差(MAE)和平均绝对百分比(MAPE),其计算方法见式(1)~(3)。

式中:Gi为预测值;Yi为实际值。

3.2.2 模型预测结果

以成都站的早高峰时段为例,将BP神经网络与随机森林模型、岭回归模型进行对比。

1)预测结果。通过BP神经网络模型进行预测,出租车出行需求量与其实际值的时段变化对比情况和误差变化情况见图11。

图11 BP神经网络短期需求预测结果比较Fig.11 Comparison of short-term demand-predicting results of the BP neural network

图11 中早高峰分为8个时间段,用1~8表示,即1代表07:30—07:45,8代表09:15—09:30。同理,晚高峰和夜高峰时段分别用1~6表示。

研究将BP神经网络引入,并与随机森林模型、岭回归模型对比,早高峰、晚高峰、夜高峰3个时段的对比结果分别见表8~10。表8~10可见:BP神经网络性能更优,3个高峰时段的MAE、RMSE、MAPE均为最小,其中早高峰时段内BP神经网络的MAPE分别较随机森林模型、岭回归模型提高了3.25%和5.87%,晚高峰时段提高了2.98%和4.32%,夜高峰时段提高了1.44%和2.58%,验证了BP神经网络在出租车需求预测方面的可行性。

表8 早高峰不同模型对比效果Tab.8 Comparison of different models in the morning peak

表9 晚高峰不同模型对比效果Tab.9 Comparison of different models in the evening peak

表10 夜高峰不同模型对比效果Tab.10 Comparison of different models in the night peak

由以上分析可知,在对出行需求进行预测时,可以优先选择BP神经网络模型。

4 结束语

研究成都市出租车出行需求变化规律。对工作日早高峰、晚高峰及夜高峰这3个时段的出行需求分布进行了研究,得到了成都市出租车出行的变化规律。在对出租车出行需求分布规律的研究基础上,采用改进的DBSCAN聚类算法,对出租车载客热区进行挖掘,以成都站为例,运用BP神经网络对出行需求进行预测,并与随机森林模型、岭回归模型对比,3个高峰时段内BP神经网络的MAE、RMSE、MAPE值均为最小,验证了BP神经网络模型的有效性。

研究的局限性主要有2点:①数据有限,只分析了1个月的出租车数据,今后还需获取更多数据进行分析;②由于获取信息的困难,论文没有考虑天气、重大节日等因素。

猜你喜欢

载客高峰出租车
2021年第1季度,我国新注册登记载货汽车同比增长100.99%,新注册登记载客汽车同比增长58.53%
病毒病将迎“小高峰”全方位布控巧应对
乘坐出租车
石庆云
基于运营数据的出租车运行特征分析
凭什么
开往春天的深夜出租车
李书福炮轰出租车
雨天早高峰,自在从容时。
“太空摆渡车”首飞载客成功