基于出租车GPS轨迹的乘客目的地预测预分析
2017-06-09康科
康科
摘要:出租车的供需矛盾影响着整个城市的交通。通过挖掘出租车GPS轨迹中的信息,可以预测乘客的目的地位置,提高出租车调度中心的效率,帮助缓解城市的压力,减少城市污染。同时预测乘客的目的地还可以用于商业广告推广,提高导航效率等。本文主要介绍出租车乘客目的地预测的原理和方法。
关键词:出租车;GPS轨迹分析;目的地预测;乘客
0前言
出租车公司为每辆出租车都安装了GPS仪器,方便出租车公司的监控和调动,同时能够保证出租车司机的安全。当前,城市的交通压力空前巨大,交通拥堵和空气污染问题严重。出租车是缓解城市压力的一种重要的交通工具。但是,由于出租车的数量有限,在交通高峰期很多乘客很难找到一辆出租车。而出租车在某些时段需要形势很长的距离才能找到乘客。因此,出租车调度中心需要提高调度效率,保证出租车的使用率,是一个亟待解决的问题。但是,由于出租车的流动性较强,在不知道乘客目的地的情况下很难对其进行调度。在出租车GPS轨迹信息中,蕴含了大量的乘客信息。从这些信息中,可以挖掘出乘客的流动模式,以及城市中不同乘客的乘车习惯。使用这些信息,可以帮助我们预测出租车的目的地,缓解城市的交通压力。
1出租车GPS数据分析
为了保证数据能够真实的反应城市的交通规律以及乘客的乘车习惯,本文中使用了葡萄牙波尔图市的出租车数据。在该数据中包含了442辆出租车的GPS数据。数据包含了9个特征,包括:每条轨迹的唯一编号,乘客是否使用电话呼叫出租车的方式,乘客的电话,上车的出租车站台,出租车的编号,时间,是否为节假日,数据是否完整,出租车GPS轨迹点。数据的跨度从2013年的7月到2014年6月。出租车的轨迹数据几乎遍布城市路网的各个角落。越往城市市中心,出租车的轨迹就越密集,乘客的搭载活动越多。在城市中间河流的北岸乘客活动最密集。
2乘客目的地聚类方法
由于乘客目的地遍布城市的各个角落,增加了城市目的地预测的难度。为了方便预测,在建立预测模型之前,将乘客的目的地进行聚类,方便可以降低预测模型的复杂性,提高预测效率。在常用的聚类方法当中使用DBSCAN方法和mean-shift聚类方法最多。本文中采用了mean-shift聚类方法。在聚類之前,本文选择了出租车的轨迹的最后一个点作为乘客的下车地点,然后使用聚类算法对其聚类。聚类结果为3356个点,这些点几乎涵盖了城市的所有角落。图1为对GPS轨迹中所有点的可视化。可以看出几乎在每个地点都有乘客下车。同时可以看出和全部的数据可视化一样,在市中心的下车远远高于其它地区。
3乘客目的地预测常用方法及应用
在出租车预测的常用算法中,最常见的有两类算法:基于概率论的目的地预测和基于神经网络的目的地预测。其中基于概率论的算法计算GPS轨迹数据中的先验概率,通过计算不同位置之间的转换概率,获得最大概率的目的地作为乘客目的地。其优点是计算简单,算法复杂度低,同时能够充分利用数据中的信息。但是对数据的噪声并不能很好的处理。要求数据量足够大。由于GPS轨迹自身具有稀疏性,在城市两个不同地点之间很难具有足够的GPS数据,所以此类模型很难提供高精度的运算。
深度神经网络技术是当前最流行的算法之一。该算法在图像识别、语音识别等领域获得了巨大成功。基于神经网络的模型使用该算法,将原始的GPS轨迹数据进行特征提取以后使用该模型进行预测。在当前的算法当中,该模型在出租车目的地预测当中保持了最高的准确度。
基于出租车GPS目的地的预测有很多应用,其中如上文提到的是最重要的应用之一。除此之外还有很多其它应用。例如,每年商业公司都要花费巨额资金投入到广告行业进行商业推广。但是,精准的广告投放需要具有丰富的工作经验。如果能够分析出租车的目的地,分析目的地乘客的类型和消费习惯,就可以对乘客进行更加的精准的分析。这样对其进行商业广告的推广就更加有效。此外,目的地预测还可以提高导航系统的功能,自动驾驶等方面有广阔的前景。
4结语
出租车是缓解城市交通压力的重要手段之一,只有充分利用才能最好的缓解乘客与出租车之间的供需矛盾。同时,能够提高出租车司机的收入,也可以减少城市污染。通过分析出租车GPS轨迹信息中的乘客规律,可以帮助调度中心更好的预测出租车的形势方向和区域。这样就可以进一步提高出租车调度中心的调度效率。帮助出租车更快的响应需要乘车的乘客。