基于混合匹配算法的出租汽车运行时空特性研究
2018-07-04唐诗韵李博威户佐安
唐诗韵 李博威 户佐安
(广西交通规划勘察设计研究院有限公司1) 南宁 530029) (西南交通大学交通运输与物流学院2) 成都 611756) (西南交通大学综合交通运输智能化国家地方联合工程实验室3) 成都 611756)
0 引 言
近年来,随着大数据技术的提升,诸多专家学者运用车载GPS数据对出租汽车进行研究,并取得了一些进展[1-2].胡小文等[3]以深圳市出租汽车GPS数据为基础,从交通出行需求分布、出行距离分布、出行市场分布等方面对出租汽车运营特性进行研究,但对运营指标的分析较为欠缺;翁剑成等[4-5]以北京市为例,运用GPS数据分析了路网内出租汽车的行驶里程、虚拟里程数比、路网时空分布,以及驾驶员疲劳程度等参数,对交通管理计划和交通控制设施的性能评价提供定量参考,便于直观快速地判断城市交通状况;庄立坚等[6]提出面向出租汽车运营管理的大规模GPS数据处理框架,建立出租汽车运营需求指标、里程指标、时间指标和速度指标,并结合广州市数据进行分析研究,但没有深入分析出租汽车运营的空间分布特性;曹祎等[7-8]考虑了现阶段打车软件背景下,空驶出租汽车的出行分布预测问题,但未对部分未使用打车软件的空驶出租汽车,其运营时空特性问题纳入整体研究范围,因此,在对出租汽车群体的刻画描述上有所缺失.
本文将提出实现出租车GPS数据可视化的方法,并主要从时间和空间两方面分析出租汽车的运营特性,提出相关运营指标的模型和计算方法.最后,结合成都市1周的出租汽车GPS数据进行具体分析.
1 浮动车数据采集与处理
1.1 数据采集与预处理
本研究的数据源自成都市交通运输委员会提供的成都市2014年11月17—24日1周内的出租汽车GPS数据.每天的数据记录超过7 000万条,涵盖了成都市12 000多辆出租汽车.出租汽车在运营过程中以一定的周期向数据中心上传当前时刻的状态信息,主要包括:车辆标识信息、位置状态信息、运行状态信息、运营状态信息、时间信息等.考虑到数据体量庞大,本文采用SQL Sever数据库对出租汽车GPS数据进行操作与管理.因设备故障、天气状况,以及建筑物遮挡等因素,在上传GPS数据时会产生部分异常数据,无法参与研究应用,需将其剔除.由于异常数据所占比例较小,出租汽车GPS数据整体质量较好,为本研究奠定了坚实的数据基础.
基于大规模出租汽车GPS数据,设计了提取出租汽车运营时空特性的技术流程,见图1.
图1 大规模出租汽车GPS数据处理技术流程图
1.2 地图匹配
选取部分成都市道路网络,通过路网拓扑关系将路网模型化,即转变为矢量路网地图导入至地理信息系统平台ArcGIS中.其中,路网数据包含:路段编号、路段名称、路段起始点经纬度坐标、路段长度.
由于出租汽车始终是在道路上行驶,GPS定位点在除交叉口之外的区域基本都较为规律地贴合道路分布.当出租车GPS定位点非常紧密的贴合某1条道路,或位于2条近似平行的道路间时,可以很直观地判断出GPS定位点的匹配路段,即可采用最短投影距离匹配算法,能够简化匹配计算的过程.
最短投影距离匹配原理以当前投影点为圆心,考虑出租车GPS定位误差,选择以50 m为半径作圆,将所有与所作圆相交的道路作为候选匹配道路集,依次将GPS定位点投影到候选道路上,并计算距各候选道路的投影距离,选择投影距离最短的道路作为最终匹配道路,投影点即为最终匹配点.
若仅采用最短投影距离匹配算法,会出现出租汽车轨迹中断的情况,错误匹配情况见图2,在道路交叉口处,匹配点5,6匹配在道路b上,而前后匹配点1,2,3,4,7,8,9都匹配在路段a上,显然,出租汽车的运行轨迹位于道路a上,因此,单纯采用最短距离投影法会在道路交叉口处产生大量的匹配错误.
多项式拟合匹配算法能够有效地避免该种错误的发生,即将由当前待匹配点与该时刻相邻的4个GPS原始点组成的拟合曲线(由于时间间隔较短,这里可以将曲线看作为直线来处理)的斜率K,与候选路径集中各路段的斜率Ki相比较,斜率最相近的路段作为最终的匹配路段,见图3.
[(xi,yi),i=1,2,…,5]为包含当前点的相邻5个定位点的平面坐标.另外,由多项式匹配原理可知拟合直线斜率K的计算公式为
图2 错误匹配
图3 多项式拟合匹配
(1)
道路斜率:
(2)
但是,多项式拟合匹配算法仍有一个缺陷,该算法规定与轨迹点的拟合曲线间的夹角在30°以内的道路才能作为匹配道路,即0 在地图匹配过程中采用最短投影距离和多项式拟合的混合匹配算法,算法流程见图4. 图4 混合地图匹配算法流程图 通过计算分析得出,选取相邻点个数的多少对拟合直线的斜率影响非常小,因此,考虑到2个GPS点间的距离、交叉口转弯半径及计算工作量,在保证准确匹配的条件下,确定选取5个GPS点来进行直线拟合.另外,由于现实生活中,城市道路网络密集复杂,当匹配路网密度较大,即除了主、次干路外,还包含支路时,见图5,按照上述算法进行匹配时,由于支路1与次干路1平行,将会产生2条与拟合直线夹角最小的道路,从而无法确定最终匹配道路.这种情况下,仍需要进一步采用最短投影距离算法进行确定. 图5 密集路网匹配问题 因此,在使用混合匹配算法确定某GPS定位点时,路网过于复杂不但要增加算法的复杂度,也会影响算法的运行效率,要考虑出租汽车运行特性合理的选取匹配路网.同时,在匹配过程中要考虑平行道路间的距离,合理地选取搜索圆的半径,保证候选道路集中只存在一条道路与拟合直线的夹角最小. 将本文提到的混合匹配算法与最短投影距离匹配算法进行比较,见图6.由图6b)可知,有7个GPS定位点(见标号)出现匹配错误,而图6c)中未出现匹配错误,仅有3个GPS定位点(见标号)因其投影点在待匹配路段的延长线上,或其拟合曲线与所有候选道路夹角都大于30°而被匹配在交叉口处.对比分析可以得出,混合匹配算法能够更精准的实现出租车实际运行轨迹的还原,但其匹配效率较低. 为了较好地实现该匹配算法,需要将GPS数据中的经纬度坐标转换为以米为单位的平面坐标,最终将匹配结果导出成表格,见表3. 图6 不同匹配算法的效果比较 车辆ID匹配后X匹配后Y1.001 01×101134 697973.413 398072.064时间载客状态速度路段编号10:38:51021.512 出租汽车上下客次数在全天24 h内的分布反映出城市居民出行活动的时间特征,可用于掌握居民出行活动的高峰时段和平峰时段,对分析居民出行行为有很好的指导作用.运营指标及计算公式为 工作日全天上下客比例: (3) 出租车OD数据依据出租车原始数据中的Incomeflag属性值提取,当值由1变为0,则表示出租车载客状态由载客变为空载,即单次载客行程的终点;反之,则为起点.在SQL数据库中运用T-SQL语言进行操作实现. 通过数据分析得到成都市工作日与休息日全天上下客比例分布图见图7. 图7 成都市工作日与休息日各小时上下客次数分布图 由图7可知,出租车的出行特征与常规公交有所差异,常规公交存在显著的早晚高峰通勤出行特征,而出租车出行的通勤特征不明显,同时出租车在21:00—24:00迎来全天需求最高峰,可以说明出租车乘客的出行目的较之常规公交更为多元化,同时也弥补了其他公共交通系统在夜间产生的运力真空情况.工作日17:00—19:00时段乘客上下客次数有所回落,由于该时段为多数出租车驾驶员的交接班时间,发生拒载的情况较多,且此时恰好是下班晚高峰时期,打车需求急剧上升,供给与需求的极度不平衡造成“打车难”的情况时有发生,进而导致上下客次数出现回落特征.休息日09:00—23:00期间各小时的上下客次数无明显波动起伏,均处于高位需求水平,主要成因由于休息日居民出行需求主要以休闲娱乐为主,出行时间的随机性较大,因此在时间分布上无明显特征. 载客时长分布能较好地反映乘客选择出租汽车作为出行方式的期望行程时间范围,同时也能明显地表征出租汽车服务的乘客类型.候客时长分布反映出租汽车驾驶员空驶状态寻客的时间特性.各运营指标计算公式为 (4) (5) (6) 由OD数据表可计算同一条记录中起终点的时间差即单次载客时长T1;而计算相邻两条行程间的时间间隔即为单次空载时间T0. 分析数据得到车辆载客时长分布、平均候客时长分布见图8.由图8可知,30 min以上的载客行程只占10.26%,这些行程一般以公务出行为主,或市区往返机场等出行需求;其次,57.17%的乘客在行程时间为15 min以内时会选择搭乘出租汽车,因此,属于出租汽车的重点服务时域.分析平均候客时长分布发现,只有29.32%的出租汽车能在10 min以内完成寻客工作,大部分出租汽车驾驶员的空驶时间较长,运营质量较差. 图8 载客时长与候客时长分布 时间空驶率为出租汽车全天总空驶时间与全天总运营时间之比,其反映出租汽车驾驶员全天的运营效率,可用Roff表示,其计算公式为 (7) 式中:T空,T全天分别为出租汽车全天总空驶时间与全天总运营时间. 载客距离表示居民选择出租汽车出行的平均距离,反映出租汽车的平均服务距离.由于车载GPS设备平均每10 s上传一次数据,并且在城市道路中的行驶速度在30~40 km/h,因此在SQL数据库中对匹配后的出租汽车GPS轨迹中的每两点之间求地球球面距离,并求和,用来近似的表示一条载客轨迹的距离.运营指标及计算公式为 单次载客距离: (8) 地球球面距离: d(A,B)=R·arccos(sin(x1)·sin(x2)+ cos(x1)·cos(x2)·cos(y1-y2)) (9) 式中:zi,zi+1为单次载客记录中相邻的2条记录的位置点;R为地球半径. 通过统计分析得到成都市出租汽车所有单次载客距离分布见图9,由图9可知,平均出行距离在5~9 km范围的行程数量占84.03%,为主要服务半径.按成都市出租汽车价格(起步价8元/2 km,超过2 km的每公里1.9元)计算,5~9 km的价格范围在13.7~21.3元,即为出租汽车驾驶员单程的主要收益范围. 图9 单程载客距离分布 里程空驶率为出租汽车全天空驶总里程与全天运营总里程的比值,反映出租汽车驾驶员全天的无效能源耗费程度.里程空驶率可用Koff表示,计算公式为 (10) 式中:S空,S全天分别为出租汽车全天空驶总里程与全天运营总里程. 时间空驶率与里程空驶率的车辆分布情况见图10,由图10可知,成都市出租汽车的时间空驶率主要集中在30%~40%,而里程空驶率主要集中在20%~30%.出租汽车的时间空驶率要略高于里程空驶率,出现这种现象的原因是大多数出租汽车在空驶状态时都选择停车等待或减速慢行来寻找乘客. 图10 各时间空驶率与里程空驶率范围的车辆分布 (11) 以成都市一环内、地铁二号线与府河所围区域的路网为例,通过分析数据得到路段各指标及载客概率的分布见图11. 图11 9:00—10:00时段路段各指标及载客概率的分布图 参照百度地图与图11可知,载客概率最高的路段(颜色较深路段)基本都为与居民小区、医院、大型活动中心、旅游景区等场所出入口直接相连的支路.但这些支路并不是出行需求旺盛的路段,这是因为该类支路上的出行需求是随机的,而出租汽车在支路上行驶数量较少且也是随机的,二者若能保持基本平衡,则载客概率才会呈现出较高水平.由于本文对出行需求的分析是采用的出租车历史数据,对潜在的乘客无法预计,因此,对路网中的供需关系评估也较为模糊.对比图11中3幅图发现,载客概率次高的路段分布基本与出行需求旺盛的路段分布一致,表明出行需求越旺盛的路段,载客概率也相对较高. 由图11a)可知,产生上客次数较多的路段附近的土地利用性质主要有3种:居民小区、大型商圈、体育中心、医院及学校等.这些路段周围的人流量相对较多,对出租汽车的潜在需求较大.而在图11b)中,由于09:00—10:00时段紧接上班高峰期尾声,因此短时间内在写字楼及商场附近会发生空驶出租汽车较多的现象.对比图11a)~b)可知,大部分空驶车数较多的路段,在该时段对应的出行需求并不大,这反映出许多出租汽车驾驶员对路网中出行需求的时空分布关系并不熟悉,盲目巡游等现象严重,驾驶员缺乏一定的载客引导. 本文在研究出租汽车GPS数据地图匹配方面提出了一种混合匹配算法,并验证了该算法的匹配结果相较于单一匹配算法更为精准,能够更好地还原出租汽车实际运行轨迹.同时,本文分别从时间和空间两方面建立运营指标、计算模型及提取方法,以成都市出租汽车1周的GPS数据为例做具体分析,得出成都市出租汽车的主要服务时域为5~10 min,服务半径为6~7 km,出行通勤特征不明显,时间空驶率较高,且大多数驾驶员对路网动态客流分布关系并不十分熟悉,缺乏针对性的载客引导.最后,若对出租汽车空载时的空间运行规律进行深入研究,能更好地了解出租汽车驾驶员空载时的路径选择偏好,对探索降低出租汽车空载率的方法将起到一定帮助,可作为下一步的研究方向. 参考文献 [1] LIU L, ANDRIS C, BIDERMAN A, et al. Revealing taxi driver’s mobility intelligence through his trace[J]. IEEE Pervasive Computing, 2009(1):1-17. [2] LIU X, LIU S, CHEN Z, et al. Urban traffic condition analysis based on GPS floating car data[C] International Conference on Computer Science & Service System,Nanjing,2012. [3] 胡小文,冯均佳.基于GPS数据采集的出租汽车交通运行特点研究[J].城市交通,2007,5(2):91-95. [4] 翁剑成,刘文韬,陈智宏,等.基于浮动车数据的出租车运营管理研究[J].北京工业大学学报,2010,36(6):779-784. [5] WENG J C,ZHAI Y Q,ZHAO X, et al. Floating car data based taxi operation characteristics analysis in Beijing[C]. Computer Science and Information Engineering, 2009 WRI World Congress on, IEEE, Los Angeles, 2009. [6] 庄立坚,韦清波,何兆成,等.基于浮动车数据的出租车运营管理特性建模与分析[J].重庆交通大学学报(自然科学版),2014,33(4):122-127. [7] 曹祎,罗霞.打车软件背景下空驶出租车出行分布预测模型[J].武汉理工大学学报(交通科学与工程版),2015,39(1):51-54. [8] 唐诗韵.基于GPS数据的空驶出租车寻客路线推荐研究[D].成都:西南交通大学,2017.2 出租汽车运营时间特性分析
2.1 上下客时间分布
2.2 载客、候客时长分布
2.3 时间空驶率分布
3 出租汽车运营空间特性研究
3.1 载客距离
3.2 里程空驶率
3.3 路段载客概率分布
4 结 束 语