基于公交IC卡和GPS数据的出行客流OD提取

2018-05-16戚阳黄信程张锦旺董火胜于海洋

科学与技术 2018年16期

戚阳黄信程张锦旺董火胜于海洋

摘要：出行客流分析对于制定公交的运营策略具有重要的指导意义，本文提出了一种GPS数据和公交IC卡的出行客流OD提取方法，实现了基于多元数据的客流OD获取，并在深圳e巴士平台得到了应用的验证。

关键词：出行分析；客流OD提取

1. 引言

国家交通数据显示，北上广深等一线城市，每天有过千万的通勤人次出行。一方面，现有的公交和地铁运营系统无法满足高峰期的出行需求，上下班高峰期运量不足，人员拥挤，聚合效应加长了数据的长尾，这些个体的需求数据会在数据的长尾下形成庞大的需求市场，已无法满足人群的需求以及个性化需求；另一方面，城市旅游包车、企业或事业单位通勤车等车辆使用效率低下，造成社会资源浪费；同时，小汽车出行占用道路资源，造成交通堵塞，而且也对城市空气污染造成很大压力。

在此背景下，顺应互联网+的趋势，定制公交服务应运而生。定制公交利用信息化手段组织客源，以混载搭乘的形式为处于相同区域，具有相同出行需求的人群定制一种介于常规公交与出租车之间的高品质公共交通服务。定制公交既能提供接近常规公交（远高于出租车）的通勤效率，最大限度地满足用户早晚高峰的出行需求，也能保持出租车的“一人一座”、“一站直达”要求，保证乘客的舒适性，因此具有很大的应用价值。

然而，目前实际运营的定制公交仍然存在着一些问题，很多定制公交公司不能很好地把握用户的出行需求，大部分的出行需求模型均采取出行调查或者利用单一数据来源的大数据挖掘方法，满足不了精确定制的需要。因此，基于多种数据对用户出行需求进行更为深入的挖掘显得极为迫切。

公交出行的需求分析的一个主要途径是OD提取，即从数据（例如公交用户的IC卡刷卡数据）中提取出城市居民出行的OD特征，以此反映出行需求的空间分布。本文将制定一种有效的客流OD提取策略，基于公交IC卡和GPS数据，实现可靠的OD特征提取，并在实际应用中验证算法的有效性。

2. 出行客流OD特征提取

对于出行客流OD特征的提取问题，一般通过将城市划分为若干区域，通过某种方式统计乘客在各个区域之间位置转换的次数，进而根据该条目出行数据的起始和终止位置填充OD矩阵。出行OD矩阵是反映出行特征的重要依据，不仅对于交通线路规划，对于城市道路布设等也极其重要，因此如何准确地获取OD数据得到了很多人的关注和研究。

传统的公交OD数据来源于人工调查，这种调查得到的结果往往很粗糙。近年来，很多研究者通过公交IC卡数据（或结合GPS数据或AVL数据）推算客流OD。高永等运用公交IC卡数据对公交换乘判断方法进行了研究，将乘客前后两次刷卡的时间差与确定的时间阈值进行比较，用以识别乘客本次乘车是否为换乘行为[1]。李海波将IC卡信息和AVL数据相融合，用于出行OD推算[2]。尹安藤提出了基于公交GPS和IC卡数据的公交OD推算，对公交IC数据和GPS数据进行分析，以推算出居民出行OD矩阵[3]。

本文基于公交GPS与公交IC卡交易数据对客流OD进行推断和获取，主要分为以下三个步骤：1）GPS定位数据的站点匹配：结合公交线路路径、站点信息、车辆GPS监控定位等数据，分析得出公交车辆准确的到站时刻；2）上车站点匹配：结合公交IC卡交易时刻、车辆编号及上述车辆到站时刻信息，分析乘客的上车地点；3）下车站点推导：基于乘客公交出行兴趣点（含常规公交上车地点、地铁进出站点）是乘客下车地点的规律，结合上车站点的下游停站信息、连续出行的换乘行为等推导乘客的下车站点。

1）GPS定位数据站点匹配

GPS定位数据站点匹配是为了将离散的公交车辆定位数据转换为到离站记录和班次记录等信息，这是公交运营分析和公交客流推导的首要步骤。为此需要设计一个将定位数据转换到离站记录的方法。

图1描述了GPS数据与站点匹配的流程。首先需要剔除无用的数据（经纬度全天不变和经纬度超出线路阈值的数据）。随后对GPS数据与站点记录做预匹配，挑选出可用的记录。接着将这些数据与站点做精确匹配，确定车辆的到离站时间。最后挑出这些记录进行适当的插漏补缺，确定出方向并标注单程编号。至此我们完成了站点的匹配步骤。

2）上车站点匹配

对于上车站点的匹配问题，由于有公交IC卡刷卡时间这一强信息，只需根据公交IC卡交易记录中的车牌号与交易时刻找到相应车次及站点即可，匹配流程如下图所示：

而对于实际情况，由于乘客的刷卡时公交车可能已经启动了，因此不能简单的认为刷卡时间对应的位置等同于车站位置。假设某车次共有n个公交站点，刷卡交易时间介于公交车辆的第i站与第i+1站到站时刻，则认为该刷卡记录的上车站点为第i站。

在实际操作过程当中，由于公交IC卡交易系统所记录的车牌号、线路号与公交企业的车辆监控系统所记录的线路号、车牌号并不完全一致，需建立基础信息匹配专家库，辅助完成两项关键信息的数据清洗与数据转换工作。

3）下车站点推断

由于对于很多公交车，乘客在下车的时候不会刷卡，因此无法得知乘客下车的具体时间和位置，因此只能对下车站点进行推断。我们一般结合上车站点的下游停站信息、以及乘客连续出行的换乘行为等推导乘客的下车站点。

为了实现下车地点的推断，我们将乘车一天的出行链视为彼此相互链接的环状结构，如图3。据此在已知上车站点的基础上，推导乘客公交出行的下车站点。即乘客前一次出行的终点是其进行下一次出行的起点；乘客当日最后一次出行的终点是其第一次出行的起点。

然而，乘客实际的公交出行链并不会严格地首位相接。事实上，对于连续的两次乘车行为，前一次乘车的下车点应位于以后一次乘车上车点为中心，某个阈值为班级的圆形中。这个阈值应当与两车乘车行为的间隔时间相关，直观地理解是，当两次乘车的间隔时间变大，乘客更有机会到达更远的上车点。

我们可以对前一次乘车的下車点进行概率推导，首先需要构建下车点的二维分布，这个分布的σ为间隔时间的函数，作为选择各乘车点的先验概率。随后可基于历史出行兴趣点，对概率进行更新，从而得到最可能的下车地点。

3. 客流OD提取算法的验证

本文将所提出的OD特征算法应用于深圳市东部公交e巴士项目中，具体而言，集成在了后台数据分析系统中。本文所提出的算法在e巴士的运营中得到了算法的验证。

OD提取算法在e巴士项目后台的客流数据分析中得到了充分的应用。在客流数据分析过程中，可以以各行政区或自定义区域为对象，分析区域内部或之间客流数据信息。可查看全部下辖线路的客流OD数据、行政区域或者自定义区域内外部客流情况，可基于时间、时段查询条件对区域客流OD信息进行筛选查看，可查看各区域客流时间分布及营收区域分布特点，如图4和图5所示。

4. 结束语

本文提出了一种基于GPS和公交IC卡的出行客流OD提取方法。通过GPS数据实现定位与站点的匹配，通过IC卡的刷卡记录确定出行客流OD的起始点，通过基于环状出行链的概率推断确定出行客流OD的结束点。本文提出的方法在深圳市e巴士平台上得到了实际应用的验证，证明了本文提出的算法的有效性。

参考文献

[1]高永. 基于IC卡数据的公交换乘识别方法[A]. 科学技术部全国智能运输系统协调指导小组办公室.2007第三届中国智能交通年会论文集[C].科学技术部全国智能运输系统协调指导小组办公室：科学技术部全国智能运输系统协调指导小组办公室，2007：6.

[2]李海波，陈学武.基于公交IC卡和AVL数据的换乘行为识别方法[J].交通运输系统工程与信息，2013，13（06）：73-79.

[3]尹安藤. 基于公交GPS和IC卡数据的公交OD推算[D].哈尔滨工业大学，2017.

基金项目：深圳市科技计划项目（KJYY20160331162313860）

（作者单位：1.深圳市东部公共交通有限公司）