基于公交IC卡和AVL数据的客流OD推导方法*
2015-02-24李海波陈学武陈峥嵘
李海波 陈学武▲ 陈峥嵘
(1.东南大学城市智能交通江苏省重点实验室 南京 210096;
2.东南大学现代城市交通技术江苏高校协同创新中心 南京 210096;3.江苏省城市规划设计研究院 南京 210036)
基于公交IC卡和AVL数据的客流OD推导方法*
李海波1,2陈学武1,2▲陈峥嵘3
(1.东南大学城市智能交通江苏省重点实验室南京 210096;
2.东南大学现代城市交通技术江苏高校协同创新中心南京 210096;3.江苏省城市规划设计研究院南京 210036)
摘要公交IC卡收费系统和车辆定位系统的广泛应用,为获取公交客流OD提供了新的途径。针对现有公交客流OD推导算法的不足,从上车站点识别和下车站点推导两方面入手,对公交客流OD推导算法进行了改进。为了修正公交IC卡数据时间偏差,提高上车站点识别的准确性,在分析公交乘客上车刷卡行为的基础上,提出了基于AVL数据的公交IC卡数据时间修正方法。根据公交出行链的特性差异,将公交出行链划分为连续链和非连续链两大类,在此基础上,建立了不同公交出行链的下车站点推导模型,优化了下车站点推导流程。以苏州市的公交IC卡和AVL数据为例进行实例研究,通过对推导结果合理性的讨论分析,论证了改进算法的可行性和有效性。实践表明,改进后的公交客流OD推导算法流程清晰,易于程序实现,可以用于公交客流的自动分析。
关键词交通大数据;公交客流OD;IC卡数据;AVL数据;上车站点;下车站点
*国家自然科学基金面上项目(批准号:51178109)、国家重点基础研究发展计划项目(批准号:2012CB725402)、中央高校基本科研业务费专项资金资助和江苏省普通高校研究生科研创新计划项目(批准号:KYLX_0179)资助
0引言
公交客流OD是城市公共交通规划与管理的重要基础数据,目前主要是通过人工调查的方法获取。但是由于人工调查往往需要耗费巨大的人力、物力和财力,因此调查一般只能获取部分居民在特定几天的公交出行数据。这种短时抽样数据很难反映居民公交出行特征的长期变化规律,更不用说反映特殊事件下的居民公交出行行为特征。与传统的人工调查相比,公交IC卡数据具有采集成本低、信息量大、时间连续等优点,为城市公交客流分析提供了全新的途径[1-2]。
我国城市的常规公交系统多采用“一票制”的收费模式,其公交IC卡数据一般不会直接包含乘客的上下车站点信息,需要通过一定的方法来推导。在仅有公交IC卡数据的条件下,上车站点主要是通过对乘客上车刷卡时间和基于行车计划推算的车辆到站时间的比较来识别[3-6]。但是由于道路交通环境的动态变化,实际很难准确推算车辆的到站时间。近年来,随着智能公交的兴起,车辆自动定位(automatic vehicle location,AVL)系统在城市公共交通领域得到了广泛应用。AVL数据准确记录了公交车辆的位置信息,有效弥补了公交IC卡数据空间位置信息不足的缺陷,大大提高了上车站点识别的准确性[7-8]。对于下车站点,现状主要是根据公交乘客的出行特征推导,主要方法有:
1)基于连续公交出行链的方法[9-10]:该方法有3个基本假设条件:①连续公交出行链假设,即在2次公交出行之间不使用出租车、小汽车等社会出行工具;②最短换乘距离假设,即当前公交出行的终点为下一次公交出行的起点,也即下一次出行的起点与上一次出行的终点位于同一公交站点,或下一次出行的起点在上一次出行终点的可接受步行距离(或时间)之内;③出行起终点相同假设,即1 d当中最后一次出行的终点为当天出行的起点或第二天出行的起点。
2)基于换乘行为的方法[5,11]:如果能够判断出2次连续刷卡属于1次出行,则可以根据最短换乘距离(或时间)的假设,识别出换乘前的下车站点。该方法与方法1)的区别在于,满足方法1)中假设的2次刷卡记录不一定是换乘关系。
3)基于通勤出行时空特征的方法[5]:通勤出行的最大特点是出行时间和出行起终点具有明显的规律,一般可以认为上班出行的最后一个下车站点是下班出行的上车站点,下班出行的最后一个下车站点是上班出行的上车站点。
4)基于乘距分布的下车概率法[12]:一般而言,公交出行距离分布具有一定的规律,近似服从正态分布。因此,可以根据乘距的分布规律计算乘客在各站点下车的概率,以此来推导下车站点。
本文针对现有推导方法的不足,从公交出行链的分类入手,对基于公交IC卡和AVL数据的公交客流OD推导方法进行了系统梳理和改进,并以苏州市的常规公交系统数据为例,进行了实证研究[13]。
1公交IC卡和AVL数据
苏州市的常规公交采用的是“一票制”收费模式,其公交IC卡原始数据中包含卡编号、卡类型、卡余额、消费金额、刷卡时间、车辆编号、线路编号、单位编号、消费流水号等数10个字段的信息。本文研究仅需要其中的4项信息,包括卡编号、刷卡时间、车辆编号和线路编号,见表 1。
表1 苏州市的公交IC卡数据示例
AVL数据,泛指车辆自动定位系统采集的车辆位置数据。常见的AVL数据主要有定位数据和到离站数据两种,其中定位数据记录的是车辆的实时位置信息,到离站数据记录的是车辆到达和离开各站点的时间信息。若无特殊说明,本文所指的AVL数据均为表 2所列的到离站数据。
除了公交IC卡和AVL数据之外,公交客流OD的推导还需要线路和车辆的基础信息,其中,线路基础信息应包括线路与站点的从属关系以及站点的经纬度坐标,车辆基础信息应包括车辆编号和车牌号的对应关系。
表2 苏州市的到离站数据示例
2上车站点识别
2.1基本思路
一般而言,公交乘客应在公交车辆进站停稳后依次投币或刷卡上车,而公交车辆则应在公交乘客全部上车之后启动离开公交站台。因此,公交乘客的刷卡时间应晚于所乘公交车辆到达其上车站点的到站时间而早于对应的离站时间,见图 1。
图1 乘客上车刷卡时间与车辆到离站时间的关系示意图Fig.1 The relationship between boarding time and arrival-departure time
据此,本文提出以下基于AVL数据的上车站点识别(见图2)方法:对于任意一条公交IC卡刷卡记录i,以车辆和线路为约束条件,遍历AVL数据中的到离站时间。如果可以找到一组到离站时间(tak,tdk),使得记录i的刷卡时间tci满足式(1),则该组到离站时间对应的站点Sk即为记录i的上车站点。
(1)
式中:tak为到站时间,tdk为离站时间。
图2 基于AVL数据的上车站点识别Fig.2 Alighting location estimation based on AVL data
在实际运营中,由于车内拥挤或乘客行动缓慢(如老年人或带有大量物品),不可避免地存在车辆离站后刷卡的现象。同时对于某些大型公交站点,在多辆公交车辆排队进站时,还可能会出现车辆尚未到站就上下客的情况,从而导致到站前刷卡现象。虽然这部分刷卡记录的比例一般较低,但是为了提高上车站点的识别率,保证下车站点推导具有良好的数据基础,本文引入2个弹性时间δa和δd(δa,δd>0),对上车站点识别规则进行一定的修改,见式(2)。
tak-δa (2) 2.2公交IC卡数据时间修正 大量分析表明,国内的公交IC卡数据普遍存在时间记录不准确的问题。这主要是因为国内的公交IC卡车载终端多为离线式,其内置时钟容易发生偏差,再加上日常维护不到位,时钟偏差难以得到及时校正。这种时钟偏差所导致的刷卡时间错误,严重影响上车站点识别的准确性,因此必须予以修正。 如图 3所示,在正常情况下,公交乘客的刷卡时间应该介于对应站点的到离站时间之间。当公交IC卡的系统时钟比实际时间快时,会导致部分刷卡时间晚于车辆的离站时间,而当公交IC卡的系统时钟比实际时间慢时,则会导致部分刷卡时间早于车辆的到站时间。根据前文介绍的上车站点识别方法,刷卡时间落在到离站时间之外,则意味着无法识别上车站点,从而导致上车站点识别率的降低。 图3 公交IC卡系统与AVL系统的时间差对识别率的影响Fig.3 The influence of time difference between smart card and AVL systems on recognition rate 2.3上车站点识别步骤 上车站点的识别应以车辆为单位。对于任意一辆公交车辆,上车站点识别的基本步骤如下。 步骤1。从车辆基础信息表中读取待分析公交车辆的车辆编号和车牌号。 步骤2。从公交IC卡原始数据中,按照车辆编号提取卡编号、刷卡时间和线路编号等字段构成待分析公交IC卡数据集,并进行必要的数据清洗。 步骤3。从公交车辆的AVL原始数据中,按照车牌号提取线路名称、线路方向、站点名称、进站时间和出站时间等字段构成待分析AVL数据集,并对比线路基础数据检查数据记录的完整性。 步骤4。通过计算确定公交IC卡系统的时间误差,并以此修正公交IC卡数据的刷卡时间; 步骤5。对于任意一条修正时间后的公交IC卡记录,遍历AVL数据中的进站时间和出站时间,根据公式(2)确定的规则进行上车站点识别。 步骤6。重复步骤5,直至完成最后一条公交IC卡记录的上车站点识别。 3下车站点推导 在“一票制”收费模式下,公交乘客下车不需要刷卡,因此公交IC卡数据中不包含任何与下车相关的信息,下车站点主要是通过挖掘公交乘客的出行规律来进行推导。这里需要注意的是,一般认为公交IC卡与公交乘客之间是一一对应的,但是在“一票制”收费模式下普遍存在为同行人员刷卡付费的现象。一般而言,如果同1卡号在同1车辆上的连续2条刷卡记录的时间间隔小于对应的站点间行程时间,则可认为后1条刷卡记录即为代刷记录。本文假设同行人员之间具有相同的出行路径,也即代刷记录的下车站点与同卡号前1条记录的下车站点相同。 3.1公交出行链及其分类 对于下车站点的推导而言,最理想的情况是公交乘客的出行链为连续公交出行链,即乘客在1 d出行中全部采用的是公交方式(以及步行),而没有使用出租车、小汽车等其他方式。但是在实际出行过程中,难免会使用公交以外的其他交通方式,这样就产生了不连续公交出行链,见图4。 图4 不连续公交出行链示意图Fig.4 Discontinuous public transit trip chain 为了便于描述,笔者将出发地、目的地和中途换乘点等空间位置称之为出行节点,出行节点之间的位移过程称之为出行段,出行段和两端的出行节点共同构成基本链。根据基本链之间的位置关系,将基本链分为连续链和非连续链两大类,其中非连续链又分为尾链和孤链。如果一条基本链后面还有相连的基本链,则该基本链称为连续链,如5→1;如果一条基本链后面没有相连的基本链,但是前面有相连的基本链,则该基本链称为尾链,如1→2;如果一条基本链前后均没有相连的基本链,则该基本链称为孤链,如3→4。 从公交出行链的定义可以看到,公交IC卡记录(不包括代刷记录)是与基本链一一对应的,上下车站点则对应于出行节点。因此,可以根据出行链的相关特性来进行下车站点的推导,但是对于连续链、尾链和孤链,其下车站点推导方法上存在一定差异。 3.2连续链的下车站点识别 对于连续链,其下车站点与下1条基本链的上车站点隶属同1个出行节点。传统的最大步行距离假设认为,同一出行节点内的2个上下车站点之间的距离不超过可接受的最大步行距离(或时间)。但是在实际生活中,最大步行距离应该是针对公交站点和目的地(或出发地)而言的。如图 5所示的上车站点 和下车站点 ,虽然2个站点之间的距离超过了可接受的最大步行距离 ,但是2个站点到达其目的地 (也是出发地)的距离均在可接受的最大步行距离范围之内。 因此,本文对最大步行距离假设作了进一步推广,认为下1条基本链的上车站点在连续链下车站点的可接受步行距离(或时间)范围之内,或下1条基本链的上车站点和连续链的下车站点应该在某一共同位置的可接受步行距离(或时间)范围之内。根据以上假设,在已知下1条线路上车站点的情况下,可以通过计算和比较站点间距离(或时间)逆推上1条线路的下车站点。 图5 连续链的下车站点识推导Fig.5 The alighting location inference model for continuous public transit trip chain 对于某公交乘客的M(M>1)条刷卡记录,记第i条刷卡记录对应的公交线路为Li,线路Li上的Ni个站点按照行驶方向依次为Si1,Si2,…,SiNi,第i条刷卡记录对应的上车站点和下车站点分别为Bi和Ai,对应的站点编号为bi和ai,则有Bi=Sibi和Ai=Siai。其中,上车站点为已知。对于任意刷卡记录m,其下车站点Smbm的推导步骤如下。 步骤1。确定待筛选下车站点集合。一般而言,公交乘客可能会在上车之后的任意1个站点下车(包括上车站点),因此其在当前线路Lm上的待筛选下车站点集合应为Wm={Smk,k=bm,bm+1,…,Nm}。 步骤2。连续链判断。记待筛选下车站点集合Wm内的任意站点Smk与下1条线路Lm+1(m (3) 当m=M时,即对于最后1条刷卡记录,其下1条线路为线路L1,相应的换乘距离记为d1Mk。 步骤3。确定下车站点。如果待筛选站点集合Wm内有且仅有一个站点满足连续链条件,则该站点即为线路Lm的下车站点Am;如果待筛选站点集合Wm内存在多个站点满足连续链条件,则根据以下原则筛选: 1) 步行距离最短,即公交乘客总是希望换乘步行距离最短。 2) 车内时间最短,即当多个站点的换乘步行距离相同时,乘客会在靠前的站点(下标小的站点)下车,以减少总的出行时间。 3.3非连续链的下车站点推导 当公交IC卡记录不满足式(3)的连续链条件,或M=1,也即对应刷卡记录为非连续链时,一般是通过历史数据中的类似出行来进行下车站点的推导。如图 6所示,乘客在第n日有1次孤链出行,通过历史数据查询,发现其在第n-2日的相近时段在相同站点乘坐了同一路公交线,则可以认为2次出行的下车站点是一致的。由于居民出行的不确定性,孤链和尾链的下车站点推导很有可能会失败。 需要注意的是,孤链和尾链是相对的。通过适当调整研究时间范围,孤链和尾链有可会能转变为连续链。如图7所示的1条跨天闭合的出行链,在第n日,1→2是1条孤链;而在第n+1日,4→1是1条尾链。但是从整个出行链上来看,1→2和4→1均转变为连续链。因此,在进行非连续链的下车站点推导时,应首先判断其是否能够通过第n±1日的公交IC卡数据转变为连续链。但是,如果这条非连续链不是第n日的最后1条基本链,可以排除转变为连续链的可能。 图6 非连续链的下车站点识推导Fig.6 The alighting location inference model for discontinuous public transit trip chain 图7 不同时间尺度下的公交出行链Fig.7 Public transit trip chain at different time scales 综上所述,可以得到如图8所示的下车站点推导流程。 图8 下车站点推导流程Fig.8 The process of alighting location inference 4实例研究 4.1上车站点识别 图9 各站点上客人数分布图Fig.9 Number of boardings at each stop 根据上车站点识别结果,统计得到该车辆在沿线各站点的上车人数分布,见图 9。 4.2下车站点推导 笔者以某公交IC卡卡号(普通卡)为例,按照图 8所示的下车站点推导流程来进行下车站点的推导:首先,根据连续链条件可以判断,第2条、第6条刷卡记录属于尾链,第9条刷卡记录属于孤链,且这3条基本链均无法通过跨日组合来转变为连续链,因此无法进行下车站点推导。然后对于其他刷卡记录,按照下1次出行的上车站点在上1次出行的起点的可接受步行范围内的假设,均可以查找到合适的站点,也即下车站点都可以推导出来,具体结果见表 3。 仅从刷卡记录来看,该乘客的出行时间和乘坐线路都比较固定,基本可以判断属于通勤出行。而下车站点推导结果验证了这种判断。该乘客工作日的一般出行情况是:08:00~08:30时之间从越溪首末站南乘坐55路到东吴塔站上班,17:00~17:30时之间从东吴塔站乘坐55路返回越溪首末站附近的家,或者从东吴塔站乘坐62路去某个地方(无法推导),然后再采用其他交通方式回家。 表3 下车站点识别结果 5结束语 笔者从上车站点识别和下车站点推导2个方面,对基于公交IC卡和AVL数据的公交客流OD推导算法进行了系统梳理和改进。通过公交IC卡和AVL数据融合,提出了公交IC卡数据时间修正方法,从而提高了上车站点识别的准确性。针对连续链和非连续链之间的特性差异,分别建立不同的下车站点推导模型,并以此为基础,优化了下车站点推导流程。以苏州市的公交IC卡和AVL数据为例,对改进后的公交客流OD推导算法进行了实例研究。结果表明,所提出的公交客流OD推导算法流程清晰明了,操作实现简单,推导结果合理,已经能够满足公交客流自动分析的需求。 但由于数据条件限制,难以获取与公交IC卡数据采集时间相近的居民出行OD数据,仅能通过有限的实例推导结果的合理性来间接验证推导算法的有效性。下一步工作的研究重点是,通过可靠的公交乘客出行OD调查来对公交客流OD推导算法进行系统的验证和进一步的完善。 参考文献 [1]陈学武,戴 霄,陈 茜. 公交IC卡信息采集、分析与应用研究[J].土木工程学报,2004,37(2):105-110. CHEN Xuewu, DAI Xiao, CHEN Qian. Approach on the information collection, analysis and application of bus intelligent card[J].China Civil Engineering Journal, 2004, 37(2):105-110. (in Chinese) [2]BAGCHI M, WHITE P R. The potential of public transport smart card data[J].Transport Policy, 2005, 12(5): 464-474. [3]师富民. 基于IC卡数据的公交OD矩阵构造方法研究[D].长春:吉林大学,2004. SHI Fumin. The research of the method of generating the public transport travel OD matrix based on the data of IC card[D].Changchun: Jilin University, 2004. (in Chinese) [4]尹长勇,陈艳艳,陈绍辉. 基于聚类分析方法的公交站点客流匹配方法研究[J].交通信息与安全,2010,28(3):21-24. YIN Changyong, CHEN Yanyan, CHEN Shaohui. Bus station passenger matching method based on cluster analysis method[J].Journal of Transport Information and Safety, 2010, 28(3): 21-24. (in Chinese) [5]陈峥嵘. 智能公共交通系统数据分析方法与应用研究[D].南京:东南大学,2012. CHEN Zhengrong. Study on intelligent public transportation system data analysis methods and applications[D].Nanjing: Southeast University, 2012. (in Chinese) [6]侯 艳,何 民,张生斌. 基于公交IC卡刷卡记录的居民出行OD推算方法研究[J].交通信息与安全,2012(06):109-114. HOU Yan, HE Min, ZHANG Shengbin. Origin-destination matrix estimation method based on bus smart card records[J].Journal of Transport information and Safety, 2012, 30(6): 109-114. (in Chinese) [7]CUI A. Bus passenger origin-destination matrix estimation using automated data collection system[D].Boston: Massachusetts Institute of Technology, 2006. [8]章 威,徐建闽. 基于GPS与IC卡的公交OD量采集方法[J].交通与计算机,2006,24(2):21-23. ZHANG Wei, XU Jianmin. Approach to collection of bus OD matrix based on GPS and bus intelligent card[J].Computer and Communications, 2006, 24(2): 21-23. (in Chinese) [9]ZHAO J. The planning and analysis implications of automated data collection systems: rail transit OD inference and path choice modeling examples[D].Boston: Massachusetts Institute of Technology, 2004. [10]TRÉPANIER M, TRANCHANT N, CHAPLEAU R. Individual trip destination estimation in a transit smart card automated fare collection system[J].Journal of Intelligent Transportation Systems, 2007, 11(1): 1-14. [11]李海波,陈学武. 基于公交IC卡和AVL数据的换乘行为识别方法[J].交通运输系统工程与信息,2013,13(06):73-79. LI Haibo, CHEN Xuewu. A method to identify public transit transfers based on IC and AVL data[J].Journal of Transportation Systems Engineering and Information Technology, 2013, 13(6): 73-79. (in Chinese) [12]吴祥国. 基于公交IC卡和GPS数据的居民公交出行OD矩阵推导与应用[D].济南:山东大学,2011. WU Xiangguo. Urban public transportation trip OD matrix inference and application based on bus IC card data and GPS data[D].Jinan: Shandong University, 2011. (in Chinese) [13]陈学武,李海波,侯现耀. 城市公交IC卡数据分析方法及应用[M].北京:科学出版社,2014. CHEN Xuewu, LI Haibo, HOU Xianyao. Analysis and application of urban public transit smart card data[M].Beijing: Science Press,2014. (in Chinese) A Method for Estimating Origin-destination Matrix of Public Transit Based on Smart Card and AVL Data LI Haibo1,2CHEN Xuewu1,2▲CHEN Zhengrong3 (1.JiangsuKeyLaboratoryofUrbanITS,SoutheastUniversity,Nanjing210096,China; 2.JiangsuProvinceCollaborativeInnovationCenterofModernUrbanTrafficTechnologies, Nanjing210096,China; 3.JiangsuInstituteofUrbanPlanningandDesign,Nanjing210036,China) Abstract:The use of automated fare collection (AFC) systems and automated vehicle location (AVL) systems provides a new way to obtain origin-destination (OD) matrix of public transit. In order to improve existing algorithms, this paper develops an improved algorithm for estimating the OD matrix of public transit using smart card and AVL data, which mainly consists of boarding and alighting location data. Based on analysis of AFC data of public transit passengers, a time correction model for smart card data is developed using the AVL data, in order to improve the accuracy of boarding locations. To optimize the inference of alighting locations, this paper divides trip chains of public transit into 2 major types, continuous and discontinuous, then proposes specific alighting inference models for them according to their distinguish characteristics. The improved algorithm is applied to study the smart card and AVL data from the City of Suzhou, and its feasibility and validity is validated by the rationality of the results indirectly. The results show that the improved algorithm has an effective progress and easy to be programmed. It can be used to automate the analysis of passenger flows of public transit. Key words:big data; public transit OD; smart card data; AVL data; boarding location; alighting location 通信作者:▲陈学武(1968-),博士,教授.研究方向:城市公共交通系统规划与管理、公交优先保障体系、公交线网优化技术.E-mail: chenxuewu@seu.edu.cn 作者简介:第一李海波(1987-),博士研究生.研究方向:城市公共交通系统规划与管理、公交系统大数据挖掘.E-mail: jslihaibo@foxmail.com 收稿日期:2015-10-07修回日期:2015-11-16 中图分类号:U491.1 文献标志码:A doi:10.3963/j.issn 1674-4861.2015.06.005