基于公交IC卡数据的乘客出行分类研究
2016-05-25邓红平
李 军,邓红平
(中山大学 广东省智能交通系统重点实验室,广东 广州 510006)
基于公交IC卡数据的乘客出行分类研究
李 军,邓红平
(中山大学 广东省智能交通系统重点实验室,广东 广州 510006)
为得到体现公交乘客出行时空规律的数据,采用基于出行链方法推导出公共汽车乘客的下车站点;建立了描述单个乘客多天出行的完整数据框架;根据乘客参加不同活动所产生的出行时空特征定义了3类出行:通勤类出行、普通类出行和随机类出行,将出行频次与出发时间的标准差作为分类标准对公交乘客出行进行分类。研究表明:39.1%的乘客具有普通类或通勤类出行,生成总客流的76.4%;60.9%的乘客只具有随机类出行,生成总客流的23.6%。通过对乘客出行的分类研究可以更好地掌握乘客公交出行的规律和需求。
交通运输工程;公共交通;IC卡数据;公交出行行为;时空分析
0 引 言
公共交通自动收费系统(Automated Fare System)目前已在很多城市公共交通系统中部署,除方便乘客采用公交IC卡刷卡支付外,系统还记录了大量个体公交乘客的公交出行。相比于传统的出行调查法,自动收费系统记录的IC卡刷卡数据具有数据收集时间跨度长、自动收集、样本量大等优点;但由于系统一开始并不是为收集公交出行数据而设计的,因此很多关于出行的关键信息如上下车站点、出行目的、出行者属性等,并不记录在原始数据中。
对公交IC卡数据的研究基于两个方面:①完善的原始数据可以更好地完整描述公交乘客出行,尤其是推断上下车站点以获取OD信息。大部分公共交通系统是开放系统,即上车刷卡,下车不刷卡,因此可很好地匹配出每一次上车刷卡的站点,但下车站点的推断则较为复杂。目前已有相关学者研究了如何推断下车站点以及对推断出来的数据质量进行验证分析[1-3]。②对公交IC卡数据的研究主要集中在对数据的应用上。对于公交运营者而言,可以通过对刷卡数据的挖掘来获取公交汽车或地铁的调度管理等决策数据(如线路断面客流量等)[4],以调整发车频率与班次以更好地满足乘客的出行需求;对公交规划者而言,可以为线网的布局和调整提供数据决策支持,例如识别大范围乘客的流量与流向,评估公交线网的供给能力,从刷卡数据的层面统计出线网的特征指标以评估公交线网,包括乘客的忠诚度、线网可达性、线网换乘便利性等[4]。此外也有部分研究者通过挖掘IC卡刷卡数据以识别站点周围潜在的商业伙伴,并结合土地利用情况,达到对数据的商业利用[5]。
对公交IC卡数据应用的基础是掌握公交乘客的出行行为。如何从公交IC卡数据中获取乘客出行的规律进而利用这些规律是公交IC卡数据研究的重点。公交IC卡数据记录了大量个体公交出行者的出行数据,因此可以从非集计的角度通过多天的数据记录研究公交出行者的出行规律(主要指出行时间和空间规律)[6-8]。传统的出行调查法很难收集多天的乘客出行数据,并且被调查者往往面临较大的调查负担,调查的范围限于时间和财力成本往往比较小,因此对公交IC卡的刷卡数据提取分析可以更深入了解乘客的需求和规律。
出行需求是出行者参与活动的衍生需求,出行者往往对于活动的日程安排具有一定的规律性和稳定性。例如准时上班出门、定期购物娱乐、定期探亲访友等,这些日程安排的规律会体现在出行者的出行行为上。从出行产生的IC卡刷卡数据角度,可通过累计多天的数据记录观察得到出行者相应的出行规律,通过出发时间、活动持续时间、土地利用数据等综合判断出行者参与活动的类型[9],也可结合传统的出行调查数据建立启发式的规则判断出行目的等[10]。不同的活动会产生不同的出行时空特征,在没有其他更多的出行者社会经济属性的信息下,仅仅从产生的刷卡数据层面而言难以准确地判定出行者出行目的以及参与活动等详细信息,但根据不同的时空特征对出行者的多天出行进行分类可以判断出行者主要的公交出行需求和规律。因此笔者通过对乘客出行按不同特征进行分类以达到掌握乘客活动出行需求和规律的目的。
1 基础数据处理
笔者采用的是广州市公共交通(包含公共汽车、地铁等)的IC卡刷卡交易数据。为得到可利用的交通出行数据,首先需要补全公共汽车刷卡数据的上下车站点信息;地铁交易数据中包含进出站信息,因此这部分无需补全。
在上车站点匹配方面,采用刷卡交易数据与车载GPS报站器数据字段中的车辆编号与时间字段进行匹配[11-12],笔者采用的数据在上车站点的匹配成功率为95%。
下车站点匹配相对复杂,主要是采用基于出行链的匹配方法,首先将多天的刷卡数据记录进行融合以得到每张卡多天的按时间排序的出行刷卡记录,然后对每张卡采用如下的两种规则进行公共汽车下车站点的推断[1-2]。
规则1:若第1次刷卡上车线路的下车站点在第2次上车刷卡站点附近,则选取离第2次上车站点最近的站点为推断下车站点。考虑城市公共交通首末站700~800 m的设计覆盖半径,取中间值750 m,以尽量识别出下车站点,如图1。
图1 推断下车站点的规则1Fig.1 Rule 1 for inferring the alighting stop
规则2:若第1次刷卡上车线路与第2次刷卡上车线路相同但方向相反,则认为第2次乘坐的下车站点为第1次乘坐的上车站点,如图2。
图2 推断下车站点的规则2Fig.2 Rule 2 for inferring the alighting stop
若刷卡数据记录中既包括公共汽车也包括地铁,地铁的数据记录包含进出站信息且采用地铁网络系统内部换乘无需刷卡,因此在进行公共汽车下车站点推断时可将整个地铁系统视为一个整体而无需区分地铁的具体线路(封闭系统)。具体推断的方法流程如图3。
图3 下车站点推断流程Fig.3 Process of inferring the alighting stop
笔者采用上述方法推断出乘客下车站点的匹配率为65%,其余35%未成功匹配的数据记录中有10%不满足规则1,由于出行链断裂或者是数据缺失错误导致其他25%数据不能匹配。无法匹配下车站点的数据仍可用来进行出行行为的分析,与匹配好的数据结合仍然可以提供有价值的出行信息。
2 出行数据生成
在上述基础数据中记录的是每张卡的每一次刷卡记录,通过融合多天的刷卡数据记录,可以将单张卡的多天刷卡记录提取出来,假设一张IC卡对应一个公交出行者,那么就得到单个出行者的多天出行记录,为更加清楚地描述公交出行者在研究时段内的出行行为,建立如图4的出行数据框架。
图4 描述乘客多天出行的数据框架Fig.4 Data framework for describing each passenger’s multiday travel behavior
图4中,该框架将出行者的出行看作是在不同区域间的移动,区域是对单个公交出行者连续多天出行的上下车站点的空间聚类结果[7,13],区域内包含了若干个上车或下车站点,这些站点在空间距离上相近,聚类的过程如下。
Step1:从未被访问的上下车站点集合中随机选择一个站点(初始化时该乘客所有上下车站点均被标记为未被访问),将该站点作为一类并标记为已被访问,若所有站点全被标记为已被访问,则聚类结束。
Step2:计算该类的重心与未被访问点之间的空间距离,得到最小空间距离及其对应的站点。若最小空间距离≤1 km,则转到Step3;否则转到Step1。
Step3:将最小空间距离对应的站点归为该类,重新计算该类的重心,并将最小空间距离对应的站点标记为已被访问。若所有站点均被标记为已被访问则聚类结束,否则转到Step2。
上述聚类过程得到的每一类均为一个区域,进行这样的聚类处理目的是尽可能提取出行者的空间出行规律。例如乘客经常从O点到D点,可乘坐公交线路1从公交站A1至站B1,也可乘坐线路2从公交站A2到站B2,站A1和站A2都靠近O点,而站B1和站B2都靠近D点,实际上A1→B1和A2→B2这两类出行是同一类型的出行即从O→D;因此可以将A1和A2聚为一类标记为区域1,将B1和B2聚为一类标记为区域2,这样统一描述成为区域1到区域2的出行,可以解决由于乘客上下车站点过多造成出行杂乱不利于提取出行规律的问题。此外以区域为基本单位可以避免由于下车站点推断错误而造成的信息失真,因为推断出来的下车站点可能离真实的下车站点有一个或两个的站间距(在乘坐线路真实下车站点的下游或上游),通过聚类的处理仍然可以确定乘客下车的真实区域从而避免了出行信息的失真。
该框架包含了区域属性、出发地与目的地关系、站点属性、出行者属性等4个部分,用以完整描述出行者在研究时段内的出行。
区域属性:包含区域的编号、出发次数(上车站点在该区域内)、到达次数(下车站点在该区域内)、区域重心坐标(以经纬度表示)、平均出发时间(从该区域出发的平均上车时间)。
出发地与目的地关系:描述一个区域与另一个区域之间的出行,具有方向性。例如从区域i到区域j与从区域j到区域i是不同的两条记录,包含出发地区域、到达地区域、出行次数、平均出发时间、出发时间标准差。
站点属性:描述区域内的站点,包括所属区域、站点编号、出发次数、平均出发时间、出发时间标准差。
出行者属性:包括卡号、总出行次数(等于研究时段内刷卡记录条数)、有效出发次数(所有能匹配上车站点的记录条数)、有效到达次数(所有能匹配下车站点的记录条数)、卡类型。
为更好描述单个出行者的出行,约定几个关键参数的符号:记出行者所有出行区域集合为L;区域i的出行次数为Ci(出发次数与到达次数之和);对任意的i∈L,有:C1≥C2≥C3…,也即是对区域编号时按照出行次数从高到低进行排列。记区域i与区域j之间的出行次数为Rij(从i到j与从j到i的出行次数之和)。记区域i的平均出发时间为Ti,h;出发时间的标准差为σi。
通过建立完整描述出行者的出行数据框架,可以更容易清晰地了解出行者的出行,为进一步活动出行的分析奠定基础。
3 出行分类
通过上述对基础数据补全和出行数据的生成,可以掌握大量个体公交出行者的出行轨迹数据。不同活动会产生不同类别的出行,在研究时段内产生的数据蕴含了不同类别的出行特征,通过分析数据对出行进行分类可以了解出行者参加的活动,而这些活动对于单个出行者而言往往是稳定和具有规律性的。因此通过对出行者的出行进行分类可以发现出行或活动的规律,笔者定义并研究了以下3类出行。
1)通勤类出行:这一类的出行是出行者参加强制性活动产生的,例如上班、上学等,这类活动对时间和空间有着强制性的要求,因此,这类出行具有最明显的时间和空间规律性,表现为出行时间和出行地点较为固定。
2)普通类出行:这一类出行是出行者参加其他诸如购物、探亲访友等活动产生的,这类活动出行的时间并不固定,但在空间上表现出一定的规律性,例如总是去同一个商场超市购物、经常去某地探望朋友等,将这一类的出行定义为普通类出行。
3)随机类出行:这一类的出行往往不具有特定的时间和空间规律,比如娱乐活动等,往往出行者参加过一次或几次类似活动后便不再参加,将这一类出行定义为随机类出行。
在定义了以上3类出行之后,需要从掌握的数据角度来设置分类的标准,也即是从生成的出行数据中根据出行类别的特征设置分类标准对出行进行分类。笔者主要采用了出行频次Rij和出发时间标准差σi进行判别[14]。
3.1 通勤类出行判断标准
若区域i与区域j之间的出行次数满足Rij≥ε(ε为正整数,表示出行频次),且σi<1或σj<1(即是出发时间的标准差在1 h之内),则认为区域i与区域j之间的出行为通勤类出行,将这一类标记为S0类。若判断出有多个区域之间的出行满足判断标准,则取出行频次最高或平均出发时间Ti最小的那一类为S0类。
例如乘客经常乘坐线路1从站A至站B去上班,那么除了可以观测到从A至B较高的频次外,还可以观测到从A出发时间的标准差也会较小,表明经常按时乘坐线路1,因此根据这样的特征来判断是否是通勤类出行。
3.2 普通类出行判断标准
若区域i与区域j之间的出行次数满足Rij≥ε(ε为正整数,表示出行的频次),σi≥1且σj≥1(即是出发时间的标准差>1 h),则认为区域i与区域j之间的出行为普通类出行。如果有多个区域之间的出行满足判断标准,则按照出行频次的大小标记为:S1,S2,S3,…。例如区域i与区域j、区域i与区域k之间的出行均满足此类判断标准;若Rij≥Rik,则将区域i与区域j之间的出行标记为S1类,区域i与区域k之间的出行标记为S2类。
3.3 随机类出行判断标准
若区域i与区域j之间的出行次数满足Rij<ε,则认为区域i与区域j之间的出行为随机类出行。
仅根据出行的数据来判断出行的分类,对所有出行者而言没有统一的判断标准可以采用,因此判断标准的参数ε取值的原则是尽可能对大多数出行者的出行轨迹进行分类并尽量保证分类结果可以反应出行者的活动情况,以描述大多数出行者的规律,同时可以根据实际应用的需要选取不同的值。
4 结果分析
笔者采集了广州市2014年1月6—12日,3月10—16日,4月21—27日,5月5—11日,6月2—8日共计5周35 d的IC卡刷卡数据。其中有17 d的数据包含地铁的刷卡数据,数据记录的条数为2.2亿条。对公共汽车的上车站点匹配成功率为95%,对公共汽车下车站点的匹配成功率为65%,加上地铁刷卡数据,总共有72%的数据记录具有下车站点。所有数据采用SQL Server存储管理,采用C++进行数据的处理,采用一台小型工作站承担大量的数据运算和处理任务。
4.1 出行者分析
通过对上述基础数据的补全和出行数据的生成,得到了998万张公交IC卡的出行信息。在进行出行分类的过程中,先取分类参数ε=4,即判断区域之间的出行频次是否大于4,若大于4即为通勤类或普通类出行,小于4即为随机类出行,进而进一步判断出行时间标准差σ的值,若σ<1则为通勤类出行;若σ≥1则为普通类出行。在这里设置的标准ε=4较低,目的是尽可能先对每张卡的出行进行分类,分类的结果如下:
有39.1%的卡(约391万张)具有普通类出行或者通勤类出行类别,其中有245万张卡具有通勤出行类别。这部分的出行者并不一定是高频次的出行者,但高频次的出行者占有较高比例,其出行相对集中,其出行生成的客流占据了总客流的76.4%。
有60.9%的卡(约607万张)只有随机类出行,不具有明显的出行规律。这部分出行者并不一定是低频次的出行者,但低频次的出行者占有较高比例,出行相对分散,其出行生成的客流占据了总客流的23.6%。
目前广州公交IC卡发行量已经累计2 600万张,而在研究时段内统计到具有刷卡记录的卡片数为998万张,除去退换的IC卡外,IC卡的遗失废弃率仍然较高。
对单个出行者而言,出行者会参与多种活动,在研究时段内会产生多个不同类别的出行(例如通勤类出行和多个普通类出行可能同时存在)。图5统计了39.1%的持卡乘客(约391万张)。经过分类所含有的出行类别(不包括随机类出行)的数量分布。这种出行类别的数量实际上反映了乘客的出行结构和参与活动类型的多少,出行类别越多说明出行结构越复杂,参与活动的种类越多。
图5 普通类或通勤类乘客出行类别数量分布Fig.5 Quantity distribution of passenger’s travel types,including commuting travel type and the ordinary type
从图5可以看出,绝大部分出行者的出行种类数量较少,出行者的出行较为集中,这为明确出行者的出行规律和出行需求带来了便利,因此重点关注前5类的出行。
4.2 出行分类分析
经过分类判断,有245万张卡具有通勤类出行,将通勤类出行标记为S0类。图6统计了S0类中含有的出行次数Rij的分布。
图6 通勤类包含的出行次数分布Fig.6 Travel frequency distribution of commuting type
从图6可以看出,出行次数在5次时所占的比例最高,通勤类中平均的出行次数为11.7次,此外在245万张卡中还有1.45%的持卡乘客的通勤类出行次数大于35次,通勤类出行次数越多,说明乘客出行的通勤特征越明显。除统计出行的绝对次数,还统计了通勤类出行在出行者总出行次数中所占的比例,平均所占比例为35%。
无论包含的平均出行次数还是在出行中所占比例均偏低,主要有如下几个原因:①分类参数的设置较低,从图6中可以看到,较低的次数占据了较大的比例;②出行者的通勤出行在返程时并不一定按照原来的线路返回,例如下班之后并不一定立即回家而是参加其他活动;③其他交通方式的影响,例如出行者上班可能乘坐出租车,下班乘坐公交等。
图7统计了普通类出行S1,S2,S3,S4,S5中包含的平均出行次数以及在总出行次数中的平均占有比例。
图7 普通类出行包含的平均出行次数和占总出行的平均比例Fig.7 Average travel times of normal travel type and average proportion in the total travel
每一类出行均代表了出行者参加的某一类活动。从图7中可以看出,相比于通勤类出行,就乘客出行结构中的各类平均出行占比而言,通勤类出行仍然占有较大的比例。
4.3 参数灵敏度分析
以上的结果是选取分类参数ε=4次时得出的,选取ε不同的值进行参数灵敏度分析。表1展示了ε取不同值时各类包含的平均出行次数变化。
表1 ε取不同值时各类包含的平均出行次数值
从表1可以看出,随着ε的增加,各类包含的平均出行次数也逐渐增加。ε越大,平均出行次数也越大,而实际上随着ε的增大,满足分类标准且出行类别较多的人数减少,ε的增加可以识别出高频次有规律出行的持卡乘客。表2展示了ε取不同值时满足分类标准的持卡乘客数。
表2 ε取不同值时满足分类标准的人数
当ε越小,所分出的类别随机性也越大,即分出的普通类或者通勤类可能实际上是出行者的随机出行类;而当ε越大时,这种随机性变小,出行分类结果越显著,更能代表出行者参与的活动。可以根据实际应用的需要选择不同的值。
5 结 语
笔者对采集到的公交IC卡刷卡数据进行了如上所述的上下车站点推断,以补全公交出行者出行的空间信息,随后建立并生成了描述个体公交出行者在研究时段内的数据框架,之后对出行者的出行采用一定的分类标准将出行分成了通勤类、普通类和随机出行类。
通过探讨公交IC卡刷卡数据研究个体的活动出行,对出行进行分类以掌握出行者参与活动的规律。虽然仅仅通过刷卡数据难以判断出行者参加活动类别、出行目的,但仍然可以通过对个体公交出行者的出行轨迹分析明确在个体出行层面上的规律和需求,这种需求对于出行者而言更加稳定和具有规律性,相比于传统的集计分析可以从交通发生的本源来了解交通需求。
笔者未来的研究重点在于,根据已经掌握的大量个体公交出行者的出行规律,预测个体公交出行者的出行,包括出行的时间、地点等,并对结果进行验证。
[1] CHEN Jun, YANG Dongyuan. Estimating smart card commuter’s origin-destination distribution based on APTS data[J].JournalofTransportationSystemsEngineeringandInformationTechnology,2013,13(4):47-53.
[2] MUNIZAGA M A, PALMA C. Estimation of a disaggregate multimodal public transport origin-destination matrix from passive smartcard data from Santiago, Chile[J].TransportationResearchPartC:EmergingTechnologies,2012,24:9-18.
[3] ZHAO Jinhua, RAHBEE A, WILSON N H M. Estimating a rail passenger trip origin-destination matrix using automatic data collection systems[J].Computer-AidedCivilandInfrastructureEngineering,2007,22(5):376-387.
[4] PELLETIER M-P, TRÉPANIER M, MORENCY C. Smart card data use in public transit: a literature review[J].TransportationResearchPartC:EmergingTechnologies,2011,19(4):557-568.
[6] SUI Tao, ROHDE D, CORCORAN J. Examining the spatial-temporal dynamics of bus passenger travel behaviour using smart card data and the flow-comap[J].JournalofTransportGeography,2014,41:21-36.
[7] MA Xiaolei, WU Yaojan, WANG Yinhai, et al. Mining smart card data for transit riders’ travel patterns[J].TransportationResearchPartC:EmergingTechnologies,2013,36:1-12.
[8] NISHIUCHI H, KING J, TODOROKI T. Spatial-temporal daily frequent trip pattern of public transport passengers using smart card data[J].InternationalJournalofIntelligentTransportationSystemsResearch,2012,11(1):1-10.
[9] CHAKIROV A, ERATH A. Activity identification and primary location modelling based on smart card payment data for public transport[C]// 13thInternationalConferenceonTravelBehaviourResearch. Toronto: Avebury Records,2012.
[10] LEE S G, HICKMAN M. Trip purpose inference using automated fare collection data[J].PublicTransport,2014,6(1):1-20.
[11] 杨万波,王昊,叶晓飞,等.基于GPS和IC卡数据的公交出行OD推算方法[J].重庆交通大学学报(自然科学版),2015, 34(3):117-121. YANG Wanbo, WANG Hao, YE Xiaofei, et al. OD matrix inference for urban public transportation trip based on GPS and IC card data[J].JournalofChongqingJiaotongUniversity(NaturalScience),2015,34(3):117-121.
[12] 于勇,邓天民,肖裕民.一种新的公交乘客上车站点确定方法[J].重庆交通大学学报(自然科学版),2009,28(1):121-125. YU Yong, DENG Tianmin, XIAO Yumin. A novel method of confirming the boarding station of bus holders[J].JournalofChongqingJiaotongUniversity(NaturalScience),2009,28(1):121-125.
[13] KIM K, OH K, LEE Y K, et al. An analysis on movement patterns between zones using smart card data in subway networks[J].InternationalJournalofGeographicalInformationScience,2014,28(9):1781-1801.
[14] CHU K K A, CHAPLEAU R. Augmenting transit trip characterization and travel behavior comprehension[J].JournaloftheTransportationResearchBoard,2010,2183(1):29-40.
Classification of Passenger’s Travel Behavior Based on IC Card Data
LI Jun, DENG Hongping
(Guangdong Key Laboratory of Intelligent Transportation Systems, Sun Yat-Sen University, Guangzhou 510006, Guangdong, P. R. China)
To obtain the data of the spatial and temporal patterns of public transit passengers, the first step was to infer the alighting stop for each cardholder based on trip chain method, and then a full data framework was established for describing each passenger’s travel behavior in several days. Meanwhile, three types of travel were defined derived from passenger’s different types of activity in terms of temporal-spatial characteristics, including the commuting travel type, the ordinary type and the random travel type. Finally, each passenger’s travel was classified into the above three types according to travel frequency and the standard deviation of departure time. The result of classification shows that about 39.1% of total passengers have the commuting type or ordinary type and these passengers generate about 76.4% of total passenger flow; about 60.9% of total passengers only have random travel type and these passengers only generate about 23.6% of total passenger flow. It is possible to obtain the public transit passenger’s travel pattern and demand at a much more detail level by classifying each passenger’s multiday travel behavior.
traffic and transportation engineering; public transit; IC card data; transit travel behavior; spatial-temporal analysis
2015-04-02;
2016-08-11
国家自然科学基金项目(51178475)
李 军(1968—),男,湖北武汉人,副教授,博士,主要从事交通工程、交通经济与智能交通系统及优化方面的研究。E-mail:stslijun@mail.sysu.edu.cn。
邓红平(1992—),男,四川南充人,硕士,主要从事交通工程与智能交通方面的研究。E-mail:denghp3@mail2.sysu.edu.cn。
10.3969/j.issn.1674-0696.2016.06.23
U121
A
1674-0696(2016)06-109-06