基于乘客行为的上车站点识别

2017-05-24张朝阳李学明

现代计算机 2017年11期

关键词：刷卡换乘站点

张朝阳，李学明

（重庆大学计算机学院，重庆 400044）

基于乘客行为的上车站点识别

张朝阳，李学明

（重庆大学计算机学院，重庆 400044）

利用换乘信息识别乘客上车站点的算法，当乘客前后两次乘坐的公交线路不止一个交点时，可识别站点数量少，导致乘客上车站点识别准确率低。针对这一问题，提出基于乘客行为的上车站点识别：对IC刷卡数据进行分组，然后基于地铁换乘，确定部分乘客的上车站点，并将数据切分为多个子段，再通过公交换乘，确定部分数据组的上车站点。最后通过比例关系，得到所有IC刷卡数据组的上车站点。试验表明，该算法具有较高的准确率。

公交IC刷卡数据；上车站点识别；数据挖掘

0 引言

在科技高速发展的今天，越来越多的城市的公共交通系统也进入了智能化与数字化的时代。如一些公共交通的缴费过程采用IC卡刷卡收费的方式来代替传统的人工收费或者现金投币等方式。这种缴费方式为公民出行提供了方便，使付费过程变得简单而流畅[1]。在日常生活中，公交IC卡与公民存在一一对应的关系，公民的出行行为记录在IC刷卡数据中。随着IC卡使用的普及，公民IC刷卡数据大量积累，公共交通系统数据库中存储下了大量的公民IC刷卡时产生的出行记录等数据。IC刷卡数据具有数据量大、数据可靠、实时性强、获得途径方便简单等优点。利用IC刷卡数据对公民出行进行研究，可以得到更为可靠、客观的公民出行规律。但是，IC刷卡数据中往往只记录了IC卡号、上车刷卡时间等信息，信息较为残缺。乘客上车站点需要通过一些算法进行识别。

1 研究现状与问题提出

目前，国内外上车站点识别算法主要分为两类，基于公交运营数据的上车站点识别，以及基于GPS数据的乘客上车站点识别。基于公交运营数据识别上车站点时，需要结合公交IC刷卡数据、线路站点信息表、公交运营数据这三类数据。戴霄[2]、余勇[3]、舒国辉[4]、尹长勇[5]等通过聚类IC刷卡数据，对其进行分组，然后根据线路站点信息表、公交运营数据计算车辆到站时间，最后对IC刷卡数据组和到站时间进行匹配，得到乘客上车站点。基于GPS数据识别上车站点时，需要结合公交IC刷卡数据、线路站点信息、车载GPS数据这三类数据。Barry[6]、Zhao[7]、Martin[8]、戴维[9]、陈君[10]、李海波[11]等利用IC刷卡数据和GPS数据融合，得到乘客刷卡位置，进而得到乘客上车站点。

但是，由于成本高等原因，很多城市没有为车辆配备GPS等系统。此外，公交运营数据多为纸质数据，容易丢失。在缺少GPS数据和公交运营数据的前提下识别乘客上车站点，目前，较少专家学者对于这个问题展开研究。张颂[12]、赵鹏[13]、宋晓晴[14]根据换乘计算乘客上车站点。利用换乘判断乘客的上车站点，当乘客先后乘坐的两条公交线路有且仅有一个交点时，根据乘客就近换乘的特点，可以判断出两条线路的交点就是乘客乘坐第二条线路公交车时的上车站点。但是，当乘客先后乘坐的两条公交线路有多个交点时，通过查找该分组其他公交换乘乘客的换乘站点情况，若两个乘客的换乘站点中只有一个共同站点，就将这个站点作为该组的上车站点。这种方面能部分解决公交线路多交点的问题，但是仍有局限性。例如当乘客间有多个相同的换乘站点时，这个方法就失效了。

针对以上这些问题，在缺少公交运营数据和GPS数据的情况下，本文结合乘客的乘车习惯和特征，提出基于乘客行为的上车站点识别算法。

2 基于乘客行为的上车站点识别

利用公交换乘判断乘客的上车站点，算法主要步骤为：①划分单程；②判断行车方向；③分组IC刷卡数据；④识别匹配组；⑤匹配待定组。本文提出的算法，在沿用上述算法的第①、②步计算出单程和行车方向后，主要改进IC刷卡数据的分组、匹配组的识别。

算法流程如图1所示。

图1 算法流程

2.1 分组IC刷卡数据

公交IC刷卡数据具有周期性时间聚集性，根据这一特性，可以将IC刷卡数据进行分组。在以往的研究中，专家学者主要使用层次聚类法进行分组。该过程描述起来比较简单，但时间复杂度与空间复杂度较高。针对这一问题，本文提出顺序标记法，分组IC刷卡数据。根据目标线路的总长度和单程平均行驶时间，计算车辆的平均行驶速度v。从线路站点信息中找出目标线路最短的站间距min（Dk，k+1），根据公式（1），计算时间阈值Tmin。

令ti表示第i个刷卡记录的刷卡时间，为了方便计算，设t0=t1。令T（ti，ti-1）表示第i个刷卡记录与第i-1个刷卡记录之间的时差，令x表示分组序号，则计算步骤如下：

（1）取出单程中所有刷卡记录，并按刷卡时间的先后顺序排序；

（2）令x=1，i=1；

（3）若T（ti-ti-1）〈Tmin，则用分组序号x标记第i个刷卡记录；

（4）若T（ti-ti-1）＞Tmin，则令x=x+1，用分组序号x标记第i个刷卡记录；

（5）令i=i+1，重复（3）、（4）步，直到单程中所有刷卡记录都被标记完毕。

将分组序号相同的IC刷卡记录作为一个IC刷卡数据组。

2.2 确定匹配组

匹配组的确定分为两个步骤。首先，根据地铁换乘信息确定匹配组和匹配站。根据匹配组和匹配站，将IC刷卡数据组与目标线路的公交站点进行切分，切为多个子段。再通过公交换乘，在各个子段中确定匹配组和匹配站，并将子段切分为更小的子段。主要步骤如下所示。

（1）地铁换乘的利用

乘客由地铁换乘公交时，通常会选择公交线路上离地铁站最近的站点作为换乘站点。针对这个特点，本文通过限制地铁换乘时间和换乘距离，计算换乘乘客上车站点。

算法过程：对单程中所有乘客，从第一个乘客的全天刷卡记录开始判断。若目标线路刷卡记录的前一条记录为地铁刷卡记录，并且两条刷卡记录的刷卡时间差小于20分钟，并且地铁刷卡记录中出站站点与目标线路有小于500米的相邻站点，则目标线路中离该地铁站点最近的站点，即为乘客换乘站点。

遍历完所有乘客的全天刷卡记录，得到了一个单程中所有满足地铁换乘条件的乘客的上车站点，那么这些乘客的上车站点即为乘客所在IC刷卡数据组的上车站点。

已识别出上车站点的IC刷卡数据组称为匹配组，对应站点称为匹配站。未识别出上车站点的IC刷卡数据组称为待定组，公交站点中除去匹配站的站点，称为待定站。

根据得到的匹配组和匹配站，可以将剩余IC刷卡数据组和未匹配公交站点切分为多个子段。如图2所示。图中，两个匹配关系将数据组和站点切分为3个子段。

图2 匹配模型

（2）公交换乘的利用

本文将公交换乘限定为：①乘客前后两次刷卡的时间差小于60分钟；②乘客前后两次乘坐的公交线路有交点。两条公交线路相交，可能只有1个交点，也可能有多个交点。本文引入候选站点集、候选站点权重集的概念，通过地铁换乘对候选站点进行筛选，并计算站点权重，得到部分IC刷卡数据组的上车站点。

由于一个单程中刷卡记录之间的刷卡时间是个时序关系，所以有：如果待定组A的刷卡时间在匹配组B之前，则待定组A中乘客可能的上车站点必然在匹配组B对应的上车站点之前；如果待定组A的刷卡时间在匹配组B之后，则待定组A中乘客可能的上车站点必然在匹配组B对应的上车站点之后。基于以上规则，在地铁换乘切分的子段中，根据乘客j所在的待定组与切分出这个子段的匹配组之间刷卡时间的先后关系，可以将乘客j的候选站点集中的站点进行筛选，剔除掉不合理的候选站点。此时，乘客j的候选站点集为

式中，m表示筛选后乘客j的候选站点集中站点的个数，候选站点集中存储候选站点的站点序号。

由于乘客在各个候选站点发生换乘行为的概率相同，所以令各候选站点的权重相同。经过筛选后，乘客j的候选站点权重集：

各个候选站点的权重值为：

若每个待定组中有s个乘客，其中有t（0≤t≤s）个乘客是公交换乘乘客。则该待定组的候选站点集为t个公交换乘乘客的候选站点集的并集。

待定组候选站点集：

待定组的候选站点权重集为：

各个候选站点的权重值为：

式中，wij表示站点i在换乘乘客j的候选站点集中的权重值。若换乘乘客j的候选站点集不含站点i，则=0。

通过上述步骤，可以得到待定组的候选站点集和候选站点权重集，在候选站点权重集中找到最大的权重值，将权重值对应的候选站点记为待定组的上车站点，并将该待定组标记为匹配组，上车站点标记为匹配站。

根据新得到的匹配组和匹配站，可以将剩余IC刷卡数据组和未匹配公交站点切分为更小的子段。

则待定组的候选站点权重集W={wd，we，wf，wh}={5/ 6，4/3，1/2，1/3}。

所以站点d为该IC刷卡数据组对应的上车站点。

2.3 匹配待定组

待定组的匹配过程沿用张颂[12]提出的利用最大相似性原理，在各个子段中比较待定组之间的刷卡时间间隔与待定站间公家车行驶时间的偏差，完成匹配。子段切分得越小，匹配正确率越高。

3 试验与结果

本文以重庆市某路公交线路为例，以该线路工作日中所有刷卡记录为实验数据。该工作日共有13436条刷卡记录，有10243个乘客乘坐该线路，计算乘客行为所涉及刷卡记录近30000条，涉及公交线路近100条。

本文的验证数据是用车载GPS数据计算出的IC刷卡记录的上车站点数据。用这一数据验证本文所提算法的正确率。

对试验数据分别采用时间匹配法（该算法是指在IC刷卡数据分组后，直接根据相似性原理识别上车站点）、换乘识别法、本文算法进行站点识别。乘客上车站点识别算法的评估指标为识别的准确率。令NR表示正确识别上车站点的IC刷卡记录的数量，令N表示目标线路全天IC刷卡量。准确率的计算方式为：

三个算法的准确率比较如表1所示。

表1 不同算法的准确率比较

时间匹配法由于假设第一个刷卡记录产生于公交线路的第一站，而实际中第一站可能没有乘客刷卡上车，因而导致后面的站点匹配错位，所以误差较大。换乘识别法和本文算法在确定部分匹配组后，以匹配组为基准进行相似性匹配，准确率大幅提高。本文算法相较于换乘识别法，能识别出更多匹配组，上车站点准确率更高。

4 结语

本文提出了基于乘客行为的上车站点识别算法，该算法通过地铁换乘，确定部分IC刷卡数据的上车站点，并切分子段，在各个子段上计算IC刷卡数据组的公交换乘候选上车站点的权重，根据权重确定数据组的上车站点，进而切分出更小的子段，最后将子段中的IC刷卡数据组和站点匹配，得到所有IC刷卡数据的上车站点。试验结果表明，本算法提高了上车站点识别的准确率。

[1]娄琰琰,董傲霜,刘丽瑶．非接触IC卡在公交自动收费系统中的应用[J]．沈阳工业大学学报,2002,24（5）:443-446．

[2]戴霄,陈学武．单条公交线路的IC卡数据分析处理方法[J]．城市交通,2005,3（4）:73-76．

[3]于勇,邓天民,肖裕民．一种新的公交乘客上车站点确定方法[J]．重庆交通大学学报自然科学版,2009,28（1）:121-125．

[4]舒国辉．基于数据挖掘的公交客流规律研究[D]．北京交通大学,2009．

[5]尹长勇,陈艳艳,陈绍辉．基于聚类分析方法的公交站点客流匹配方法研究[J]．交通信息与安全,2010,28（3）:21-24．

[6]Barry J J,Freimer R,Slavin H L．Use of Entry-Only Automatic Fare Collection Data to Estimate Linked Transit Trips in New York City[J]．Transportation Research Record Journal of the Transportation Research Board,2009,2112（2112）:53-61．

[7]Zhao J,Rahbee A,Wilson N H M．Estimating a Rail Passenger Trip Origin-Destination Matrix Using Automatic Data Collection Systems[J]．Computer-Aided Civil and Infrastructure Engineering,2007,22（5）:376-387．

[8]Martin Trépanier,Nicolas Tranchant,Robert Chapleau．Individual Trip Destination Estimation in a Transit Smart Card Automated Fare Collection System[J]．Journal of Intelligent Transportation Systems Technology Planning&Operations,2007,11（1）:1-14．

[9]戴维．基于IC卡数据和公交车GPS信息的公交OD矩阵推算[D]．华中科技大学,2009．

[10]陈君,杨东援．基于智能调度数据的公交IC卡乘客上车站点判断方法[J]．交通运输系统工程与信息,2013,13（1）:76-80．

[11]李海波,陈学武,陈峥嵘．基于公交IC卡和AVL数据的客流OD推导方法[J]．交通信息与安全,2015（6）:33-39．

[12]张颂,陈学武,陈峥嵘．基于公交IC卡数据的公交站点OD矩阵推导方法[J]．武汉理工大学学报交通科学与工程版,2014（2）:333-337．

[13]赵鹏．基于成都公交IC卡数据的乘客上下车站点推算方法研究[D]．西南交通大学,2015．

[14]宋晓晴,方志祥,尹凌,等．基于IC卡综合换乘信息的公交乘客上车站点推算[J]．地球信息科学学报,2016,18（8）:1060-1068．

Identification of Boarding Station Based on Passenger Behavior

ZHANG Chao-yang，LI Xue-ming

（College of Computer Science,Chongqing University,Chongqing 400044）

Utilizes transfer to identify the boarding station of passengers,when there is more than one intersection of the two bus lines,the number of station can be identified less,resulting in the lower accuracy in identified boarding station of passengers．In order to solve this problem, proposes an algorithm for boarding station identification based on passenger behavior．First,the IC card data are grouped．Then,based on the metro transfer,the boarding stations of passengers are determined and the data is divided into multiple sub-segments．In addition, uses bus transfer to determine the boarding stations of some group．Finally,through the proportional relationship,gets all the boarding stations corresponding to IC card data group．The experimental results show that this method has a high accuracy．

IC Card Riding Data;Identification of Boarding Station;Data Mining

1007-1423（2017）11-0047-05

10.3969/j.issn.1007-1423.2017.11.009

张朝阳（1991-），女，河南洛阳人，硕士研究生，学生，研究方向为数据挖掘

2017-03-21

2017-04-10

李学明（1967-），男，重庆人，博士，教授，研究方向为数据挖掘、大数据处理