APP下载

基于公交IC卡客流数据的站点匹配方法

2017-07-05周思源刘佳雨陈佳宜任越

电子技术与软件工程 2017年12期
关键词:聚类分析

周思源++刘佳雨++陈佳宜++任越++窦万峰

摘 要公共交通已成为市民出行的重要交通工具,分析研究公共交通客流数据并对相关规律进行分析,有助于掌握市民出行规律,并依此优化城市公交网络。在已有聚类分析方法的基础上,本文基于公交IC卡刷卡数据的多个类聚点,提出一种通过GPS定位、乘客“闭环”出行、以及出行规律等条件,对已聚类点进行上车站点的匹配和下车站点判断方法。利用公交IC卡数据可得到满意地匹配和推断上、下车站点,为研究大规模出行规律提供基础。

【关键词】公交IC卡 聚类分析 站点匹配

1 K-means聚类方法的局限与改进

K-means聚类算法是目前聚类算法中十分普遍常用的算法。K-means算法高效便捷、简单快速,但是在实际的操作中我们不难发现,K-means算法在确定初始K值、初始凝聚点确定等问题上仍存在很大的不确定性。加之K-means算法采用欧几里得距离最为相似性度量的依据,而欧几里得距离仅适用于分布均匀且呈类球形的数据,实际使用过程中会出现很多问题,为此,我们对K-means聚类算法提出了改进。

该算法对两个数据之间的距离进行测量。当两个数据之间的距离较远时,结果值较大;完全一致时结果值为0。m作为不同簇的生成值中心点,n作为等待划分点。当等待划分点与中心点距离接近时,两个值的差距较小,即K-means值越小;当等待划分点与中心点一致时,K-means值则为0。作为K-means聚类方法的改进,该算法也可用于其他类型的数据。其公式可表示为:

其中,mj代表第j类的生成值中心点,ni代表第i个等待划分点。该公式的使用条件是mj和ni为非负数。当和中不全为正数时,令

。当mj与ni距离越大时,的值越大。

2 上车站点匹配

已知研究的公交线路有m个站点,利用上述方法可将实验数据聚类成n个点。通过比较n与m之间的关系,可以将已类聚的点与对应车站进行匹配。在聚类方法正确的情况下,将不会出现mn时,说明公交车在行驶过程中有过站未停车现象,也就是我们俗称的“跳站”。目前,部分城市正在推进公交GPS的应用,但仍未完全普及。本文依次提出利用GPS数据和不利用GPS数据两种匹配上车站点的方法来完成m>n情况下的上车站点匹配。而基于乘客出行的规律性及当前中国公交站点分布的规律性与稳定性,我们将利用乘客的上车信息推算其下车信息。前文中,我们已讨论了基于IC卡刷卡信息得到其上车站点的方法。根据上车站点的关联程度,我们可以以出行线路是否呈现"闭合"状态为判定条件,从而进一步加以研究。

2.1 利用GPS数据匹配上车站点的方法

该方法将GPS数据与公交IC卡数据进行混合处理,通过公交车辆在不同站点的行驶时间与乘客的刷卡时间进行比对,从而将地理信息位置和乘客的上车站点进行匹配。在基于GPS技术的公交站点匹配上由于GPS数据存在延时性,即非实时数据,因此与公交车辆的实时地理位置存在一定偏差,需要量化两者的时间偏差,由于不同的公交系统GPS数据延时不同,本文对该偏差不予以考虑。

匹配步骤如下:

步骤1:获取同一聚类点下乘客刷卡的交易时间,依据不同乘客的刷卡时间,确定一个可以代表此批次乘客刷卡时间的特征时间点。

步骤2:将步骤一中获得的特征时间点与对应线路、车辆的记录时间进行匹配,获取该时刻下的经度与纬度。

步骤3:将步骤二中获得的坐标与对应公交线路的坐标进行匹配,求得对应公交线路中直线距离最小的公交站点。

步骤四 求得直线距离最小的车站,即为该聚类点匹配的上车点。

2.2 不利用GPS数据匹配上车站点的方法

由于日常生活中存在交通拥堵或者某站点没有乘客上下车等问题,因此根据居民的出行规律将公交线路在不同站点的时间间隔进行划分。根据实际调研及相关数据处理,以南京市栖霞区为例,获得该区域内交通高峰调查结果如表1所示。

同时,将大量实际调研数据进行分析,可以推断出公交车相邻两站运行时间间隔的阈值,部分调查结果如表2所示。

主要处理步骤如下:

步骤1:依次将聚类得到点按时间顺序与已有站点匹配,并依据表1中信息判断时间是否属于高峰时段。

步骤2:在表2中寻找其相邻两站运行时间阈值。若小于阈值,则代表两站相邻;若大于阈值,则代表“跳站”行驶。

步骤3:以此类推,完成所有站点的匹配。

2.3 “闭合”公交出行线路下的下车站点推算

所谓的“闭合”出行线路,是指某乘客某次出行经过多次公交换乘后的起止点均为同一地点,且换乘过程中连续。图1表示该乘客某次出行乘坐公交的过程为从A点连续换乘5次公交依次到达B点、C点、D点、E点并返回至A点的过程。

在这种情况下我们可以发现,每次乘坐公交的上车点与上次乘坐的下车点距离极近甚至重合。由此,我们可以在推算下车站点时,可以通过下一次乘坐记录的上车点位置得出结论。从数据需求的角度,一方面,我们需要前期收集某城市的公交站点位置、车辆线路(来与回的同路公交线路标注不同的线路号,包含停靠站点及相应方向的上下游位置)等信息;另一方面,我们需要通过IC卡号查询出某乘客当日的所有上车信息,包括站点位置、上车时间、车辆线路号等。

“閉合”线路判断条件:对某乘客当日的所有上车站点根据时间排序后,对于每一次上车信息,都满足下一次上车站点在此次上车线路号包含的某一个下游站点附近。

根据单次“闭合”线路的推算并推广到多次,我们可以进一步分析出此种出行线路是否具有长期性规律。

2.4 非“闭合”公交出行线路下的下车站点推算

所谓的非“闭合”线路,是指某乘客某次出行乘坐的公交线路不满足上一部分中“闭合”线路的要求,如图2。该图表示该乘客某次出行从A点换乘4次公交依次到达B点、C点、D点、E点,最后采用其他交通方式,返回至A点的过程。

在这种情况下,我们很难用上一节中的方法进行推算。由于居民长期的公交出行线路较为稳定,因此我们可以进一步分析该乘客多日的出行线路,尝试得出规律。

通过对比相邻几次的出行数据,我们可以在非“闭合”线路的断点(如图2中的E点)前找到同一上车站点信息(如图2中的D点),并寻找不同线路中是否存在下一个上车站点能满足闭合线路中的判断条件。若能找到,则此乘客在这条线路上有规律性的长期出行,可将非闭合线路转化为闭合线路进行进一步研究。若不能找到,则此乘客在这条线路上的出行不具有規律性,则丢弃此次出行的相应数据。

3 结论与展望

在基于公交IC卡大数据分析的居民出行行为研究中,我们在前人研究出的关于站点K-means聚类算法的基础上,对居民上下车时间进行了聚类运算,并对如何进行上下车站点的匹配做了更完备透彻的解释。我们将上车站点的推算分成了2种情况进行讨论,而推算出了上车站点后,我们可以借此对下车站点进行进一步推测,分为了闭环出行和非闭环出行以及规律出行和非规律出行相互交错的4种情况进行了讨论。

随着大数据时代的到来和发展,如何正确处理种类繁多、数量庞大的数据信息,并从这些信息中筛选出有用的信息从而更好地为社会发展提供坚实的基础成为了目前亟待解决的话题和任务。而目前,公共交通事业飞速发展,智能交通的概念愈发深入人心。在这样的发展趋势下,我们不能只停留在公共交通事业蓬勃发展的表面现象上,而是应该推测和总结出大量的公共交通数据背后的信息,推断居民出行规律,并结合城市的经济状况、城市规划、地质特点、气候特征等因素合理优化公共交通线路,同时应用于公共交通车辆调度的过程中,改善城市出行状况,改善公共交通管理制度,提升公共事业管理水平,为建设智能城市做出贡献。

参考文献

[1]沈吟东,张仝辉,徐甲.基于K-means聚类算法的公交运营时段分析[J].交通运输系统工程与信息,2014,14(02):87-93.

[2]陈绍辉,陈艳艳,尹长勇.基于特征站点的公交IC卡数据站点匹配方法研究[J].北京工业大学学报,2012,38(06):885-889.

[3]陈绍辉,陈艳艳,赖见辉.基于GPS与IC卡数据的公交站点匹配方法[J].公路交通科技,2012,29(05):102-108.

[4]丛晓洁.基于IC卡和GPS大数据的公交客流分析[C].2015年中国城市交通规划年会暨第28次学术研讨会,2015.

[5]陈孟柯.基于公交IC卡数据的公共交通客流分析——以南京为例[J].科技视界,2016(22):157-158.

作者简介

周思源(1995-),男,河北省沧州市人。南京师范大学计算机科学与技术学院2014级本科生,信息管理与信息系统专业。

刘佳雨(1996-),女,江苏省镇江市人。南京师范大学计算机科学与技术学院2014级本科生,信息管理与信息系统专业。

陈佳宜(1996-),女,山东省东营市人。南京师范大学计算机科学与技术学院2014级本科生,信息管理与信息系统专业。

任越(1996- ),女,天津市人。南京师范大学计算机学院2014级本科生,信息管理与信息系统专业。

窦万峰(1968-),男,陕西省永寿县人。南京师范大学计算机科学与技术学院管理科学与工程系教授,博士研究生导师。

作者单位

南京师范大学计算机学院 江苏省南京市210023

猜你喜欢

聚类分析
浅析聚类分析在郫县烟草卷烟营销方面的应用