基于多维属性的轨道交通出行行为分类方法
2020-12-24程小云张学宇薛顺然王建军
程小云,张学宇,薛顺然,王建军
基于多维属性的轨道交通出行行为分类方法
程小云1,2,张学宇1,2,薛顺然3,王建军1,2
(1. 长安大学,运输工程学院,西安 710064;2. 长安大学,生态安全屏障区交通网设施管控及循环修复技术交通运输行业重点实验室,西安 710064;3. 长安大学,公路学院,西安 710064)
为了深入挖掘轨道交通乘客出行多样性,全面掌握不同群体的出行时空规律,本文利用西安市2017年4月AFC一票通和一卡通的刷卡数据,基于两类群体不同时间(工作日、双休日和节假日)的客流统计特征,重点针对一卡通用户,构建了全面表征轨道交通乘客多维出行特征的指标体系。采用GMM算法对工作日出行乘客进行聚类分析,得到5类轨道出行典型群体,探讨了不同群体的行为动力学特征。结果表明,本文提出的分类方法既能兼顾已有的出行强度分类效果,更能发掘如线路利用熵值等其他维度上轨道出行特征的差异性。引入行为动力学分析深入剖析了乘客出行的内在机理,表明群体层面轨道出行呈现“强阵发、弱记忆”的特征;出行稳定群体出行时间间隔呈现“非幂律非指数”状态,且该群体出行时间间隔的“胖尾”特征和随机性相对于随机出行群体和偶发出行群体均不显著。研究结论有助于发掘轨道出行多样性,把握时空规律,为优化城市轨道交通运营管理、制定具体运营管理方案提供理论依据和数据支撑。
城市轨道交通;出行特征;多维属性;GMM算法;行为动力学
0 引 言
随着人们生活水平的不断提高和轨道交通的快速发展,城市轨道交通运营管理中暴露出诸多问题,如网络客流时空分布不均衡,高峰期换乘站乘客站台候车时间过长[1,2]等,因此,深入分析城市轨道交通乘客出行规律是科学制定运营方案的必要前提。自动售检票(Automatic Fare Collection,AFC)系统详细记录了每位乘客在轨道交通网络中出行起讫点的时空信息,具有数据量大、结构简单等特点[3,4],已成为研究城市轨道交通问题的重要数据源,可为有效地从微观和宏观层面挖掘出行时空规律提供数据基础。
基于刷卡数据分析公共交通乘客出行的研究关键点是特征指标量化和分类算法。国内外已有研究多从出行时间、空间、强度等维度对乘客出行特征进行刻画[5],如利用出行起点[6]、出行路径和站点[7]、通勤距离[8,9]等指标表征出行空间维度属性;采用平均出行耗时[3]、出发时间[6]、出行时间[7]、平均旅程时间和首次出发时间[8]等指标描述轨道乘客出行时间维度属性;轨道使用强度属性用一定时段内的出行次数[10]、平均出行次数和出行天数[11]等指标表征。此外,针对具体问题,研究者提出了站点序列相似性度和卡类型[4]等反映其他维度属性特征的指标。分类算法是决定能否有效区分用户群体的另一关键问题。在考虑属性特征指标分布和研究问题的基础上,已有研究采用DBSCAN算法[6,7]、GMM(Gaussian mixture model)算法[8]、OPTICS算法[12]、k-means ++算法[7,13]和k-means算法[11,14]对城市轨道交通用户进行分类,得到了丰富的细分轨道交通用户群体的分类方法,结合定性分析刻画轨道交通出行的多样性。然而,由于研究者采用的指标体系均不相同,轨道乘客分类结果往往侧重不同的出行特征,尚无全面、统一的划分标准。其次,对于一卡通与一票通两种不同的票制,其数据特征显著不同,应分别讨论。
本文利用一卡通和一票通数据分别分析了工作日、双休日和节假日的城市轨道交通客流时空分布特征,在已有研究的基础上从多维度属性提出了出行天数、日均出行次数、出行集中度、出行时耗和线路利用熵值5个乘客出行特征指标,采用GMM算法对工作日乘客进行挖掘,以期全面细分居民对轨道交通使用的多样性,并引入行为动力学分析方法,深度挖掘各类乘客出行行为的时间动力学特征及形成机制。
1 AFC数据概况与处理技术
1.1 AFC数据概况
本文采用西安市2017年4月AFC的一卡通和一票通数据,其中一卡通为西安长安通支付有限责任公司发售的智能储值性交通卡,一票通是乘客进站时在自动售票机或人工售票处购买的一次性单程车票。原始AFC数据字段包括交易时间、交易类型、交易车站、线路、进站车站、设备编号、交易金额和卡号,如表1所示。
表1 乘客出站数据
Tab.1 Passenger alighting data
注:交易金额270表示实际支付2.7元。
1.2 AFC数据处理
为了从进站和出站数据中提取乘客在轨道交通线网中完整和有效的出行起讫点,先依据卡号和进站车站一致性原则进行数据匹配,再剔除异常值最终得到完整的乘客有效出行数据,具体处理过程如图1所示。其中,异常数据包括出行时耗超过实际最大出行时耗(150 min为阈值)和进出车站相同等情况。对西安市4月乘客出行数据进行汇总统计如表2所示,其中日均有效数据量为最终得到数据的统计值。表3为有效乘客出行数据实例。
表2c西安市4月乘客出行统计信息
Tab.2 Statistics information of passenger travel in Xi’an in April 2017
图1 数据处理流程
表3 有效乘客出行数据实例
Tab.3 Samples of valid passenger travel data
2 西安市轨道交通线网客流分布特征
2.1 西安市轨道交通线网概况
截止2017年4月,西安市已开通运营的地铁线为1、2、3号线,共63个车站(包括3座换乘站),全长91.35 km。其中1号线为东西走向骨干线,全长25.4 km,设车站19座;2号线为南北走向骨干线,全长26.8 km,设车站21座;3号线“L”形走向骨干线,全长39.15 km,设车站26座。
2.2 西安市轨道交通客流时间分布特征
本文研究时段包含19个工作日、8个双休日和3个节假日(清明节)。首先对一卡通和一票通用户在不同时间(工作日、双休日和节假日)的出行频率与出行时耗进行统计描述(如图2和3所示),以初步了解西安市两类不同票制用户的出行时间规律。
图2 不同研究日期出行时间频率分布
图3 不同研究日期出行时耗频率分布
由图2(a)可知,工作日一卡通乘客出行频率呈现典型早晚双峰结构,且早高峰大于晚高峰;一票通乘客的出行频率则随着时间的变化呈现上升趋势,在晚高峰达到最大值。对于中间时段乘客出行的相对活跃度,一票通乘客明显高于一卡通乘客。图2(b)表示,双休日期间一卡通乘客出行频率仍具有明显的早晚高峰,但晚高峰较大;一票通乘客出行频率随着时间逐渐增大,下午时段均在较高值,之后下降。由图2(c)可知,节假日期间两类用户的出行时间分布规律与双休日相似。
图3为不同研究日期出行时耗频率分布,从中可知工作日、双休日和节假日出行时耗分布趋势大致相同,有明显的“拖尾”现象,但此类乘客占总体乘客比例不高。一卡通乘客出行时耗大约集中在20 min左右,一票通乘客出行时耗相对于一卡通乘客较长。
3 乘客出行特征指标构建
结合已有研究和上述客流分布特征,从多维属性构建乘客出行特征指标,具体包括出行天数、日均出行次数、出行集中度、出行时耗和线路利用熵值5个指标,如表4所示。
表4 乘客出行特征指标
Tab.4 Index of passenger travel characteristics
(2)出行时耗和出行距离近似成线性关系,选用出行时耗作为出行距离的代替指标可用于刻画乘客的空间活动范围[5];
4 西安市城市轨道交通乘客分类
4.1 高斯混合模型原理
为了深入挖掘不同乘客群体在出行行为上的相似性,本文采用高斯混合模型(GMM)聚类方法对轨道交通乘客进行聚类。GMM的每个高斯分布概率计算如下:
求解GMM最常用的参数估计算法是最大期望法(EM),具体步骤如下:
(1)E-step
(2)M-step
重复上述两个步骤,直到算法收敛。GMM算法的聚类结果容易受到高斯模型数量影响。因此本文引入Calinski-Harabasz分数来评价聚类效果[16],以确定最优的聚类结果。Calinski- Harabaz分数的计算公式如下:
4.2 出行乘客聚类分析
本文基于Scikit-Learn的GMM算法对工作日乘客出行数据(共3 019 568人)进行聚类,取Calinski-Harabaz分数最大时的乘客聚类数最终将工作日乘客分为五类,各类别乘客聚类中心如表5所示。为了直观理解每类群体的出行特征,采用雷达图可视化各类乘客出行特征的聚类中心分布,如图4所示。
表5 不同类别乘客聚类中心及占比
Tab.5 Clustering centers and proportion of different types of passengers
图4 不同类别乘客聚类中心
(1)第1类乘客表现为出行强度大(出行天数为10.83天,日均出行次数为1.61次)、出行时段多峰性(出行集中度为0.44)、出行时间长(出行时耗为24.60 min)、线路利用程度较高(线路利用熵值为0.85)的特征,表明这类乘客对城市轨道交通忠诚度较高,将此类乘客定义为稳定出行乘客。
(2)第2类乘客的出行天数相对较低(2.49天),但日均出行次数相对较高(1.62次),说明该乘客在工作日期间随机选择轨道交通进行出行,其线路利用熵值较高(1.03),该类乘客对于城市轨道交通的灵活度相对适中,使用多条轨道交通出行,所以可定义为随机多线出行乘客。
(3)第3类乘客的出行天数、出行次数和出行集中度与第2类乘客类似,但其线路利用熵值约为0,说明只使用了单一轨道交通线路,无换乘时间,因此出行时耗相对于第2类乘客也较低,所以可将其定义为随机单线出行乘客。
(4)第4类乘客的出行天数相对于前几类乘客最低(1.09天),且日均出行次数为1.00次,说明该类乘客对于城市轨道交通忠诚度最低,在工作日期间只有极少数情况下才会选择城市轨道交通出行;由于出行往往是单日单次进行,出行集中度也接近于1,但线路利用熵值较高(1.00),所以可将此类乘客定义为偶发多线出行乘客。
(5)第5类乘客的出行也具有偶发性,具有单日单次出行的特点,与第4类乘客不同的是其线路利用熵值约为0,所以可将此类乘客定义为偶发单线出行乘客。
5 乘客时间行为动力学分析
5.1 人类行为动力学分析方法
人类行为动力学的提出,为由人的行为驱动的复杂系统的各类现象提供了新视角和新解释,挖掘人类多次从事某特定事件表现的时间上的统计规律[17]。为了更加深入理解城市轨道交通出行乘客的出行规律,本文提取一个月的地铁出行记录,分析五类出行群体相邻两次出行的时间间隔分布,进行幂律和指数拟合[18],并引入阵发性和记忆性指标定量刻画时间间隔分布,且这两个指标不需要先验假设时间间隔分布满足某种特定的函数形式。计算公式如下:
5.2 出行群体时间行为动力学分析
使用行为动力学方法,对五类出行群体出行时间间隔进行分析,计算结果如表6所示,分别绘制出行群体出行时间间隔的幂律拟合和指数拟合图,如图5所示。
5.2.1 曲线拟合分析
第1类乘客为稳定出行群体,其出行时间间隔分布用幂律拟合或指数拟合效果较差,呈现“非幂律非指数”状态,表明稳定出行群体的出行时间间隔“胖尾”特征和随机性均不显著,即使在全样本下,该类乘客的“特性”通过叠加也能凸显出来。从图5可以看出,稳定出行群体的出行时间间隔存在几个高频次的聚集区间,主要聚集在600 min(10h)、840 min(14h)和1440 min(24 h)附近。通常符合早出晚归通勤模式的乘客,其出行时间往往在8:00和18:00左右,时间间隔恰好为600 min(10 h)与840 min(10 h),由此说明第1类乘客大量为早出晚归的通勤乘客。校核原始数据,出行时间间隔聚集在1440 min(24 h)的原因在于乘客出行时间段内一天只利用轨道交通出行一次。
表6 出行群体行为动力学计算结果
第2类乘客、第3类乘客、第4类乘客和第5类乘客的出行相对不稳定,其出行时间间隔分布的指数拟合效果比幂律拟合效果相对较好,呈现“强指数弱幂律”状态,表明出行相对不稳定群体的轨道交通出行时间间隔服从泊松分布,具有随机性;在大样本背景下,个体的“棱角”被磨平,验证了上述聚类方法的合理性。但这几类出行群体出行时间间隔的高频次聚集区间相对不显著,所以幂律拟合效果优于第1类乘客。且从图5也可以看出,这几类乘客出行时间间隔仍具有“胖尾”特征。
图5 出行群体出行时间间隔曲线拟合
Fig.5 Curve fitting of travel time interval for travel groups
5.2.2 阵发性和记忆性
由表6可以看出,五类出行群体轨道交通出行时间间隔分布均具有“强阵发弱记忆”的特性。阵发性强说明各出行群体中存在部分远大于均值的时间间隔,弱记忆性表明大数据情况下个体层面的记忆规律被掩盖,导致群体层面的时间间隔分布整体呈现较弱的记忆性。
6 结论和展望
本文利用西安市4月轨道交通刷卡数据,首先分析了不同日期(工作日、双休日和节假日)乘客出行时间和出行时耗的分布特征;其次,从乘客出行的多维属性构建了全面刻画轨道交通出行特征的指标体系;采用GMM算法对工作日乘客进行分类,得到5类典型用户群体;最后对所得的用户群体进行时间行为动力学分析。该分类结果不仅与已有的基于出行强度指标(出行天数和日均出行次数)划分乘客类型的分析结果[5,11]一致,更能体现不同乘客对城市轨道交通使用的灵活度,同时分析行为动力学特征可以深入理解不同群体乘客出行的内在机理,证实了群体层面乘客出行呈现“强阵发、弱记忆”的特征,这与文献[18]分析结果一致。但稳定出行群体的出行时间间隔的“胖尾”特征和随机性均相对不显著,呈现“非幂律非指数”状态。研究结论丰富和扩展了已有轨道交通乘客分类研究,为优化城市轨道交通运营管理,提高轨道交通利用率提供理论依据。然而,本研究仍存在一定的不足,未来研究将结合更丰富的数据源,如POI(Points of interesting)数据、手机信令数据、公交刷卡数据等,进一步发掘并解释乘客的出行特征。
[1] 曾志南. 基于智能交通卡数据的轨道出行乘客特征研究[C]// 共享与品质——2018中国城市规划年会论文集 (05城市规划新技术应用) . 杭州, 2018: 959-972.
[2] 陈艳艳, 陈兴斌, 吴克寒, 等. 基于IC卡数据的轨道站点候车时间特征分析[J]. 重庆交通大学学报:自然科学版, 2019, 38 (1): 102-107.
[3] 龙瀛, 孙立君, 陶遂. 基于公共交通智能卡数据的城市研究综述[J]. 城市规划学刊, 2015 (3): 70-77.
[4] 许胜博. 基于AFC数据的地铁乘客出行目的地实时预测[J]. 交通运输工程与信息学报, 2019, 17 (2): 81-90.
[5] 邹庆茹, 赵鹏, 姚向明. 基于售检票数据的城市轨道交通乘客分类[J]. 交通运输系统工程与信息, 2018, 18 (01): 223-230.
[6] LE M K, BHASKAR A, CHUNG E. Passenger segmentation using smart card data[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16 (3): 1537-1548.
[7] MA X, WU Y J, WANG Y, et al. Mining smart card data for transit riders’ travel patterns[J]. Transportation Research Part C: Emerging Technologies, 2013, 36: 1-12.
[8] JI Y J, CAO Y, LIU Y, et al. Research on classification and influencing factors of metro commuting patterns by combining smart card data and household travel survey data[J]. Iet Intelligent Transport Systems, 2019, 13 (10): 1525-1532.
[9] 贺康康, 任刚. 基于AFC数据的新建轨道交通系统出行距离分布特性研究[J]. 交通运输工程与信息学报, 2018, 16 (3): 46-52.
[10] El MAHRSI M K, COME E, OUKHELLOU L, et al. Clustering smart card data for urban mobility analysis[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 8 (3): 712-728.
[11] 柳颖, 周慧娟. 城市轨道交通乘客出行行为特征分类研究[J]. 交通工程, 2019, 19 (3): 72-77.
[12] VENUGOPAL S, DIVYA D. Transit passenger segmentation based on the travel patterns mined from smart card data using Optics algorithm[J]. International Journal of Advanced Information Science and Technology, 2016, 5 (5): 49-56.
[13] 徐晓伟, 杜一, 周园春. 基于多源出行数据的居民行为模式分析方法[J]. 计算机应用, 2017, 37 (8): 2362-2367.
[14] ZHAO J J, TIAN C, ZHANG F, et al. Understanding temporal and spatial travel patterns of individual passengers by mining smart card data[C]// IEEE International Conference on Intelligent Transportation Systems. 2014: 2991-2997.
[15] 梁泉, 翁剑成, 周伟, 等. 基于关联规则的公共交通通勤稳定性人群辨识[J]. 吉林大学学报: 工学版, 2019, 49 (5): 1484-1491.
[16] CALINSKI T, HARABASZ J. A Dendrite Method for Cluster Analysis[J]. Communications in Statistics. 1974, 3 (1): 1-27.
[17] 周涛, 韩筱璞, 闫小勇, 等. 人类行为时空特性的统计力学[J]. 电子科技大学学报, 2013, 42 (4): 481-540.
[18] 姚树申, 翁小雄, 李飞羽. 基于时间特征行为动力学的通勤模式分析[J]. 华南理工大学学报: 自然科学版, 2019, 47 (9): 53-60.
Method of Analyzing Rail Transit Travel Behavior Based on Multidimensional Attributes
CHENG Xiao-yun1, 2, ZHANG Xue-yu1, 2, XUE Shun-ran3, WANG Jian-jun1, 2
(1. College of Transportation Engineering, Chang’an University, Xi’an 710064, China; 2. Key Laboratory of Transport Industry of Management, Control and Cycle Repair Technology for Traffic Network Facilities in Ecological Security Barrier Area, Chang’an University, Xi’an 710064, China; 3. School of Highway, Chang’an University, Xi’an 710064, China)
In this study, the statistical travel characteristics of single-ticket and one-card users on working days, weekends, and holidays were analyzed to evaluate the travel diversity of rail transit passengers and identify the temporal travel and spatial trends for different groups. The travel characteristics were obtained in Xi’an in April 2017 using automatic fare collection data. A comprehensive indicator system was developed for one-card rail transit passengers to investigate the multidimensional travel characteristics. The Gaussian mixed model algorithm was used to classify the rail passengers on working days into five distinct groups, and the corresponding characteristics of the deterministic behavior dynamics of different groups were analyzed. The results showed that the proposed classification method reflected not only the effects of the existing classification based on travel intensity but also indicated the differences among rail passengers from other dimensions, such as line utilization entropy. Next, behavioral dynamics analysis was conducted to evaluate the internal mechanism of passenger travel. It was found that the group travel of rail passengers showed strong burstiness and weak memory. Moreover, the “fat tail” characteristics and randomness of the travel-time interval for the stable group were insignificant compared to those of the random and occasional groups, which showed the state of “nonpower and nonexponential law”. The proposed method is useful for evaluating the diversity of passenger travel and temporal and spatial laws. The findings provide a theoretical basis and data support for optimizing urban rail transit operations and formulating specific operation management schemes.
urban rail transit; travel characteristics; multidimensional attributes; GMM algorithm; behavior dynamics
1672-4747(2020)04-0166-09
U239.5
A
10.3969/j.issn.1672-4747.2020.04.020
2020-05-27
陕西省自然科学基础研究计划资助项目(2019JQ-442;2019JQ-242)
程小云(1985—),女,陕西西安人,长安大学讲师,研究方向为交通大数据挖掘和交通行为分析研究,E-mail:cxy@chd.edu.cn
程小云,张学宇,薛顺然,等. 基于多维属性的轨道交通出行行为分类方法[J]. 交通运输工程与信息学报,2020, 18(4): 166-174
(责任编辑:刘娉婷)