APP下载

基于地铁刷卡数据的城市居民行为模式变化分析

2022-09-06吴文昊沈枭麒

测绘地理信息 2022年4期
关键词:刷卡聚类网格

吴文昊 沈枭麒

1武汉大学遥感信息工程学院,湖北 武汉,430079

2中国矿业大学环境与测绘学院,江苏 徐州,221116

感知是智慧城市的基础[1],居民作为城市生活中的主体,研究其时空行为模式是智慧城市发展中重要的科学问题。近年来以人为核心的智慧城市理念备受重视,随着可获取的时空大数据类型越来越丰富,充分利用时空大数据进行居民的时空行为模式分析显得愈发重要。地铁刷卡数据是一种重要的时空大数据,目前国内外利用地铁刷卡数据开展的居民行为模式研究主要集中在两个方面:第一,研究公共交通的运营与管理[2,3];第二,居民行为模式挖掘与规律分析。

本文的研究属于第二类。在该类研究中,如郭文露等[4]基于出行时间对居民进行分类,研究居民时空动态特征;Chen等[5]根据城市密度、雇员密度、出行人数等数据,对地铁站台进行K-means聚类,挖掘了各站台呈现出的居民行为特点;孟斌等[6]通过出行弹性测度理论,对居民在不同时段的出行弹性特征进行分析,并进一步对出行弹性空间热点和出行弹性影响因素进行分析;翁小雄等[7]基于GBDT算法构建分类模型,对地铁通勤人群进行识别;Zhao等[8]通过研究居民出行的常规典型模式,对异常行为模式进行检测。

目前对居民行为模式的研究大多对行为的时间持续性考虑有所欠缺[9]。因此本文基于深圳市连续34 d的地铁刷卡数据,结合时间兴趣区域挖掘居民行为模式,分析了各类显著模式在长时间段内的变化规律,以探究居民各类行为模式在起止时间和持续时长上的特征。

1 研究区域与数据概况

本文研究区域为深圳市。截止2017年3月,深圳市地铁共有8条线路开通运营,共计166个站台。全市地铁运营线路总长约为300 km,覆盖深圳市罗湖区、福田区、南山区、宝安区、龙华区、龙岗区6个市辖行政区。

深圳市地铁主要使用深圳市公共交通智能卡进行支付。本研究使用2017-01-14—2017-02-16共计34 d的深圳市地铁刷卡数据进行分析。原始刷卡数据为流水数据,包含的主要字段有:卡ID、流水号、交易类型(进站或出站)、交易时间、地铁线路、站台名称等。研究时段内的深圳市地铁刷卡数据共有116 321 352条,不同的ID卡号共有6 677 575个。日均刷卡次数3 421 216条,每张卡的日均刷卡次数为1.95次。

2 研究方法

2.1 数据预处理

对原始的地铁刷卡数据的数据预处理主要包含3个部分:数据缺失值处理、出行数据匹配、行为数据匹配。

1)数据缺失值处理。对于属性缺失的数据,在统计观察数据的整体特性后发现主要是刷卡站台缺失,于是利用属性间的潜在关系对缺失值进行填补。填补的方法为利用所有非缺失数据的刷卡站台得出每个站台对应的后端编号,再利用缺失数据的后端编号匹配对应的刷卡站台。

2)出行数据匹配。对于流水数据,需要将进站数据与对应的出站数据进行匹配,形成一条完整的地铁出行数据。匹配方法为提取当天每个ID卡号的数据,按照刷卡时间和交易类型等属性进行匹配。

3)行为数据匹配。为研究居民的行为模式,本文采用了如下假设:若居民当日存在多次地铁出行行为,则其从某站台出站之后和再次从同站台进站乘车的时间间隔内,该居民在该站台范围内进行了某种行为[10]。因此,需要对居民的地铁出行记录再次匹配形成居民的行为记录。匹配方法为提取当天每个ID卡号的地铁出行数据,按照出行时间和站台等属性进行匹配。

2.2 时间兴趣区域

兴趣点(points of interests)表示引起人群兴趣的地理位置,兴趣区域(area of inte-rests)表示引起人群兴趣的一个区域范围。将这个概念引申至时间属性,就是时间兴趣区域[9]。以居民行为的开始时间为x轴,居民行为的结束时间为y轴,建立二维坐标系。借鉴兴趣区域的概念,在这个坐标系中行为密集的区域便是人群在时间上感兴趣的一个区域,即时间兴趣区域。

如图1所示,由于行为的开始时间必然早于行为的结束时间,故该坐标系中的点都在y=x的上方。对于行为点a,其开始时间为x a,结束时间为y a,行为的持续时间为(y a-x a)。而对于密集的时间兴趣区域A和B,显然行为模式A的开始时间早于B而结束时间晚于B,且A具有较长的行为持续时间,B具有较短的行为持续时间。

图1 时间兴趣区域Fig.1 Time Area of Interests

因此,通过时间兴趣区域能够直观的展示行为在开始时间、结束时间和持续时间上的特点。

2.3 CLIQUE算法

CLIQUE算法是一种基于密度和网格的聚类算法,也是最经典的高维子空间聚类算法之一[11]。其基本思想是将数据空间按照一定规则进行网格划分,将落入网格单元的样本数目作为网格单元的密度,若一个网格单元的密度超过事先设定好的阈值,则认为该网格单元是稠密的。CLIQUE算法的最终目标是找出所有连通稠密网格单元的最大单元集。其具体步骤为:

1)设定网格长度d和密度阈值s,对数据空间的每一维进行等长的网格划分,并记录每个网格单元的密度,找出当前维度子空间中密度大于预设阈值的网格单元,将其标记为候选稠密网格单元。

2)使用最小描述长度(minimal description length,MDL)剪枝技术修剪子空间,控制候选稠密网格单元的增长速度。

3)遍历所有候选稠密网格单元,基于贪心算法找出最大连通网格单元集,得到最终的聚集簇类。

3 结果与分析

3.1 数据预处理结果与分析

针对缺失数据进行缺失值填补后,原始流水数据的有效率从67.82%提升至99.99%,仅有一条数据无法找到相对应的站台。出行数据匹配剔除了无法匹配成出行记录的流水数据。行为数据匹配后,最终得到的行为数据共有20 070 388条,卡号共4 242 836个,数据利用率为69.0%,卡号占原始数据的63.5%。深圳市2017年常住人口为1 252.9万,该数据集的用户数占常住人口的33.9%,因此基于该数据的分析结果具有一定说服力。表1为居民2017-01-27的部分行为数据。

表1 部分居民行为数据展示Tab.1 Parts of Residents’Activity Data

3.2 CLIQUE聚类结果与分析

对深圳市34 d的居民行为数据进行CLIQUE聚类。其中,CLIQUE算法的两个参数分别设置如下。

1)网格长度d=108,其含义为将深圳地铁的运营时间6:00—24:00时划分为108份,每个网格长度所涵盖的时间范围为10 min。

由于每日的数据较多,故隐藏了非聚类点以便更清晰的看出聚类结果。图2展示了1月17日(工作日)和1月27日(节假日)的聚类结果,图2中的横轴为行为开始时间,纵轴为行为结束时间。从聚类结果可以看出大致有4类时间兴趣区域,每类时间兴趣区域代表一种显著行为模式,故对每种时间兴趣区域进行标识以便分析。

图2 CLIQUE聚类结果展示Fig.2 Result of CLIQUE Clustering

对34 d的聚类结果进行分析后发现:

模式1时间兴趣区域的开始时间集中于7:00—11:00时,结束时间集中于17:00—22:00时,在工作日表现为一种长持续时长行为模式,在节假日时表现为中短持续时长行为模式,故推测其为工作行为模式;

模式2在节假日出现频率较高,在工作日较少出现,其时间兴趣区域的开始时间在8:00—12:00时,结束时间在10:00—13:00时,是一种晨午间的中持续时长行为模式;

模式3时间兴趣区域的开始时间分布于12:00—18:00时,结束时间分布于12:00—19:00时,在工作日时表现为短持续时长行为模式,在节假日表现为中长持续时长行为模式,因此推测其为下午娱乐行为模式;

模式4时间兴趣区域的开始时间集中在17:00—22:00时,结束时间集中在19:00—23:00时,在工作日和节假日均表现为中短持续时长行为模式,推测其为晚间娱乐行为模式。

3.3 居民行为模式变化分析

4类时间兴趣区域在每天均有不同的表现,但每类行为模式的行为开始时间范围较为固定。基于此,将行为开始时间分为6:00—12:00时(早间行为模式,对应模式1和模式2),12:00—18:00时(午间行为模式,对应模式3),18:00—24:00时(晚间行为模式,对应模式4)3个时段,对其时间兴趣区域的变化规律进行分析,从而进一步探究居民行为模式在起止时间和持续时长上的特点。

提取CLIQUE聚类结果中的每一类时间兴趣区域的重心,从而得到该类时间兴趣区域所代表的行为模式的平均行为开始时间和平均行为结束时间,如图3~图5所示。其中点的大小表示该聚类簇内点数的多少,即时间兴趣区域内包含行为数的多少。点越大表明该行为模式在当天越显著。

图3 早间行为模式变化规律分析Fig.3 Analysis of the Change of Residents’Morning Activity Pattern

1)早间行为模式变化分析。图3展示了早间模式的行为开始时间与行为结束时间。由图3可以发现早间行为模式中有一串显著的点,其开始时间集中于8:00—9:00时,结束时间集中于18:00—20:00时,这进一步验证了聚类结果分析中对模式1为工作模式的推测。工作模式在正常周末、春节前一天和非法定假日的元宵节有略微减少,在春节期间的前4天消失,后3天略微出现。工作模式的开始时间十分稳定的集中于8:00—9:00时,表明了深圳市公司员工的上班时间较为固定;结束时间在正常工作日集中于19:00时前后,但在正常周末、法定调休上班的周末、春节前几天和元宵节情人节均有半小时左右的提前,表明了深圳市绝大多数公司除春节放假4 d外几乎无休加班,但在加班日及节日的下班时间略微提前,日均上班时间约为10 h。在周末、元宵节和春节及其前一周时,检测到一类显著异于工作模式的新模式,其开始时间集中于9:00—12:00时,结束时间则分布于9:00—17:00时,对应于聚类结果分析中的模式2。从春节前一周的行为可以发现,模式2与模式1并非一类人群的行为。模式1是工作模式,代表上班族的行为,而进行模式2所代表行为的人群提前一周开始进行与春节相似的行为,因此代表了提前放假人群的行为(如学生、工作强度较低的上班族、退休人群等),故模式2是一种早间的零散娱乐行为模式,该行为的持续时长为0.25~4 h不等。

2)午间行为模式变化分析。如图4所示,午间行为模式的开始时间广泛分布于12:00—18:00时,结束时间相对集中于14:00—19:00时,在图4中表现为一天中一连串相对集中的点,对应于聚类结果分析中的模式3。可以发现该模式在正常工作日时均无显著点;在周末、春节前一周、春节期间和元宵节时有显著点,显著点开始时间集中于15:00时前后,结束时间集中于17:00时前后,在春节前3天 该模式的开始时间有所提前。且该模式的行为持续时间普遍在2 h左右,验证了其是午间短期娱乐行为模式的推测,并进一步可以推测该类娱乐行为模式是一种晚饭及晚饭后的休息娱乐行为。注意到从1月31日(新年初三)开始,春节期间出现了一种结束时间在22:00时以后的模式,而春节的前3天没有。由此推测居民在春节前期偏好午间的中短娱乐行为,或在家中与家人共度,直到初三才开始与亲朋好友相约聚会。

图4 午间行为模式变化规律分析Fig.4 Analysis of the Change of Residents’Afternoon Activity Pattern

3)晚间行为模式变化分析。如图5所示,晚间行为模式的开始时间集中于18:00—19:00时,结束时间则分布于18:00—22:00时,对应于聚类结果分析中的模式4,是一种开始时间较为固定,结束时间分布较广的行为模式。该模式的显著点较多出现于周末,在元宵节、情人节和春节前一周的工作日也有出现,验证了该模式是晚间娱乐行为模式的推测。而在春节期间尤其是大年初一前后,该类模式却骤减至几乎消失,说明春节期间晚间出行的人较少。

图5 晚间行为模式变化规律分析Fig.5 Analysis of the Change of Residents’Evening Activity Pattern

4 结束语

本文提出了一种基于地铁刷卡数据探究居民行为模式及其在起止时间和持续时长上特点的方法。该方法利用时间兴趣区域和CLIQUE聚类挖掘出4类显著的居民行为模,通过对每类行为模式在长时间段内的变化进行分析,验证了之前对每类行为模式类型的推测,揭示了深圳市居民的固定行为模式,为理解居民行为模式提供了一种思路。该方法理论上可拓展应用于揭示不同功能区域之间居民行为模式的常态和变化,实现对异常行为模式的检测。

猜你喜欢

刷卡聚类网格
基于数据降维与聚类的车联网数据分析应用
网格架起连心桥 海外侨胞感温馨
基于模糊聚类和支持向量回归的成绩预测
追逐
基于密度的自适应搜索增量聚类法
刷卡
结账
刷脸就可以购物
第一次刷卡