居民个体出行行为聚类及出行模式分析*
——以三亚市为例
2020-11-09杨克青CHENZhongYANGKeqing
陈 仲 杨克青 CHEN Zhong, YANG Keqing
0 引言
大量研究表明,城市居民的日常活动并非是完全随机、不可预测的。相反,城市居民的活动往往表现出与城市社会经济发展、城市空间特征高度关联的规律性[1]818。了解城市居民个体的活动行为及其表现的群体规律性和相似性,对把握城市交通运行规律、城市空间动态演变具有重要意义。
以往对居民个体行为的研究主要利用小规模的问卷进行抽样调查,如对南京市老年人出行行为[2]1598、广州城市社区居民出行行为[3]167、乌鲁木齐居民出行行为[4]897等的研究。尽管居民出行调查提供了丰富的、多维度的数据,但是由于其周期长、工作量大、样本少(一般为2%—4%),个体出行的许多特征并未得到充分展现。
手机信令数据可以动态反映整个城市人口的活动信息,为分析个体的行为提供基础[1]820,弥补了传统调查周期性长、工作量大、样本量少和成本高的特点,在分析城市职住关系[5]、城市空间结构[6]、城市人口分布与流动[7]等领域应用广泛。除城市尺度分析外,针对特定人群的出行特征研究也是重点之一,如对大型赛事球迷空间行为特征的分析[8]、对樱花节游客的研究[9]、对公园游客的分析[10]、对机场游客分类分析[11]等。
在研究方法上,既有研究大多以群体的出行时空规律作为研究对象来考察居民活动的空间分布及特征。此过程需要预先了解出行行为类别(如通勤出行、娱乐出行)[4]899及属性(如收入、年龄等)[2]1599,进而分析既有类别的出行规律及特征。
本文以手机信令数据为基础,构建居民个体的出行行为聚类模型,并结合城市特征,对居民出行模式进行判别。相较于既有研究方法,本文并不预先假定居民出行的位置类别(家、工作地、娱乐地)或出行类别(工作出行、娱乐出行等),而是通过个体出行链的重构,对不同个体出行链的相似模式进行聚类。在聚类方法选择上,采用基于狄利克雷过程混合模型的聚类方法,避免了其他聚类方法(如K均值聚类)需要事先假定聚类数量的局限。研究结果表明,该方法能够发现有别于传统基于问卷调查的出行模式,并与城市的特征、空间结构紧密联系在一起,为进一步分析城市居民活动行为提供借鉴。
1 数据与方法
1.1 数据与处理
本文数据来源于2015年6月26日全天三亚市域范围内所有手机信令数据,数据基本格式及各字段说明如表1所示,共包含手机用户77万(除去数据记录过少、间隔时间过长等无效用户)。其中用户ID为脱敏后的手始数据变换为一组各维度线性无关的数据,可用于提取数据的主要特征分量,常用于高维数据的降维。此外,主成分分析还有助于发现数据模型中影响因素最大的主要成分。通过主成分分析得到的主成分称为“特征活动”,即可以表示所有出行个体的共同出行行为。机号码,时间戳为基站收集手机通信数据的时刻,基站名称、基站纬度、基站经度记录基站的空间位置信息,事件为手机与基站之间的通信类别,识别码为手机信号归属地(本省、外地)。
居民出行的OD(Origin-Destination)数据提取采用文献[12]中的方法,将停留时间超过15 min的地点(即基站)作为一个停驻地,如图1a所示,蓝色为手机信令的原始轨迹点,红色为提取之后的OD。统计发现,87%的居民在一天中的停驻地不超过5个。将停驻地按照停留时间长短进行排序,并取前5个停驻地依次标签为“位置1”“位置2”…“位置5”。 于是,居民OD中的起终点可以用位置标签替代。
将带位置标签的OD按照15 min间隔划分为1×96的时间序列,每个子区段的值用唯一的位置标签表示。当某子区段内出现多个位置时,则该区段的位置标签根据所占时间最长的位置标签确定。再将每个子区段根据位置标签用长度为5的0—1向量表示,0表示该区段不属于该位置标签,1表示该区段属于该位置标签。由此,每个居民一天的出行轨迹可以表示为1×480(即24×4×5)的一维向量。所有出行者(N个出行者)的出行行为可以表示为N×480的二维矩阵。数据分解过程如图1b所示。
对于居民个体活动来说,有些特征是完全相似的。例如大部分居民在凌晨2: 00—5: 00时间段内的活动行为是一致的,均处于睡眠状态。因此,有必要进一步压缩数据维度,简化N×480的出行矩阵。本文首先采用主成分分析(Principal Components Analysis,PCA)对数据进行降维。PCA通过线性变换将原
表1 手机信令数据示例Tab.1 Examples of mobile phone data
图1 基于个人出行OD的出行链构造Fig.1 Construction of trip chain based on individual travel OD
1.2 狄利克雷过程混合模型
式(1)表示第i个个体的二项时间序列是由参数为的多项式分布产生,zi为第i类的类别标签;式(2)表示每个类的类别参数是由狄利克雷分布产生的,K是类别的总数,从实际数据中得出;式(3)表示第i个个体对每个类的选择,服从参数为的多项式分布;式(4)中参数则表示个体属于每个分类的概率,这个概率可以从狄利克雷过程中抽样得到。
1.3 模型求解
本文使用中餐馆过程[13]求解DPMM。每个个体xi属于既有类的概率以及属于一个新类的概率分别为:
其中,k是样本xi所属的类别编号,K+1为样本xi被分配到新类的编号;B是归一化因子。表示除的其他所有的类别,式(5)表示样本被重新分配到既有类的概率,式(6)表示样本被分配到一个新类的概率。
相较于其他聚类方法,DPMM具有两个重要优点。一是该聚类方法无需事先指定聚类数量,通过模型逐次迭代得到聚类数量的最优值;二是该方法具有发现新类别的能力,如式(6)所示,当某个样本与既有类别差别过大时,该样本将被分配到一个新类中,有助于新类别的发现。
2 结果与分析
根据前文所述方法,本文共提取有出行(一天的出行次数大于1)的个体43万,并从中随机抽取5万个个体(占总量的12%),进行个体出行聚类及出行模式分析。
2.1 个体行为主成分
首先采用Python进行主成分分析。指定降维后的主成分比例在90%以上时,得到38个主成分,即“特征活动”。为简化文章篇幅,图2所示为占比最大的前4个“特征活动”,占比达到31%。图中每一列分别代表一个“特征活动”,横坐标为时刻,纵坐标为5个位置标签,图中颜色(数值)为该时空位置的可能性,数值越高,表示可能性越大。
第1个“特征活动”表示在0: 00—8: 00个体处于“位置1”,而在9: 00—24: 00处于“位置2”,全天中处于“位置3”“位置4”“位置5”的可能性很小。实际上,该“特征活动”也是本研究中发现的有别于传统调查法的最大区别,即一天中首尾时段所在位置不一致的现象。
第2个“特征活动”表示在工作时间7: 00—18: 00个体位于“位置1”,而休息时间0—9: 00、19: 00—24: 00位于“位置2”。由此可以判断出“位置1”为工作地而“位置2”为家庭居住地。以往手机信令研究中将个人一天所在时间最长的位置地点推断为家庭所在地。但从本次实践中发现,由于手机信令数据采集的时间误差较大(如出行实际发生于8: 00而被基站记录的时间为9: 00),往往会造成在工作地的时间比在家庭所在地时间长的情况。因此,结合个体出行行为深化对家庭所在地、工作所在地的分析至关重要。这也是本方法的优点之一。
依次类推,第3个“特征活动”表现为凌晨至早晨、中午至下午在“位置1”,而上午、夜晚则在“位置2”;第4个“特征活动”表现出的行为则更加复杂,凌晨至早晨时间段无固定位置,上午、下午位于“位置1”,而中午、夜晚位于“位置2”。第3、4个“特征活动”也说明了居民活动的复杂性。
图2 主成分分析结果Fig.2 Results of principal components analysis (PCA)
2.2 个体行为聚类及特征分析
在主成分分析的基础上,本文最终得到15个个体行为聚类,聚类结果如图3所示。其中横坐标为时刻,纵坐标中每一行为一个出行者(由于每类的个体数量不同,为使类与类之间的对比更加直观,对每类选取的150个个体进行图示化),不同颜色代表不同的位置标签。
以图3(2、3)类为例,类别2个体表现出的共同行为为:8: 00前、19: 00后位于“位置1”,8: 00—12: 00、14: 00—18: 00位于“位置2”,12: 00—14: 00的位置无共同特征。而类别3的共同行为为:早晚位于“位置1”,工作时间段8: 00—17: 00位于“位置2”。尽管在数学意义上,类别2、3有明确的区别,但从实际的出行模式上,可以推测这两类均属于典型通勤出行模式的范畴。因此,有必要进一步对个体行为聚类进行归纳总结,得到契合城市特征的出行模式分析。
2.2.1 常规出行模式
图3中第1类为常规的非活跃类出行模式。全天大部分时间在位置1(可以将“位置1”推断为家庭住址),偶尔有一些随机的、短时间停留(不超过30 min)的出行活动。
图3中第2、3、4、5类为常规的通勤类出行模式。全天中“位置1”与“位置2”的停留时间基本相同(可以将“位置1”推断为家庭住址,“位置2”推断为工作地),出行活动发生于6: 00—18: 00之间,且凌晨与深夜的位置一致。其中第2类可以理解为个体在中午工作休息期间伴有其他出行活动,如外出吃饭、回家等;第3类则为在工作时段无外出行为发生。第4类相对特殊,可以理解为一天中在工作地点的停留时间超过在家的时间。本文将第5类出行也归纳为通勤类活动,因为其出行的时刻分布与通勤类出行相一致,但是并不一定具有固定工作地性质。
2.2.2 非常规出行模式
传统问卷调查默认居民早晚位置一致,即为家庭所在地,居民一天的出行为一个封闭的环路。但从本次手机信令数据的研究发现,就三亚市而言,早晚位置不一致的现象非常普遍。图中第6、7、8、9、10类即为此类模式。
第6、7、8类的突出特征是出行首尾位置存在不一致的现象,除了“位置1”“位置2”停留时间较长外,其余位置停留时间均较短(一般不超过1 h)。这可能与三亚市的产业结构有关。三亚市内不仅有大量游客,更有大量旅游行业从业人员,如酒店、宾馆服务人员等。这类人员的工作性质与普通通勤人员完全不同,常常夜间工作、白天休息,或白班、夜班交替轮换,造成深夜与白天位置不重合的现象,本文将此类模式称为“旅游服务类出行模式”。
第9、10类的突出特征是“位置2”与“位置3”的停留时间差别不大,意味着一天中有两个主要的活动地点,且停留时间均很长。这与游客的出行行为存在一致性,如游客在一天中访问一个景点,至夜间更换至其他酒店,导致一天中首尾位置不一致。此外,市域外围乡镇居民进入中心城区办事且当日无法往返等情况也与此类相似。本文将此类模式称为“游客类出行模式”。
2.2.3 弹性出行模式
图3中第11、12、13、14、15类可以理解为典型的弹性出行模式。传统的基于问卷的居民出行调查法将弹性出行依据出行目的(如娱乐、购物、短时商务等)进行划分,本质上期望建立目的与居民社会经济之间的联系。本文则从个体出行行为的维度考察此类出行的特征。从图中可以发现,弹性出行发生的时间可分为8: 00—12: 00(第6类)、10: 00—14: 00(第7类)、14: 00—18: 00(第8类)、17: 00—20: 00(第9类)及18: 00—深夜(第10类)。不同时段的活动位置停留时间不一,第6、10类的活动停留时间较长,如医院看病、夜晚娱乐等活动有关;而第7、8、9类的活动停留时间相对较短,则与白天外出吃饭、短时商务、傍晚遛弯等活动有关。各类出行模式的人群占比如表2所示。
图3 个体行为聚类结果Fig.3 Results of individual behavior cluster based on DPMM
2.3 空间分布
出行模式在空间上的分布特征能进一步反映城市空间结构与个体出行之间的相互关系。图4为表2中5类出行特征在市域范围内的空间分布。
为进一步说明各出行模式与城市空间的联系,图4a-图4b首先给出了三亚市常住人口、外地游客的住址分布,用以表现三亚市城市空间功能布局的基本特征。从图中可见,常住人口主要居住在老城区居住功能组团、各区所在镇居住中心,而旅游人口的住址主要分布在老城区、三亚主要旅游景区等旅游服务成熟的功能组团,如亚龙湾、海棠湾、海坡等地。
图4c为第I类出行模式,即非活跃类出行模式的住址分布。在空间上表现出相对均衡的特征,与常住人口的空间分布相契合。
图4d为第II类出行模式,即通勤类出行模式的住址分布。在空间上表现出集聚于老城的特征,主要集中在紧邻老城中心周边的居住片区。这与通勤类出行的特征相契合,工作地与居住地空间距离相对较近,往往围绕老城内的大规模就业岗位分布。
图4e为第III类旅游服务类出行模式,即早晚住址不一致、且出行非常频繁。在空间上表现出集聚在老城主要旅游资源周边的特征。
图4f为第IV类游客类出行模式,即早晚住址不一致、但日出行较少,且单一目的地停留时间较长。在空间上除了在老城内集中,在旅游景区周边也有集聚现象,如亚龙湾、海棠湾。除此以外,位于高速以北的市域村镇也有一些分布,意味着此类出行人群还包含一些市域范围村镇居民外出的情况。
图4g为第V类弹性出行模式。在空间上表现出与常住人口分布规律相似的特征,并无明显集聚现象。实际上,弹性出行也是发生在常住人口当中较为普遍的出行特征。
3 结论与讨论
本文依托三亚市手机信令调查数据,通过居民个体时空轨迹的重构与分解建模,对个体出行行为进行聚类并归纳出5类出行特征。与以往基于问卷的调查相比,基于手机信令的个体行为聚类有助于发现新的出行模式,即一天之内起讫点不在同一位置的出行。考虑到三亚市作为旅游城市,大量旅游业从业人员存在特定的工作方式(夜间上班、白天在家,或“三班倒”交替工作),以及旅游人员有更换住宿地点的特征,该发现有助于更加深入地了解居民活动规律,并在此基础上为基于活动的交通需求预测模型提供帮助。在聚类方法上,本文采用基于狄利克雷过程混合模型(DPMM)进行聚类。与其他聚类方法相比,该方法可在不事先假定聚类数量的情况下,自动发现新的聚类类别,对在大数据背景下丰富既有的研究手段有一定的帮助。该方法适用于任何城市任何类型的手机信令数据,甚至可以扩展为其他数据类型,如出租车GPS等时空采集度更加精细的数据。
表2 典型出行模式与个体聚类对应关系Tab.2 Typical travel mode and corresponding individual clusters
图4 不同出行特征的空间分布Fig.4 Spatial distribution of different travel mode
然而,本文的研究仍然具有一定的局限性。居民个体的活动具有规律性及随机性,本文所分析的时间跨度集中在单一的工作日。尽管通过聚类的方法在同一时间尺度下探讨了个体之间表现出来的群体规律性,但对个体连续多天的活动行为及非工作日的活动行为尚未进行探讨。在出行模式归纳中,受限于手机信令数据的先天缺陷(无居民的社会经济属性、 无地点用地类型),无法将某类出行模式与人群特征完全对应起来,而是通过典型人群的出行行为来进行概括,如“游客类出行模式”并非指该类出行只限于游客,实际上很多常住人口也表现出类似的出行特征。进一步将手机信令数据与城市用地类型(居住、商业等)及其他数据相结合,是未来的重要研究方向。