基于活动识别的公交出行行为重构与分析
2020-09-01魏广奇苏跃江
魏广奇,苏跃江,余 畅
(广州市交通运输研究所广州510635)
0 引 言
掌握城市居民公交出行行为规律,对于优化公交资源配置和提升公交服务水平具有重要意义.IC卡数据中蕴藏着海量公交出行信息,能为公交出行研究提供丰富的数据支撑.近年来,基于IC卡数据的公交出行研究主要包括上下车站点估计、换乘识别、生成OD、出行特征分析等内容.Trepanier 等[1]基于居民通勤出行规律提出两站点模型,估计下车站点;Munizaga 等[2]利用IC 数据,基于出行链的思想对公交出行的起讫站点进行推断,通过模型生成公交OD 矩阵;Chen 等[3]基于IC数据以及公交运营数据,根据出行者的出行频率和时空特征对出行区域的属性进行鉴定,估计出行者的OD分布;Trepanier等[4]基于每日IC卡出行记录,提出利用离散时间风险模型来衡量IC卡用户的出行规律性.上述研究主要集中在出行信息层面,研究重心在合理估计公交出行起讫点以及出行信息统计,较少对公交出行行为活动进行分析.随着精细化公交服务的需求日益提升,关于公交出行规律的研究从出行信息宏观层面向活动目的微观层面发展.
本文基于IC卡数据获取公交出行信息,提出以活动区域识别以及活动区域属性判别为核心的公交出行重构分析方法,以广州市居民为实例,对广州市公交出行规律特点展开实证分析.
1 研究方法
本文提出以活动理论为基础的公交出行行为重构分析方法.首先,基于出行链思想将公交出行信息进行重组,转换为居民的每一次出行行为;通过对每次出行的起讫站点进行空间上的聚合,获得居民的日常活动区域.其次,在活动区域的主要活动属性识别上,以历史出行信息统计分析为导向,分别以日首次出行率、日均到达次数及日均停留时间作为标准,对居民的居住及工作区域进行判别;根据出行目的地区域的主要活动属性不同,对居民的公交出行行为进行重构.最后,基于上述出行重构结果,研究居民的公交出行规律特点.
1.1 公交出行信息重组
基础数据包含IC卡数据和公交运营数据.IC卡数据包含每次出行的刷卡时间和乘坐车辆及线路信息,结合公交报站数据获知刷卡出行的上车站点;对于下车站点,需要根据出行者的下次上车站点信息对本次下车站点进行合理推断.公交运营数据包括:报站数据、发班数据和线网静态数据.采用文献[5]上下车站点估计模型,对基础数据进行处理,生成公交出行OD信息.
为便于出行目的判别,将基于一次出行活动的出行信息关联合并,将基于刷卡的出行信息转化为基于活动的出行信息.若相邻刷卡出行的地点满足步行距离的空间约束,并且出行间隔不超过某个时间间隔阈值,认为该出行者在此期间进行换乘行为,这两次刷卡可合并为一次出行行为.
2017年9月12 日广州市全天450万刷卡数据中,刷卡出行间隔在1 h以内的频数统计分布,如图1所示.频数在间隔0~20 min 区间内呈现先增后减的趋势,在大于20 min的区间,间隔的频数变化幅度较小,说明大多数相邻刷卡出行的间隔在20 min之内;根据对公交发班记录的统计,广州市87%的公交线路发车间隔在10~20 min区间内.因此,以20 min作为时间间隔阈值,将满足条件的前后两次刷卡出行合并为一次出行行为,将公交出行信息转换成基于活动判别的出行行为.
1.2 活动区域判别
实现居民出行行为判别后,根据每次出行的时空分布特征推断出行目的.由于目的地公交可达性的影响,对于相同的出行起点,若出行终点不同,乘客会根据可达线路选择在不同的车站上车;而对于相同的出行终点,根据不同的出行起点,乘客会在出行终点周边不同的车站下车,如图2所示.直接对出行的起终站点进行统计会导致统计特征指标的离散,不利于出行规律分析和出行目的识别,因此需要对可能属于同一个活动区域的站点进行聚合.
图2 某居民活动区域站点分布示意图Fig.2 Distribution of bus stations and activity areas
系统聚类法根据类间距离对距离近的类不断进行合并,适用于分类规则明确的聚类问题.居民通常会选择在出行地周边的步行可达范围内乘坐公交,因此,通过对居民日常使用的公交站点进行空间聚类,实现居民日常活动区域的识别.
一方面,在当前共享单车有序发展的背景下,“最后一公里”的出行服务相应提升公交站点的接驳范围;另一方面,按照步行速度4 km/h和城市规划提出的15 min 生活圈,计算公交站点的服务范围为1 km.因此,以1 km 作为最大类内距离,即最大接驳范围,采用系统聚类重心法对每位居民出行的公交站点进行聚类,聚类的结果即为每位居民的日常活动区域.
类定义为
式中:i为第i类;n为聚类合并次数;Sm为该类中第m个公交站点.
类重心定义为
式中:x(Si)为站点Si的横坐标;y(Si)代表站点Si的纵坐标.
类间距离是两个类的类重心之间的欧氏距离.
站点聚类步骤如下:
Step 1将某居民所有出行的起讫站点分别作为一类.即建立N类,以各个类间的距离(初始时即为各样本间的距离),生成一个N×N的距离矩阵D(0),其中元素记为
Step 2选取使用次数最多的站点K作为聚类的起点开始本次聚类合并.
Step 3对于得到的距离矩阵D(n),求第K行中最小的元素,将和两类进行合并,从而生成新类并计算的类重心重新计算类重心到类内最远的两个元素之间的距离,若距离小于1 km,则新类有效,重新计算类间距离,得到;并继续Step 3;若距离大于1 km,则执行Step 2,直到所有站点都曾经作为聚类起点并完成聚类过程.
通过上述步骤将每位居民出行记录中距离相近的公交站点进行聚合,有效划分出若干个活动区域,每个活动区域的出行特征得到聚合保留,便于对各区域的活动属性进行判别.
1.3 活动区域主要活动属性判别
城市居民公交出行的出行目的类型,可以分为通勤出行和非通勤出行.通勤出行在时空上具有较强的规律性,因此将活动区域的主要活动属性划分为三类:居住地(H)、工作地(W)和非职住地(O),根据区域主要活动属性的分类,居民的出行定义为3种:回家出行、工作出行(包括上班和上学)以及其他出行.
(1)居住地(H)的判别.
对于大部分城市居民来说,至少拥有一个常用居住地.根据日常的出行规律,居民每天首次出行通常都以居住地为出发地.因此,日首次出行率可以作为居民居住地的判定指标.
日首次出行率指对于居民的某个活动区域,该区域作为出行日(有公交出行的某天)首次出行的出发区域次数占出行日总数的比例.对于活动区域的日首次出行率计算公式为
式中:Si是指该居民在活动区域i进行当日首次出行的总次数;di是指该居民乘坐公交出行的总天数.
为合理确定用于居住地判定的日首次出行率r的阈值,统计全部出行者样本各活动区域的日首次出行率,其中所有样本的最高首次出行比例区域的首次出行率分布及累计曲线如图3所示.
图3 最高首次出行比例区域的首次出行率分布—累计图Fig.3 Proportion of first trip rate in the area with highest rate
由图3可知,超过95%的出行者均具有一个日首次出行率超过40%的活动区域,对于出行者来说,每日第一次出行大概率发生在该区域,具有明显的居住地特征.因此,以40%作为指标阈值,将每日首次出行比例大于40%的活动区域判别为该居民的居住地.
(2)工作地(W)的判别.
工作地指城市居民每日上班(或上学)的地方.对于绝大多数居民,在工作地区域的日均停留时间明显大于其它活动区域,可将日均停留时间作为工作地的主要判别标准.对所有样本各活动区域的日均停留时间进行统计,停留时间根据IC卡前后次出行时间差进行估算,剔除出行者的居住地区域,选取日均停留时间最长的区域,各出行者日均停留最久的区域停留时间频次分布如图4所示.
图4 日均停留最久区域的日均停留时长分布图Fig.4 Proportion of average retention tine in area with highest arriving time
由图4可知,超过95%的出行者停留时间最长的活动区域日均停留时间超过4 h,与城市居民的日常工作时长相符(全日制工作为8 h、半日制工作为4 h).因此,将各活动区域中停留时间最长且大于4 h的区域判别为该出行者的工作地.针对普通卡持有者,工作地为上班地点;针对学生卡持有者,工作地为上学地点.
(3)非职住地(O)的判别.
对于既不满足居住地判别条件,又不满足工作地判别条件的区域,判定为非职住地区域.
2 出行活动特征分析
采集广州市2017年9月的IC卡数据及相关公交运营数据.由于不同IC卡类型(普通卡、老人卡、学生卡等)具有不同的出行规律特征,在保持各类型卡占比与总体一致的前提下,抽样选取26677张IC卡的刷卡出行样本作为分析对象,出行记录总数为110万条.分析广州市居民公交出行规律特征,获取居民每日的出行链构成,对公交出行行为进行重构.对样本出行者在分析时段内所有出行日的出行链进行统计,提取出现次数最多的前十种出行链类型,如表1所示.出行链接活动数量越多,出行链数量所占比例则越低.
根据IC卡的票卡类型,对4类出行者群体的出行活动特征进行分析.表2为不同类型出行者的活动区域数量及平均停留时间情况.4类IC卡群体在一个月内的平均活动区域个数在7、8个左右.从停留时间来看,普通卡和学生卡群体在活动区域的平均停留时间更长.
表1 出行链构成Table1 Composition of trip chains
表2 各类出行群体的活动区域数量与平均停留时间Table2 Number of activity areas and average retention time among different card types
由表1可知,无其他出行行为的简单出行链“H-W-H”(家—工作地—家)和“H-O-H”(家—其他—家)所占的比例最高,占出行链组成比例74%;
图5为4类IC卡群体月活动区域数量的频数分布图,各类型活动区域在6∼8个之间的人数均接近人群总数的1/2,老人免费卡群体的活动区域数量相比其他群体显著多,出行活动较为丰富.
图5 4类IC 群体的活动区域数量分布Fig.5 Proportion of activity area in four types of smart card group
对于普通卡群体和学生卡群体这两类通勤比例较高的群体,对其出行活动构成比例进行统计分析.图6和图7分别为学生卡群体和普通卡群体的工作出行(W 出行)、回家出行(H 出行)和其他出行(O出行)3种出行类型的占比分布.可以得到,学生卡群体出行基本以上学出行和回家出行为主,大多数学生的上学和回家出行总占比达到80%~90%;普通卡群体3种不同目的出行中,回家出行比例较大,与学生卡群体不同,工作出行与其他出行占日常出行比例比较相近,表明随着城市的发展,居民非工作出行活动越来越多,出行更加丰富多元化.
图6 学生卡群体各活动类型的出行比例分布Fig.6 Proportion of different activity type in student group
图7 普通卡群体各活动类型的出行比例分布Fig.7 Proportion of different activity type in normal card group
对比工作日和非工作日的出行活动构成分布.图8和图9分别统计工作日(以周五为例)和非工作日(以周六为例)一天内不同时段3种出行类型的出行量分布.
图8 工作日(周五)不同时段不同类型出行需求堆积图Fig.8 Accumulative diagram of travel demand with different period and activity type in working day
图9 非工作日(周六)不同时段不同类型出行需求堆积图Fig.9 Accumulative diagram of travel demand with different period and activity type in non-working day
由图8和图9可知,工作日工作出行需求主要发生在早高峰;回家出行需求从10:00开始逐渐增多,主要发生在晚高峰时段和夜间;其他出行的出行需求在全天分布比较均匀.非工作日3种类型出行的出行需求相比于工作日均有所下降;早高峰出行需求从工作出行为主变为工作出行、其他出行需求相当的情形;而平峰时段其他出行和回家出行需求均有所增加.
3 结 论
通过对IC卡数据和公交运营数据的挖掘,实现居民主要活动区域及出行行为类型判别,并以实例数据分析广州市居民公交出行行为的规律特征.结果表明:学生卡群体、普通卡群体工作日早晚通勤特征明显,工作日、非工作日出行需求变化较大;老人卡群体工作日出行集中在早高峰后至平峰时段,工作日、非工作日出行需求变化较小;工作日早、晚高峰出行需求以工作出行和回家出行为主,非工作日不同类型出行需求均有所下降,时间分布更为均匀.本文的公交出行行为重构分析方法,对于站点聚类以及活动属性判别等相关参数的设定主要基于统计结果,后继研究将进一步开展相关参数的敏感性分析,形成更科学可靠的分析结果.