城市公共交通通勤者活动出行链构建与特征提取方法
2022-03-29陈学武
周 航, 陈学武
(1.杭州市规划设计研究院, 杭州 310020; 2.东南大学江苏省城市智能交通重点实验室, 南京 211189; 3.东南大学现代城市交通技术江苏高校协同创新中心, 南京 211189; 4.东南大学交通学院, 南京 211189)
0 引言
通勤者的活动规律和出行特征挖掘,对制定、实施精准化和个性化的交通资源优化配置策略具有重要意义. 由于数据来源和分析角度存在差异,国内外文献关于特征提取的研究集中在通勤行为理论和城市空间领域.
一是基于居民出行调查数据或活动日志数据的行为或活动理论研究,关注影响因素与通勤出发时刻、活动时长、出行方式等的关系,并构建模型预测. Bowan[1]开发了日活动计划系统,其将通勤者工作日基于家的出行链分为主出行链和次出行链,可以模拟通勤者工作日的活动模式,包括每一次往返行程的目的地、时间和出行方式. Kuppam等[2]基于通勤者活动类型构建模型,估计出行频率、活动时间、户外时间、居家时间等,并分析社会经济属性对通勤者出行和活动行为的影响.
二是在城市空间领域的研究,主要通过从时空等多个角度统计分析通勤出行分布特征. 朱琛等[3]基于居民出行调查数据,从中心城区、近郊拓展区和外围大型社区角度,统计通勤者数量、通勤出行次数、距市中心距离和邻近公交地铁站点距离,并分析居民通勤空间模式、通勤距离通勤结构等通勤特征. Y. Fan等[4]基于2006年北卡罗来纳州三角区的居民行为数据,通过最小凸多边形测量日活动空间等指标来分析居民对空间的利用率,并分析建成密度、交通连通性等城市物质因素对个体空间使用行为的影响. 龙瀛等[5]结合公交IC卡数据识别职住地和通勤出行,分析通勤时间和通勤距离指标,然后可视化分析三大典型居住区和六大典型办公区的通勤出行,并识别主要的交通流方向.
以往研究多使用居民出行调查、活动日志调查等传统调查方式获取人们的日常活动数据,数据来源较为传统,与其他领域数据的融合应用不足,现阶段虽有部分研究采用公交刷卡数据或是手机信令数据[6],但与活动交易数据、城市空间数据等新兴数据的融合关联分析较少. 特别是,近年来城市居民使用市民卡、银联卡、支付宝和微信等无现金手段的频率明显变高,而这种活动交易数据对居民的出行活动信息的获取和完善具有重要意义. 本研究基于南京市活动交易数据与公共交通出行数据,提出融合活动与出行信息的活动- 出行链构建方法,避免了活动与衍生出行的割裂,同时从日常活动和通勤出行2个角度,选取包括活动频次、活动空间面积、非工作活动习惯、通勤方式、通勤时耗等在内的12项特征指标,并基于活动出行链完成指标提取,作为后续公共交通通勤者的活动出行特征分析的前提准备,可应用于类似数据结构和分析需求的其他研究场景.
1 研究数据
1.1 公共交通出行数据
出行数据是描述居民出行全过程信息的数据,涵盖出发时间、出发位置、出行方式、到达时间、到达地位置等多个字段. 本研究所使用的案例数据为基于南京市公共交通刷卡数据(包括常规公交、轨道交通和公共自行车3类)处理得到的公共交通通勤者出行数据,时间范围与活动交易数据时间一致,均为2019年3月,字段示意如表1所示.
1.2 活动交易数据
活动交易数据是活动出行链构建的关键基础数据,相比结合周边建成环境(如POI)识别出行目的[7],带有时空信息的活动交易数据能够对出行的活动来源进行更加精准的填补. 数据信息应尽可能包括个人信息、时间信息、空间信息和交易类型,即可与出行数据进行字段融合的个人ID、交易时间、交易地点经度、交易地点纬度和反映活动类型的交易类型5个字段. 若实际交易数据未包括以上全部字段,则需要考虑其他方法对其补齐.
本研究所使用的案例数据为南京市市民卡活动交易数据,由发卡公司南京市市民卡有限公司提供. 市民卡活动交易原始数据仅包括卡号、交易时间和交易地点名称3个字段,示意如表2所示.
表1 公共交通通勤者出行数据字段示意
表2 市民卡活动交易刷卡原始数据字段示意
2 公共交通通勤者活动出行链构建方法
2.1 活动交易数据与出行数据融合
通过卡号可以将公共交通出行数据与活动交易数据联系起来,即将出行时空与活动交易的时间和空间信息相关联. 在对活动交易数据进行空值、错误以及重复记录的剔除等预处理操作后,需要通过坐标反查和类型匹配等处理流程,完成对活动交易数据的空间信息与交易类型信息补充. 前者可通过百度地图Web服务API的正/逆地理编码服务功能来完成,即向百度地图Web服务API平台发送请求,获取响应内容后解析并提取出各输入地址对应的经纬度数据. 另外,根据交易地点的名称,可推断其对应的交易类型,具体分类与常用的出行目的或活动目的保持一致[8],包括购物、就餐、休闲等.
粘液腺囊肿被视为口腔科疾病之一,它是一种口腔粘液腺导管因受到外伤后发生破裂,涎粘蛋白分泌物潴留于腺体组织内,所引起的腺泡逐渐膨胀而形成的囊肿。囊肿多发生于下唇,其次是舌尖、舌腹部以及颊粘膜等处。症状为局部肿胀,患处有淡紫蓝色半透明且质地柔软的囊性肿块,易破溃,破溃排出液体数日后会反复发作,病程可数天到数月。本文在梳理腺上皮和粘液腺的组织细胞学知识的基础上,综合分析了粘液腺囊肿这种疾病的治疗方法以及各种方法的优点和不足。
完成活动交易数据预处理操作后,需要将处理后的活动交易数据与出行数据进行整合,以共同字段卡号作为乘客的唯一标识,并按出发时间排序,得到活动出行整合数据. 将原数据中交易时间、交易地点经度和纬度值分别对应匹配到出行数据字段中,以减少活动出行数据含有的字段数量. 整合完的活动出行数据涵盖城市居民公共交通出行和活动相关的所有时间、位置和类别信息,为后续活动出行链构建工作提供完备数据.
2.2 活动出行链构建
本研究在活动出行链构建过程中,以活动作为基础单元,认为出行只是到达活动地或完成活动的衍生行为,应将其与对应进行的活动相匹配. 当获取的活动交易数据来源越来越多时,对应的活动类型更加完整,构建出的活动出行链也更加全面和精确,该方法能够广泛应用于后续多源活动数据下的活动出行链构建与分析工作,构建方法的流程如图1所示.
图1 活动出行链构建方法流程
首先依据公共交通出行数据的通勤出行标识和到达地属性,对活动出行整合数据中每条出行记录的活动类型进行更新匹配;然后,根据当天的活动类型、出发地属性和到达地属性,对各居民每天的活动出行数据补充与家相关的首尾活动;最后,计算出行到达地点和活动交易地点的时空距离,将符合同一项活动条件的活动和出行记录数据进行合并,并计算活动时长和更新活动链与活动序号.
活动出行链的构建结果包括活动链标识、活动属性和出行属性3项类别的17个字段,具体字段说明和数据示意如表3所示. 其中,每1行记录代表1项活动,活动链序号用活动日期中的日来表示,活动序号为每项活动在当日的次序,顺带活动类型为活动出行记录合并操作中符合合并条件的活动类型;活动时长为当前活动到达与下一活动出发的时间差,若活动类型为上班,则需计算上班活动到达与从工作地下班出发的时间差,其他字段与活动出行整合数据的大部分字段一致.
表3 活动出行链数据字段示意
3 活动出行特征指标提取
3.1 特征指标选取
在通勤者的活动和出行特征分析方面,当前研究选取的分析指标众多,缺少系统性的特征分析指标体系,常用的指标包括活动时间、活动多边形面积等活动特征指标,出行频率、出行方式等出行特征指标,以及通勤出行次数、通勤时间、通勤距离、通勤结构等通勤特征指标[2-3,9-10]. 为系统反映公共交通通勤者的活动出行特征,本研究考虑从日常活动与通勤出行角度出发,分层次选取代表性指标,以构建活动出行特征指标体系,以便掌握研究对象的行为规律,整体结构如图2所示. Ⅰ层由日常活动和通勤出行2部分构成,反映公共交通通勤者的2个需要深入特征挖掘的角度;Ⅱ层是对Ⅰ层的初步分类,代表不同的初步分析方向;Ⅲ层是对Ⅱ层的进一步细化分类,分别对应不同的细分属性;Ⅳ层是Ⅲ层属性下具有代表性的详细指标,对应描述上层某一局部属性的特征.
图2 公共交通通勤者活动- 出行特征指标体系
3.1.1 日常活动角度
公交通勤者作为社会中的一员,日常生活中会因自身或家庭需要,选择在一定时间和地点进行特定的事项,即为活动[11]. 日常活动包括多种类别,同时存在多个分析角度,其主要分为基础特性和时空特性2个方面. ①基础特性主要反映数量和持续时间等常规特征,包括活动频次和活动时长2个特征指标,前者用以体现活动出行的频率,后者可反映活动进行过程中的持续时长. ②时空特性主要是反映活动在空间范围、方向以及时间或空间位置等方面的特征,包括活动空间多边形面积、活动空间离心率、活动可达距离和非工作活动习惯4项特征指标,活动空间面积反映一定时间范围内活动所构成的空间范围,活动空间离心率反映活动范围的空间方向性特征,活动可达距离体现完成某项活动需要额外花费的空间距离,非工作活动习惯分析的是非工作活动与工作活动在时间和空间层面上的关系,以体现非工作活动的行为规律.
3.1.2 通勤出行角度
因此,最终选取的指标包括活动频次、活动时长、活动空间多边形面积、活动空间离心率、活动可达距离和非工作活动习惯6项日常活动特征指标,以及通勤方式、通勤时耗、公共/小汽车通勤时耗比、通勤换乘时间、通勤方式稳定率和通勤时耗变异系数6项通勤出行特征指标.
3.2 特征指标提取方法
3.2.1 日常活动角度
1) 活动频次指的是居民在某分析时间段内进行活动的次数,即居民进行某项活动的频繁程度和对活动的需求程度. 其提取思路是先确定分析时间段,再对分析时间段内各类型活动记录数量分组统计,即可得到各类活动的活动次数,其与分析时间段的比值即为活动频次.
2) 活动时长指的是居民进行某项活动的持续时间,反映达到活动目的需要消耗的时间. 其提取思路与活动频次类似,同样需要先确定分析时间段,考虑分析需求来设定分组依据,进而对各类活动的持续时长进行分组统计.
3) 活动空间多边形面积指的是居民在某分析时间段内活动点所构成的空间范围面积,其面积测度的几何模型为最小凸多边形. 指标公式如式(1)所示,N表示活动点构成的最小凸多边形上的顶点数,O点为最小凸多边形内的任意一点,其面积即为以O点和多边形相邻顶点构成的三角形面积之和. 其提取可以借助ArcGIS软件完成,将分析时间段内活动点的地理文件导入软件,使用数据管理工具中要素栏下的最小边界几何工具,输出最小凸多边形空间面文件后,对其进行面积计算即可得到每个人的最小凸多边形面积. 基于南京样本数据,得到的指标空间分布如图3所示.
(1)
图3 南京样本人群工作日(左)和周末(右)活动空间最小凸多边形分布示意
4)活动空间离心率可反映活动空间方向性的明显程度,指的是涵盖一定比例活动点的椭圆几何形状的焦距与长轴之比,其中的椭圆被称为标准差椭圆,活动点为居民在某分析时段内的活动位置点. 其提取同样可借助ArcGIS软件完成,将分析时间段内活动点的地理文件导入软件,使用空间统计工具中度量地理分布栏下的方向分布(标准差椭圆)工具,输出标准差椭圆面文件后,结合椭圆焦距计算公式,对面属性中的长轴和短轴值进行计算即可.
5)活动可达距离指的是从上一活动完成地点去往当前活动地点的空间距离,反映居民为完成某项活动额外进行的空间位移. 其提取思路是先确定分析时间段,考虑分析需求来设定分组依据,提取各活动点的经纬度数据,利用2点经纬度坐标间距离计算公式即可.
6)非工作活动习惯指的是某非工作活动进行时所处的时间阶段和空间位置类别,时间阶段类别考虑工作活动时间进行划分,空间位置类别考虑职住地进行划分,如式(2)所示. 将各项非工作活动的时间和位置与工作活动的时间和位置进行比较即可得到.
(2)
3.2.2 通勤出行角度
1) 通勤方式指的是居民从居住地前往工作地的出行所使用的交通工具,可能是某一种交通工具,也可能是不同交通工具的组合. 指标无需计算,可直接获取.
2) 通勤时耗指的是居民从居住地前往工作地的出行时长,与通勤出行方式的选取紧密相关,反映进行工作活动需要额外耗费的路途时间. 可根据指标公式计算工作地到达时间与居住地出发时间的差值得到.
3) 公交/小汽车通勤时耗比指的是完成同一通勤出行起讫点间位移时,使用公交与小汽车耗费时间的比值,体现公共交通方式的出行效率. 公交通勤时耗即为前文提取的通勤时耗指标,而小汽车通勤时耗的获取需要通过百度地图Web服务API开放平台完成,两者比值即为指标结果. 基于南京样本数据得到的指标分布示意如图4所示.
图4 南京样本人群公共交通- 小汽车通勤时耗比的通勤OD分布示意
4) 通勤换乘时间指的是完成职住地间通勤出行过程中不同交通工具间转换的时间,反映通勤出行的换乘效率. 其提取可根据指标含义计算通勤出行各阶段间的换乘时间之和得到.
5) 通勤方式稳定率指的是在某分析时间段内使用完整通勤方式完成通勤出行的天数占公共交通通勤天数的比例,其中完整通勤方式为居民完成通勤出行全程所使用的方式. 指标反映在外部或内部因素影响下通勤出行方式的波动程度,若稳定率低则表示对应通勤出行存在可靠性较低的现象. 指标公式如式(3)所示.
(3)
6) 通勤时耗变异系数指的是某分析时间段内通勤时耗标准差与均值的比值,反映通勤时耗的波动程度,值较大时表明对应的通勤出行可靠性较低. 其提取可通过对各乘客多个通勤时耗数据计算标准差和均值,将两者相除即可得到.
4 结论
本文在融合活动交易数据与公交出行数据的基础上,提出活动出行链构建方法,并进一步完成日常活动特征和通勤出行指标的提取. 将两种数据整合后通过对活动类型的更新、活动出行记录的填补和合并,得到活动出行链构建结果,数据包括活动链标识、活动属性和出行属性3项类别的17个字段. 并且,从日常活动和通勤出行2个角度,制定了公交通勤者活动出行特征分析的4层指标体系,确定活动频次、活动空间多边形面积、非工作活动习惯、通勤方式、公交/小汽车通勤时耗比等12个特征指标,同时阐述了各项指标的提取方法,如ArcGIS软件相应工具包的选取和使用、分析角度的选取等,并基于南京样本数据进行操作结果示意. 活动出行特征指标的提取,为后续的活动出行特征分析和公共交通相关设施优化提供了数据基础和参考依据. 但由于受到数据限制,本研究活动信息仅来源于市民卡活动交易数据,刷卡场所较为单一,后续研究可根据获取到的微信、支付宝等新型活动交易数据,构建更为完整的活动出行链,以更为全面的分析应用.