基于智能卡数据的轨道与公交复合网络通勤方式选择行为研究

2022-03-02王子甲贾慧慧朱亚迪陈峰

交通运输系统工程与信息 2022年1期

王子甲，贾慧慧，朱亚迪*，陈峰,2

(1.北京交通大学，a.土木建筑工程学院，b.北京市轨道交通线路安全与防灾工程技术研究中心，北京100044；2.中国石油大学(北京)，机械与储运工程学院，北京102249)

0 引言

随着我国城市交通基础设施建设进程加快，可供选择的出行方式日益多样化。公共交通由于其便捷、环保的优势得到政府的大力发展。然而，大部分城市的公共交通分担率依然较低。以通勤者为研究对象，研究公共交通组合选择特征，为公共交通规划提供理论依据，对提高公共交通分担率、解决交通拥堵等问题具有重要意义[1]。

城市轨道交通与常规公交是城市公共交通系统的主要组成部分，随着两者之间的融合发展，对乘客在公共交通系统中的选择行为的研究已经不能单一考虑常规公交或轨道交通[2]。乘客在一次出行中可有多种方式形成多个出行阶段，如公交直达、地铁直达、公交换乘公交、公交换乘地铁、地铁换乘公交等，多个出行阶段共同组合成一个完整出行。目前，国内外对公交与轨道交通组合网络的复杂特性展开了广泛研究，但在对复合网络中出行方式选择的研究中，通常只考虑公交或轨道单一阶段，研究仅公交方式与仅地铁方式间的选择特性，较少考虑公交与轨道交通的组合出行方式，忽略了出行的完整性。如杨艳妮等[3]基于效用函数理论，建立分层MNL 模型，研究不同类型出行者对公交车、地铁、出租车这3 种方式的选择偏好；Madhuwanth等[4]利用因子分析统计技术，基于个人属性特征和出行特征研究科伦坡地区的公共汽车、轨道交通、摩托车等交通方式的选择偏好。复合网络中的方式选择本质为路径选择，本文基于常规公交与轨道交通复合网络上的连续出行链，研究通勤乘客在公共交通复合网络中的选择偏好。

在方式或路径选择模型研究中，多项Logit 模型应用广泛[5]。传统的模型参数标定数据来源于人工调查问卷，该方法需要大量时间及劳动力，且得到的信息需要经过数字化处理才能进行后续分析。随着公共交通数据采集技术的不断发展，居民出行信息的收集更为便捷。很多城市的交通卡采用一卡通解决方案，为多方式公共交通的数据融合提供了数据基础。深入挖掘交通大数据，可以更方便地获取更真实、准确的出行信息，如Jang等[6]利用智能卡数据，研究首尔地区多种出行模式下的乘客出行特性。此外，在轨道交通单层网络中，无刷卡换乘使路径选择模型的标定无真实数据支撑，模型误差较大，但在复合网络中，换乘时有刷卡记录，可配合提取完整出行方式。Nassir等[7]提出了一种基于公共交通智能卡数据识别换乘及活动的方法，研究了公共交通乘客多阶段的出行模式及路径选择，并与传统调查方法进行对比，结果显示，基于智能卡数据的方法可靠性较强。

因此，本文在前人研究的基础上，充分利用智能卡数据中的出行信息，研究出行成本对复合网络中通勤方式选择的影响。在融合公共交通多源数据的基础上，提出完整出行信息的提取方法，随后构建耦合换乘站点的复合公交网络，并建立5种考虑多种因素组合的多项Logit 模型，最后以北京市公共交通网络及某工作日的刷卡数据为例，进行求解和分析。

1 数据集

以北京市某工作日常规公交IC卡数据及轨道交通AFC数据为例进行说明。

1.1 常规公交卡数据

北京市常规公交车辆上均配备IC 卡读取设备，乘客通过上、下车刷卡记录上、下车信息。初始刷卡数据包含卡号、交易时间、线路号、站点编号等字段，需经过数据预处理、匹配站点编码表后才能应用。北京市常规公交大部分为分段计价，为减少分段数目，个别距离相近的站点被设置成同一编号，因此出现了同一站点编号对应多个站点的情况。由于这些站点距离较近，本文在数据处理时，将该类站点合并处理。

1.2 轨道交通卡数据

北京市轨道交通在进、出站处配备闸机设备，需要刷卡进出站。与公交卡数据相似，初始AFC数据同样记录了卡号、交易时间、站点编号等信息，应用前需先经过数据处理。

公交(B)IC 卡数据与轨道交通(M)AFC 数据通过卡号关联，将两种数据整合，示例如表1所示。

表1 数据示例Table 1 Sample data

2 乘客出行链提取方法

乘客出行链提取的研究较多，本文在其基础上提出一套考虑通勤修正的出行链提取方法，分为初步提取和通勤修正两部分。初步提取流程如下：

(1)将同一卡号刷卡记录按时间排序。

(2)计算同一乘客相邻两条记录的时间差Δt及换乘模式，确定换乘时间阈值δ。不同方式间的换乘特性不同，需要分类计算换乘时间阈值。本文分为B-B、B-M 和M-B 这3 种模式，将每种模式的时间差( Δt≤60 min)按升序排序，取累计频率为95%[8]的时间差值为该模式的换乘时间阈值。

(3)进行换乘关系判别。若Δt≤δ，则认为该过程为1次换乘，对应的两条相邻记录属于同一条出行中的不同出行阶段；否则，认为两条相邻记录属于不同出行。

常规公交乘客在下车时自主刷卡下车，为了节省下车时间，可能会出现提前刷卡的情况，需要根据通勤特性对出行链进行修正。若同一卡号乘客在早高峰(6:30-9:30)与晚高峰(17:00-20:00)均有出行记录，则该乘客具有通勤特征。因此，如果同一卡号乘客在晚高峰第一个出行阶段使用的出行方式与早高峰最后一个出行阶段的方式相同，则认为其晚高峰的上车站点为早高峰的下车站点。

3 公共交通复合网络路径选择模型

3.1 复合网络构建方法

复合公共交通网络包括城市轨道交通子网络、常规公交子网络和换乘站点连接层。构建多层网络前需先应用图论方法分别建立与真实城市轨道交通、常规公交站点和路段对应的节点和线段，进而构建城市轨道交通子网络和常规公交子网络。文献[9]表明，城市轨道交通站点步行接驳距离为770 m，因此在轨道交通站点与其770 m 范围内的公交站点间建立虚拟换乘链接，利用虚拟换乘链接将城市轨道交通网络与常规公交网络组合成复合公共交通网络，如图1所示。

图1 复合公共交通网络构建示意图Fig.1 Composite public transportation network construction

3.2 有效路径集

建立合理的有效路径集是构建选择模型的关键，有效路径的多少影响着路径选择概率的大小。K短路算法是常用的路径搜索算法，本文应用基于深度优先的K短路算法[10]进行路径搜索。

通过路径搜索算法获得的K条路径中可能存在一些不合理的路径，需要设置时间阈值对其进行有效性判别。由于多层网络的复杂特性，合理选择时间阈值对提高路径选择模型的精度十分重要。本文在Cheon 等[11]研究的基础上，选择OD 间累积拟选择概率为85%的路径集为有效路径集。

3.3 多项Logit选择模型

采用多项Logit模型计算多方式选择概率，OD对r-s间第k条路径的选择概率为

式中：θ为路径感知系数；Cr,s,i为r-s间第i条路径的广义成本；n为r-s间可选路径总数。

为探究各类因素对路径选择的影响，分别构建5 种考虑在车时间、候车时间、换乘时间、换乘次数和票价等因素的广义成本函数。

模型1

模型2

模型3

模型4

模型5

参数定义如表2所示。模型1设置了两个时间惩罚参数和两个票价惩罚参数，分别探究公交与轨道的出行时间和票价的影响；模型2考虑到出行的完整性，仅设置一个时间惩罚参数和一个票价惩罚参数；模型3 将在车时间与候车、换乘时间分开考虑，由于常规公交存在同站换乘的情况，且候车时间不规律，因此将换乘时间与候车时间合并为一项；模型4是在模型2的基础上加入换乘次数项；模型5是在模型3的基础上加入换乘次数项。

表2 模型参数及定义Table 2 Model parameters and definition

采用多元线性回归法对模型参数进行估计。首先，将多项Logit 模型两两相除后取对数，转换成线性模型。然后，利用出行链提取数据进行标定。

4 实例分析

以北京市城市轨道交通及常规公交线网为例，选取某工作日的刷卡数据进行计算分析。出行链提取后的结果如表3所示。复合网络中出行方式组合类型较多，若要研究全部组合类型难度较大。由出行链提取结果可知，公交(B)、地铁(M)、公交-公交(B-B)、公交-地铁(B-M)、地铁-公交(M-B)这5种模式的数据占比高达97%。因此，本文仅对卡记录中不同方式换乘数小于2 次的早高峰通勤出行进行研究，即研究对象为B、M、B-B、B-M、M-B这5种情况下的通勤乘客。

表3 出行链提取结果示例Table 3 Trip-chain extraction results

选取10 个体现多种方式组合的典型OD 对进行模型参数标定，由于提取后的OD 对总数较多，本文以海淀区为例进行标定，10对OD的具体说明如表4所示。模型参数及取值如表5所示，标定前需先进行共线性检验，通过计算方差膨胀因子(VIF)检验共线程度，一般当VIF 大于10 时认为模型存在严重共线性。5种模型中仅模型1中单方式出行时间与票价存在严重共线性，剔除共线性自变量后的标定结果如表6所示。

表4 OD信息说明Table 4 Information about OD used for calibration

表5 模型参数及取值Table 5 Model parameters and values

表6 标定结果汇总Table 6 Summary of calibration results

计算模型的校正R2(AdjustedR2)，校正R2可以抵消样本数量对R2的影响，能够更精确地反映模型的拟合程度，其值越大，模型拟合程度越好。标定结果表明，5种模型中，模型4>模型3>模型5>模型2>模型1，模型4的拟合程度最好，表明在公共交通的方式选择研究中，以完整出行链为研究对象、以整体出行成本为自变量的模型，优于以出行阶段为研究对象、以不同方式的成本为自变量的模型。模型4中系数显著性均在0.01的水平下，说明考虑在车时间、候车时间、换乘时间、换乘次数的出行总时间及票价因素显著影响乘客的方式选择概率。出行时间与票价系数均为正，表明在OD间其他路径成本不变的情况下，增加某路径的出行时间和票价会增大该路径的广义出行成本，从而减小乘客选择该路径的概率。模型5 与模型3 中换乘+候车项系数均无显著性，说明乘客在公共交通复合网络的方式选择中，与换乘+候车的时间相比，更加重视出行的总时间。模型4 的拟合程度好于模型2，说明换乘次数显著影响乘客在复合公交网络中的方式选择，两种模型中出行总时间系数的显著性均高于票价系数，说明与票价相比，高峰时期通勤乘客更注重总时间的长短。模型1 中轨道交通出行总时间的系数没有显著性，这表明某一出行阶段的出行时间并不是影响乘客在复合网络中选择的主要因素。

选取两个典型OD对模型4进行验证，OD位置如图2所示，模型计算结果评价如表7所示。模型平均绝对差值不足5%，说明其拟合效果较好。

表7 模型验证Table 7 Model verification

图2 OD对示意图Fig.2 Schematic diagram of OD

出行时间价值(Value of Time,VOT)是单位出行时间的货币化表现，一方面是通勤者通勤时间的价值，另一方面也可以从侧面评估模型的合理性。计算模型4对应的出行时间价值V[13]，即

式中：C为出行总成本；T为出行时间；F为出行费用。所得VOT 为16 元⋅h-1。现有文献中，出行时间价值大多为按照平均工资、国民生产水平等取值，一般取12 元⋅h-1[14]。本文研究对象为公共交通通勤者，通勤出行的时间价值理论上应高于一般水平。

5 结论

本文通过比较构建的5 种考虑多种因素组合的多项Logit模型，得到的主要结论如下：

(1)基于完整出行的选择模型拟合效果优于基于出行阶段的模型。

(2)考虑在车时间、候车时间、换乘时间、换乘次数的出行总时间及票价因素显著影响复合网络中公共交通通勤乘客的方式选择行为，且出行总时间的影响更大，提升公共交通运输效率会显著提高通勤乘客的选择概率。在OD 间其他方式成本不变的情况下，增加某方式的出行时间和票价会增大该方式的广义出行成本，从而减小乘客选择该方式的概率。

(3)与换乘+候车时间相比，出行总时间及票价对通勤乘客在复合公交网络中的方式选择行为影响更显著。

研究结果可为提升轨道与公交的协同程度提供技术支持，从而提升公共交通吸引力。本文仅考虑轨道交通与常规公交两种典型的公共交通方式，未来将加入快速公交、共享单车、出租车等其他类型的交通方式，完善交通大数据集，深入探索多层网络中方式选择的特征。