APP下载

基于多源数据融合的高铁枢纽多模式换乘客流分担率估计

2022-03-18马晓磊姚李亮

关键词:换乘公共交通公交

马晓磊,刘 兵,姚李亮

(北京航空航天大学交通科学与工程学院,北京 102206)

随着我国高铁客运枢纽建设日渐完善,各配套设施逐步开放,枢纽区域的出行需求急剧增长,高铁客运枢纽逐步成为衔接不同区域交通网络的关键节点。但当前我国高铁客运枢纽对复杂的客流时空分布特征适应能力较弱,多模式公交之间无法根据客流实际需求执行高效协同的服务机制。同时由于缺乏系统科学的多模式换乘客流方式分担率估计的方法,加剧了联合调度多模式交通接驳运力资源的难度。随着各种新兴技术的发展完善,城市居民日常出行活动促使交通系统每天产生的多源海量出行数据,为估计高铁枢纽换乘客流方式分担率提供了新的视角。因此,结合多模式交通大数据,提出高铁枢纽换乘客流方式分担率精准估计的方法对于提高高铁客运枢纽的服务水平、优化运力资源配置具有重要意义。

针对乘客换乘出行方式分担率的研究,主要集中在衔接换乘行为影响因素分析和出行方式选择建模上面。如贾洪飞等[1]考虑出行时间、费用、乘客的性别、年龄等因素,基于MNL(multi-nominal logit)模型对乘客选择公交和小汽车的行为进行了研究。近年来,很多研究者逐渐意识到,乘客出行方式的选择受诸多无法直接观测的因素影响,主要为个体对出行方式的感知及其生活方式等内在的主观感受因素[2]。这些因素对出行者的出行方式选择行为有着显著的影响[3]。程龙等[4]、Paulssen等[5]、姚恩建等[6]、马书红等[7]在出行方式选择的研究中引入了心理潜变量,研究结果表明引入主观感受影响因素的出行方式选择模型预测结果更加精准、更具有解释能力。然而,上述研究主要借助问卷调查等人工获取的数据,基于离散选择模型对乘客出行方式选择行为进行研究,数据获取的质量较低、难度较大、样本量较小,研究的成果具有一定的局限性[8]。近年来随着大数据融合与挖掘算法的普及以及计算技术的不断发展,公交与地铁刷卡数据被广泛用于交通需求及交通方式辨识的研究中。马晓磊等[9]利用北京公交刷卡及GPS数据,基于贝叶斯决策树及马尔科夫链对公交乘客上车站点的推算进行了研究。周雨阳等[10]利用公交IC卡数据对长距离公共交通乘客出行的时空分布进行了研究,其成果对改善公交部分线路服务水平提供了有价值的参考建议。张郑等[11]基于RP(revealed preference)调查和广州地铁刷卡数据,对地铁乘客出行方式的衔接行为和路径选择行为进行了研究。Ma等[12]为识别公交乘客的出行模式,使用公交IC卡数据构建出行链,并利用聚类算法与粗糙集理论对出行模式进行聚类与分类,研究结果对认识交通需求在时空维度的分布具有重要意义。

综上可知,基于交通出行数据的交通需求辨识与公共交通协同换乘的研究,取得了一定成果。但同时使用多方式出行数据进行换乘方式选择行为辨识的研究,缺乏在时空域范围同时使用公交、地铁刷卡数据、出租车数据以及移动互联等多源异构数据,对个体出行链进行挖掘,尤其是以客运枢纽为起点的出行链的挖掘。

因此,本文通过纠正错误刷卡记录、修补异常站点信息等数据处理手段,完成不同公共交通方式换乘阶段的关联和融合,提取以高铁客运枢纽为端点的个体广义出行链,分析高铁客运枢纽城内换乘客流的时空分布特征;并在此基础上,综合考虑高铁客运枢纽乘客的个体经济社会属性、出行特性及其主观心理因素对换乘出行方式选择行为的影响,建立基于个体广义出行链的换乘行为选择模型,最终估计换乘客流方式分担率,探索高铁客运枢纽乘客的换乘行为特性。

1 高铁枢纽乘客换乘行为建模

模型构建的整体思路为:结合公交、地铁、出租车等多模式交通出行数据,在数据清洗、推断和融合的基础上,提出个体广义出行链提取的方法;综合考虑高铁枢纽乘客的个体经济社会属性及其个体主观心理因素对换乘出行方式选择行为的影响,构建多指标多原因模型(MIMIC),研究影响因素的相互关系;并将换乘乘客的主观感受变量设为解释变量,结合个体经济社会属性信息和广义出行链的特征,建立高铁客运枢纽换乘方式混合选择模型。模型构建的框架如图1所示。

图1 换乘选择模型构建的框架Fig.1 Framework of travel mode choice model

1.1 个体广义出行链提取

利用公共交通大数据和出租车轨迹数据,提取高铁枢纽换乘乘客的广义出行链,其目的在于挖掘乘客的个体出行特征,如出行时间、出行距离、出行费用等,用于高铁枢纽乘客换乘方式选择行为模型的构建。由于公共交通运营数据的割裂,不同公共交通出行方式产生的出行记录关联不高,现有研究通常只对公交-公交、地铁-地铁等相同交通方式间的换乘行为进行研究[13]。因此,本文通过深入剖析多源公共交通数据的采集规则,提出了公共交通大数据关联融合及个体广义出行链提取的方法。提取公共交通个体出行链的具体步骤如下。

1.1.1 确定数据关联融合的方法

结合换乘乘客采取地铁、公交两类公共交通出行方式产生的出行记录数据,确定数据关联融合的方法。具体步骤为:首先分别对公交IC卡刷卡数据和地铁AFC数据中的编号编码规则进行分析,确定两类数据之间的关联列;其次,将关联数据中代表地铁、公交进出站时间的字段进行字符串提取,统一转换为标准时间格式。最后,根据两类数据的关联规则,选取相同字段,将两类刷卡数据进行合并,并增加出行方式类型标识,完善出行链出行方式属性信息。

1.1.2 确定换乘时空阈值

本文考虑高铁枢纽换乘乘客采用公共交通的三种换乘模式:公交-公交(B-B)、公交-地铁(B-M)、地铁-公交(M-B),并假设乘客以步行方式完成换乘,以此对乘客换乘出行的过程进行简化。考虑换乘时间和换乘距离对乘客换乘方式选择行为的影响,首先对换乘空间阈值和换乘时间阈值进行定义。

换乘空间阈值是指相邻两阶段换乘的站间距,以500 m作为空间限制;换乘时间阈值是指相邻两阶段换乘乘客所能接受的最大换乘时间。若两阶段之间的站间距、换乘时间超过了换乘空间或时间阈值,则判定为两次出行;若两阶段的时空距离处于阈值范围内,则认为两阶段之间乘客并未进行其他活动,属于一次出行,即属于同一条公共交通出行链。

研究针对3种换乘模式分别给出换乘时间阈值的计算方法。B-M模式的换乘时间阈值根据公交下车刷卡时间与地铁进站刷卡时间的时间差来确定,M-B模式的换乘时间阈值根据地铁出站刷卡时间与公交上车刷卡时间的时间差来确定,B-B模式的换乘时间阈值根据公交下车刷卡时间与下一阶段公交上车刷卡时间的时间差来确定[14]。

1.1.3 提取全域范围内的公共交通出行链

结合上述数据融合的规则及定义的两类换乘阈值,利用大数据处理软件,即可提取得到单一乘客的出行链。通过对换乘乘客出行过程的复现,可验证提取规则和融合思路的合理性。

1.2 换乘出行方式选择影响因素解析

本文旨在研究高铁枢纽换乘乘客的出行方式选择行为,不考虑乘客的到站行为,即不考虑乘客到站时间对其出行时间的影响。本文将影响高铁枢纽换乘乘客出行方式选择行为的因素划分为可直接观测度量的显变量和不可直接观测度量的潜变量。

显变量包括了个体经济、社会属性和出行链出行特征属性。其中,个体经济、社会属性主要包括年龄、性别、学历程度、是否拥有私家车、出行目的、出行方式等。出行链出行特征属性主要包括基于个体广义出行链提取得到的出行时间、出行费用、出行距离、出行方式、出行目的地等。

潜变量通常用于反映乘客出行方式选择行为的心理偏好,衡量出行者对出行过程的满意度及效用值。研究参考相关文献的研究成果[12],以舒适性、快捷性和经济性作为换乘出行方式选择的潜变量因素。

潜变量模型和离散选择模型共同构成混合选择模型,如图2所示。

图2 混合选择模型结构示意图Fig.2 Framework of hybrid choice model

1.3 出行效用函数与出行分担率计算

单一的离散选择模型,如MNL,NL,R-MNL模型通常是将影响乘客换乘方式选择行为的心理因素转化为可直接量化的指标或采取问卷打分的形式对其进行量化,无法客观体现心理变量之间的内在联系。而多指标多原因(multiple indicators and multiple causes,MIMIC)模型通过构建潜变量与指标变量之间的关联关系,对乘客换乘方式选择行为的心理因素进行更细粒度的刻画[15]。因此,研究引入MIMIC和MNL模型进行高铁枢纽乘客换乘方式选择行为模型的构建。

1.3.1 MIMIC模型的构建

MIMIC模型的优势在于不需要进行严格的前提假设,也不需要被各种条件严格约束[16],即能够对个体经济、社会属性、个体出行特征和代表个体主观心理感受的潜变量进行统一度量。MIMIC模型中潜变量与指标变量之间的对应关系如表1所示。

表1 潜变量与指标变量的对应关系Tab.1 Correspondence between latent variables and index variables

MIMIC模型之所以被称之为多因果多指标模型,原因在于其测量方程部分实质为多指标模型。潜变量“经济性”的测量方程式如下:

式(1)~(3)中:ηe为“经济性”潜变量;εe1、εe2、εe3为测量方程的误差项;λ为因子载荷。

结构方程部分实质为多因果模型,是对出行者个体经济、社会属性、出行特征等可观测的外生变量与潜变量之间的关系分析,如下:

式中:γ、ςi为待估计参数;x为年龄、性别等可观测的个体属性与出行特征;i为被调查个体。

由此,“舒适性”和“快捷性”的MIMIC模型如下:

1.3.2 出行效用函数构建

本文将换乘乘客的出行链划分为简单出行链、复杂出行链两类。简单出行链是指乘客以高铁枢纽站为起点,以一种出行方式(公交、地铁或出租车)完成一次出行的过程。复杂出行链是指乘客至少采用两种出行方式完成一次出行的过程。同时,乘客的复杂出行链只考虑地铁和公交之间的换乘,即乘客的整个过程仅借助公共交通完成。

每条出行链都可看作是一种出行方式选择方案。当乘客选择第j种出行方式选择方案且为简单出行链时,其效用函数U j可表示为

式中:I为出行者个人社会经济属性集合;i为个体经济社会属性;M为出行特征属性集合;m为出行特征属性;N为潜变量集合;n为潜变量特征属性;aji、bjm、cjn均为待估参数;Xji为个体经济社会属性i的量值;Sjm为第m个出行链出行特征的量值;ηjn为潜变量;εj为误差项。

当乘客选择第j种出行方式选择方案且为复杂出行链时,其效用函数U tk可表示为式中:k为不同的出行方式;t为复杂出行链的多个阶段(简单出行链t为1,复合出行链t为各阶段之和)。

1.3.3 出行分担率计算

根据效用最大化理论,出行者选择换乘出行方案j的概率Pj为

2 数据处理与分析

2.1 多模式接驳客流特征分析

基于本文提出的个体广义出行链的提取方法,对已有数据进行处理并对以北京南站为出行链起点的数据进行筛选。在研究时间范围内,提取得到的有效出行链见表2。由表2可知,2018年10月10日至15日期间,共提取以北京南站及其附近站点为起点的公共交通个体广义出行链34.8万条(单位为人次),出租车出行链1.3万条(单位为车次)。

表2 北京南站出行链数据提取结果Tab.2 Trip chain extraction result at Beijing South Railway Station

基于提取得到的个体公共交通出行链,进行乘客换乘方式选择行为及其出行特征分析。

2.1.1 公交接驳客流特征

图3为北京南站出站乘客选择公交为换乘方式的群体出行目的地分布。宏观来看,选择公交出行的乘客出行目的地集中在北京中部(东城区、西城区)、南部区域(丰台区、大兴区、房山区),少量乘客通过乘坐公交的方式前往北城。主要原因在于,北京南站周边的公交站点所涉及的14条线路中,70%分布在北京南站南侧。选择公交出行的乘客很少会再通过换乘前往北部区域。

图3 公交接驳乘客出行热力图Fig.3 Heatmap of bus transferring passengers

图4 给出了公交接驳乘客的时间和距离分布。从图4a可以看出,出行距离在5 km以下的短途行程占比约为60.0%;距离在15 km以下的中短途行程占比约为86.0%,极少数南站乘客(2.3%)会在进行超远途市内出行时选择公交车作为换乘方式。从图4b可以看出,公交车刷卡人数,具有明显的早晚高峰,分别为早上的7:00―9:00点和傍晚的16:00―18:00点。

图4 公交接驳乘客时间和距离分布Fig.4 Trip time and distance distributions of bus transferring passengers

2.1.2 地铁客流特征

图5 给出了北京南站出站乘客选择地铁为换乘方式的群体出行目的地分布。从图5中可以看出,与换乘公交的出行群体的目的地分布不同,地铁乘客的目的地分布更加广泛,目的地基本均匀分布在北京全域的地铁沿线上,前往北京北部区域的乘客数量与前往南部区域的乘客数量并无明显差别。

图5 地铁接驳乘客出行热力图Fig.5 Heatmap of subway transferring passengers

图6给出了地铁接驳乘客时间和距离分布。图6a所示,出行距离在5 km以下的短途行程占比仅为7.1%;而距离在5~15 km以及15~25 km中长途行程占比分别约为37.9%和43.3%,合计占比超过80.0%;距离在25 km以上的超远途市内出行占比达到11.7%,显著高于公交出行的2.3%。从出行距离上看,出行距离远的乘客更偏好选择高速、换乘少、换乘快的地铁。图6b所示,采用地铁出行的客流同样具有明显的早晚高峰,高峰时段和公交出行的高峰时段基本一致,早高峰的集聚现象尤为显著。

图6 地铁接驳乘客时间和距离分布Fig.6 Trip time and distance distributions of subway transferring passengers

2.1.3 出租车接驳客流时空特征

图7给出了北京南站出站乘客选择出租车为换乘方式的群体出行目的地分布。宏观上,与换乘公共交通相比,出租车乘客的目的地分布更加广泛,遍布北京全域,且出行热力基本集中在中心城区。这和出租车灵活、便捷的特点有关。

图7 出租车接驳乘客出行热力图Fig.7 Heatmap of taxi transferring passengers

图8 给出了出租车接驳乘客时间和距离分布。从图8a可以看出,出行距离在5 km以下的短途行程占比约为7.1%;出行距离在5~15 km以及15~25 km中长途行程占比分别约为43.2%和33.1%,合计占比约76.0%,与地铁在此出行距离的行程占比相似;然而,出租车行程在超长途市内出行的占比超过16.0%,大于公交和地铁在此出行距离范围内出行占比的总和。这说明长距离出行的乘客更倾向选择出租车出行。从整体上看,随着出行距离的增大,对应区域的出行热力变小。出租车在北京地区不同时段的载客车次数据分布如图8b所示。从图8b可以看出,采用出租车出行的客流同样具有明显的高峰,但此高峰主要集中在中午12:00―15:00点和夜晚20:00―24:00点。

图8 出租车接驳乘客时间和距离分布Fig.8 Trip time and distance distributions of taxi transferring passengers

图9 给出了同一天出租车出行链和公共交通复杂出行链出行时间分布的对比。从图9可以看出,出租车接驳乘客数量的高峰期恰好是公共交通接驳乘客人次的低谷。其原因可能是因为不同出行时段公共交通的运力配置不同。

图9 出租车与公共交通接驳乘客时间分布对比Fig.9 Comparison of trip time distributions between taxi and bus passengers

2.2 个人属性与出行意愿调查数据

考虑到列车到站时间和接驳客流的换乘出行时间对出行方式选择的影响,本文在不同日期的3个时段分别对前往北京南站的乘客进行问卷调查。调查时段为8:00―12:00、13:00―17:00、19:00―24:00。调查问卷实际下发的数量为238份,其中,有效问卷201份,有效问卷回收率达85.0%。从年龄上看,被调查者中男性占比54.2%,女性占比45.8%;18以下群体占比8.9%,18~30岁群体占比45.8%,30~40岁群体占比22.4%,40~60岁群体占比18.9%,60岁以上群体占比4.0%。从受教育程度上看,高中及以下群体占比10.0%,大专及本科学历群体占56.2%,研究生群体占33.8%。从个体属性的角度上看,21.9%的被调查者拥有私家车,45.7%的群体来京目的为工作或公务出行等。调查样本的整体分布比较均匀,部分属性的分布略显集中,如被调查者的年轻群体占比较高、高学历群体占比较高。

3 接驳客流分担率估计结果分析

本文借助AMOS软件将问卷调查数据和出行链数据导入,运用最大似然估计进行模型估计。模型结构如图10所示,图中椭圆表示本文设置的潜变量“舒适性”“快捷性”和“经济性”;“性别”“年龄”“教育程度”“汽车出行”“出行目的”为代表个体经济社会属性的显变量。通过对观测变量和潜变量之间测量关系的分析,可得到潜变量的适配值表达式,进而可将潜变量和显变量同时作为解释变量构建MNL模型。图10中箭头上的数字为路径系数,用于表示变量之间的关系是否显著。在进行路径系数检验时,一般要求P值小于0.05,否则代表两变量之间的影响不显著,需对路径进行删改。

图10 换乘方式选择潜变量模型结构示意图Fig.10 Structure of transfer mode choice model with latent variables

3.1 MIMIC模型的参数估计

MIMIC模型的拟合度评价指标如表3所示。从表3可以看出,近似均方根误差(RMSEA)、拟合优度指数(GFI)、卡方值基本符合模型拟合度评价的要求,表明此模型和样本数据的适配情况良好。

表3 结构方程模型拟合指数Tab.3 Goodness of fit index for structural equation model

表4为MIMIC模型潜变量和个体经济、社会属性的参数估计结果。由表4可得,教育程度越高的乘客对经济性的要求越低,对舒适性、快捷性的要求越高。本文以是否拥有私家车来衡量乘客的经济水平,拥有私家车的乘客(经济水平较高)对经济性的要求较低,符合假设预期。同时可以看出,出行目的对出行方式选择的影响显著,出行目的为公务出行的乘客,对经济性的要求显著更低,对舒适性和快捷性的要求更高。

表4 潜变量参数估计结果Tab.4 Parameter estimation results of latent variables

表5为潜变量和指标变量的因子载荷系数。从表5中可以看出其系数均为较大的正值,由此说明选取的潜变量观测指标对潜变量有着显著的正向影响。

表5 模型指标变量参数估计结果Tab.5 Parameter estimation results of index variables

运用主成分分析法和凯撒正态化最大方差法,对成分矩阵(也称因子载荷矩阵)进行标准化求解,得到潜变量的适配值,见表6。结果表明,本文引入的主观心理感受潜变量与个体经济、社会属性有显著关联,选取的可观测变量可较好地解释潜变量。

表6 潜变量适配值表达式的成分矩阵及结果Tab.6 Component matrix and results of latent variable adaptation expression

3.2 换乘出行方式标定结果

将个体经济、社会属性数据和广义出行链数据进行关联后,使用SPSS软件对混合选择模型进行求解,得到模型参数的标定结果,见表7。由表7可知,出行目的对乘客出行方式选择行为的影响显著,表明公务出行的群体更倾向选择出租车出行;出行时间对选择出租车换乘选择行为也有显著正向影响,出行时刻越晚的出行者更倾向于选择出租车出行;在出行费用方面,出行费用高的倾向选择出租车出行,出行费用低的更倾向于选择公共交通出行,与实际情况相符。

表7 换乘混合选择模型参数标定结果Tab.7 Parameter calibration results of transfer hybrid choice model

3.3 出行分担率估计结果

将上述模型标定的结果代入离散选择模型,各种换乘出行方式的分担率计算结果见表8。为了便于对比分析,表中对一次换乘的复杂出行链和简单出行链进行了合并,并省略了选择私家车、网约车以及其他出行方式的分担率。

从表8中可以看出,预测结果和真实值的绝对误差基本在3%以内,由此可知模型估计的精度较高。

表8 北京南站换乘选择方式出行分担率估计结果Tab.8 Estimated results of mode splits at beijing south railway station

4 结论

传统对综合交通枢纽出行者换乘选择行为的推断,大多基于个体问卷或单一行程数据,得到的结果精度较低,应用范围受限。因此,本文基于多模式交通数据,提出了一种综合考虑出行者心理潜变量、个体经济、社会属性以及个体出行链出行特性的换乘方式选择行为模型,对高铁客运枢纽接驳客流的出行分担率进行了估计。主要结论如下:

(1)该模型的本质是MIMIC模型和MNL模型结合的混合选择模型,经样本数据拟合的结果可以看出,考虑的潜变量(舒适性、快捷性、经济性)对出行者换乘出行方式的选择有显著影响。

(2)通过对上下层模型参数估计结果进行分析,得到了个体特征、心理潜变量和出行方式之间的相互影响关系。其中,从潜变量模型标定的结果可以看出,经济性要求较低的出行者更倾向选择出租车出行,更不倾向选择复杂出行链出行,且对舒适度要求较高;从离散选择模型的标定结果可以看出,出发时间越晚或出行费用越高的出行者越倾向于选择出租车出行。

(3)将参数估计结果和样本数据带入下层模型,估计得到高铁枢纽换乘乘客的出行方式分担率,通过与真实值对比,可以看出估计结果和真实值的绝对误差在3%以内,在可接受范围内。

尽管本文对丰富的多源交通数据进行了较为充分的应用,但由于不同交通方式之间的使用记录存在数据壁垒,如对乘坐公交后打车或骑乘共享单车的乘客无法识别,使得部分出行链的构建还不够完整,同时对高铁客运枢纽换乘方式分担率的研究也仅限于公共交通和出租车。因此后续研究将进一步考虑私家车、共享单车等出行数据,以丰富乘客广义出行链的构成,提高换乘方式分担率估计的精度。

作者贡献声明:

马晓磊:研究方案构思,整体思路设计,算法、数据处理指导,文稿修改。

刘 兵:研究成果整理,论文书写,方法梳理,算法设计。

姚李亮:算法设计,模型实现,数据处理与分析。

猜你喜欢

换乘公共交通公交
换乘模式下货物运输路径问题
一元公交开进太行深处
城市轨道站点公共交通一体化衔接分析
北京地铁连拱换乘通道下穿引桥施工沉降控制研究
等公交
地铁车站换乘形式对比与分析
在未来,我们不需要路
二次规划在城市公共交通系统工程中的应用
城市轨道交通三线换乘站布置分析