基于全样本大数据的公交停靠站时间规律分析*
2020-03-14刘好德杨宇航陈国俊
祁 昊 刘好德 ▲ 杨宇航 陈国俊
(1.交通运输部科学研究院城市交通与轨道交通研究中心 北京 100029;2.交通运输部科学研究院城市公共交通智能化交通运输行业重点实验室 北京 100029;3. 武汉理工大学交通学院 武汉 430070)
0 引 言
公交车辆在站点的停靠过程是实现乘客与车辆交互并进行时空转移的过程,是公交运营中必不可少的重要环节。公交停靠站时间是公交行程时间的重要组成部分,研究分析公交停靠站时间与其行程时间之间的特征关系,对于评价城市公交运行和接驳效率,提升乘客出行效率和公交车辆运营效率具有重要意义。
目前,国内外对于公交停靠站时间的相关研究主要侧重于停靠站时间预测以及停靠站时间影响因素的分析。Jaiswal 等[1]在对大型公交停靠站进行研究时发现,公交车辆的停靠站时长与停靠站点内乘客的数量呈现正相关关系。Bomin Bian[2]通过分析乘客登降量、公交线路数量,以及公交站台泊位数量等因素,建立复合泊松服务时间模型来估计公交停靠站时间。Stephen Arhin等[3]在分析乘客上下车时间、停靠站位置、停靠站时间所在时段等因素间关系的基础上,建立了公交停靠站时间的多元分析回归模型。吴叶等[4]在分析公交停靠站时间影响因素的基础上,通过实地调查获取数据统计分析不同影响因素对停靠站时间的影响程度和特征,并提出了减少公交停靠站时间的策略。周望东等[5]对公交停靠站时间的机理进行了分析,通过采集公交站点的公交停靠站次数并进行分类,构建了公交站点的公交停靠站时间计算公式。柳伍生等[6]基于车辆运行特性,从时空和微观的角度,运用概率论、运动学原理和排队模型,对港湾式公交站车辆的停靠站延误进行研究。许秀华[7]分析了公交车辆减速进站、站内停靠以及加速离站3个过程的公交停靠站时间影响因素,建立了公交车辆站外等待时间模型、减速进站时间模型、站内停靠时间模型、加速离站时间模型以及最终的公交停靠总时间模型。罗钿[8]以车辆在停靠站的主动阻滞因素和被动阻滞因素为切入点,研究了动态延误因素对公交停靠站运行效率间的关系。杨晓春等[9]选取盐城BRT-1号线的起始站、中途站、客流离散站等3 类站点为研究对象,构建快速公交系统站台停靠时间模型,并对该模型的合理性进行了检验。王鑫[10]通过分析公交车辆停靠站时间的相关规律和影响因素,建立了基于时间序列的公交停靠站时间预测模型,并利用实际数据对模型的预测精度进行了验证。胡三根等[11]以广州快速公交为例,将公交车辆停靠时间划分为开关门时间、损失时间、上下车时间和服务后延误时间等4个阶段,基于实际调查数据对各个阶段的时间分别进行了统计,并给出了影响因素的分析。于超等[12]基于道路视频和微波检测器数据,以BP 神经网络模型为基础,建立了行程时间预测模型。Mazloumi等[13]基于澳大利亚墨尔本的公共交通流量数据构建了人工神经网络模型预测公交车辆行驶时间和行程时间。Yu 等[14]通过采用引入遗忘因子的方法,分析了公交行程时间预测模型的影响因素。祁昊等[15]提出了基于定位数据的公交车辆到站时间计算方法,并以北京多条公交线路的数据进行了验证。Padmanaban等[16]建立的公交行程时间预测模型单独考虑了停靠站延误的影响,模型预测精度明显提升。王殿海等[17]采用地图匹配算法建立了站点区间行程时间计算方法,并分析了交通条件、道路条件、采样间隔与行程时间波动指数、延误指数的相关关系。Ma等[18]基于所提出的绩效评价指标体系,构建了公交出行时间分布模型,并以布里斯班2条典型公交路线的6个月历史数据进行了验证和综合评估。
综上所述,现有研究更多的关注于微观层面特定公交站点的停靠站时间及其影响因素和相关机理研究,一般基于小样本数据进行数理统计和模型解析,缺乏对于宏观层面的基于全样本大数据的城市公交停靠站时间规律与特征的研究。因此,本文基于城市公交车辆定位大数据,研究分析公交停靠站时间与实际行程时间的相关关系及特征,从而反映地面公交在实际运营中的停靠站效率,为城市公交运行状况评价提供数据基础,为优化城市公交运营水平提供科学的指导依据,从而服务于提升地面公交的竞争力和吸引力。
1 数据预处理
1.1 数据基础
基于公交车辆行程时间和停靠站时间的原始数据,将数据记录中“相同线路编号,相同车辆编号,相同运营方向”的记录作为1个运营班次的判定标准,对原始数据进行分割,以获取完整班次行程时间和停靠站时间的“时间链”,数据表字段见表1。
1.2 典型数据问题
通过对“时间链”数据进行分析,发现存在如下典型的异常数据。
1)单组“时间链”数据中无站点停靠站时间与区间行驶时间数据,或数据量极少。
2)存在始发时间与到达时间完全相同的2 组“时间链”数据,且线路编号与车辆编号一致,即同一班次产生了2条记录,此时存在如下2种情况:①2组“时间链”数据之间呈现互补关系,即1组数据存在空缺但在另1组相应位置有数据;②2组“时间链”数据之间呈现出重叠关系,即2组数据在相同位置都有数据。
表1 “时间链”数据表字段Tab.1 “Time chain” data fields
3)数据值异常问题,包括时间数据存在负值以及正常站点停靠站时间与区间行驶时间难以达到的数据值。
1.3 异常数据修复
基于发现的典型数据问题,研究在进行数据分析之前,进行了如下异常数据修复处理。
1)删除站点0与区间0的数据。站点0与区间0通常为公交车辆运营前在公交场站的状态,此时车辆定位装置开启,但是车辆并未驶离场站,因此会出现站点0 停靠站时间较大和区间0 行驶时间为0 的现象,对于研究意义较低。
图1 公交停靠站时间比例系数频率分布Fig.1 Frequency distribution of bus stop dwell time proportion coefficient
2)清空所有负值时间数据。负值时间数据难以判断其所代表的真实值情况和产生原因。
3)清空所有数值过高的异常时间数据。本研究认为,站点停靠站时间超过300 s,路段行驶时间超过1 200 s,判定属于异常时间数据,予以删除。
4)删除记录较少的线路编号的“时间链”数据。这种情况下站点停靠站时间数据与区间行驶时间数据样本严重失衡,难以分析比例特性。
5)合并“时间链”数据互补的相关班次。此时将数据样本较少的“时间链”数据添加到数量样本多的“时间链”的对应空缺位置当中,如果互补后的“时间链”数据缺失仍旧高于20%,则认为互补失败并删除该“时间链”数据。
2 公交线路停靠站时间比例分析
研究选取了2019 年9 月10 日济南市地面公交的行程时间原始数据为例进行分析,按照“相同线路编号,相同车辆编号,相同运营方向”的判定标准进行班次分割,获取到56 586 条原始“时间链”数据。在经过异常数据修复处理流程后,最终剩余39 725条“时间链”数据,即39 725 条公交线路停靠站时间比例数据作为后续研究的样本。
2.1 总体数据分析
公交线路停靠站时间比例数据总体上近似服从正态分布,见图1,均值为0.326 7,标准差为0.063 3,变异系数CV为0.193 8,总体的数据分布集中程度比较高。
研究采用过原点(当公交车辆的行程时间为0时,站点停靠站时间也为0,因此方程过原点)的线性回归模型对总体样本数据进行拟合,结果见表2。此时有
式中:Tdwell为站点停靠时间,s;Ttrip为总行程时间,s。
表2 回归方程Tab.2 Regression equation
式(1)表明公交停靠站时间约占据总行程时间的32.1%。线性回归模型的拟合优度计算结果见表3。
表3 回归模型的拟合优度Tab.3 Goodness of fit of regression model
结果显示,线性回归模型的拟合优度非常高,调整R2为0.971,意味着模型能够基于总的行程时间解释97.1%的停靠站时间的变化程度。对于城市公交系统而言,公交车辆的站点停靠时间与总行程时间存在特定的比例关系。
图2 不同公交线路的停靠站时间比例系数分布Fig.2 Distribution of bus stop dwell time proportion coefficient of different bus lines
2.2 比例系数稳定性分析
在上述结论的基础上,需要论证公交停靠站时间比例系数的稳定性程度,本研究主要考虑如下因素对其的影响。
1)线路差异。不同线路几何拓扑结构不同,客流需求也不尽相同。
2)驾驶员差异。不同驾驶员驾驶行为存在差异。
3)时段差异。不同时段背景交通条件不同,客流需求也不尽相同。
4)班次行程时间差异。不同班次的行程时间不同,其构成要素的站间行驶时间和站点停靠站时间也会存在一定差异。
2.2.1 线路差异对比例系数的影响分析
如图2 所示,从不同线路的比例系数分布情况来看,相比于总体的拟合系数k=0.321而言,不同线路之间比例系数的分布存在着一定的差异性。
按照不同线路统计其比例系数的特征参数(均值、中位值、最小值、最大值、标准差等),发现除去少数部分线路,其余大部分线路均是围绕着总体拟合系数k=0.321微弱波动,见图3。
图3 不同公交线路的停靠站时间比例系数特征值分布Fig.3 Eigen value distribution of bus stop dwell time proportion coefficient of different bus lines
考虑到是否由于数据质量问题(线路班次数据的采样量)导致的波动,基于线路班次样本量进行分类(低样本量与高样本量线路)分析比例系数随线路的波动,其中低样本量线路是指班次样本量低于50的线路,见图4,高样本线路是指班次样本量高于200的线路,见图5。
比较而言,高样本量情况下,比例系数的波动程度即标准差存在显著下降,并且相对于总体拟合系数k=0.321的偏离程度较低。因此,对于发车频率越高的线路,站点停靠时间所占总行程时间的比例愈加稳定。
2.2.2 驾驶员(车辆)差异对比例系数的影响分析
图4 低样本量(班次样本量N <50)条件下公交线路停靠站时间比例系数特征值分布Fig.4 Eigen value distribution of bus stop dwell time proportion coefficient under the condition of low sample size(N <50)
图5 高样本量(班次样本量N >200)条件下公交线路停靠站时间比例系数特征值分布Fig.5 Eigen value distribution of bus stop dwell time proportion coefficient under the condition of high sample size(N >200)
对比例系数按照不同的车辆编号进行特征参数的统计工作,其结果见图6。车辆受到驾驶员的影响会导致不同车辆停靠站时间比例系数均值的上下限变化较大,即表现为部分车辆与总体均值显著的较大差异。通过对数据质量进行分析,其主要原因为部分车辆存在数据缺失问题,导致部分车辆的运营班次样本量较少,1 d当中仅有少数班次(10班次以内)。但是其均值与不同线路的比例系数趋势相同,均为围绕着k=0.321 附近微弱波动,不同车辆比例系数均值的统计特征值见表4。
图6 不同公交车辆的停靠站时间比例系数分布Fig.6 Distribution of bus stop dwell time proportion coefficient of different buses
表4 不同车辆比例系数均值的统计特征值Tab.4 Eigen of bus stop dwell time proportion coefficient of different buses
通过分析不同车辆停靠站时间比例系数均值的总体分布情况来看,均值为0.323 4,标准差为0.047 1,变异系数CV为0.145 6,统计结果与全样本的停靠站时间比例系数相比分布更为集中,见图7。通过对不同车辆停靠站时间比例系数的集中程度进行分析可以发现,上述运营班次样本量较少的车辆表现出与总体均值分布的显著差异,其特征为出现极大或极小的现象,与数据质量分析结果相符,见图8。
2.2.3 时段差异对比例系数的影响分析
如图9 所示,发车时刻对比例系数的影响没有显著的趋势特征(比如,峰值与波谷特征),可能因为高峰客流较多,公交停靠站时间增加,但是公交运行状况同步恶化,公交车辆的区间行驶时间增加,所以比例系数的波动起伏较小。
为了验证上述猜测,将发车时刻按照每15 min进行分类,全天划分成96个时段进行分析。见图10,比例系数均值以及分布区间随时段变化波动较小。通过对不同运营时段的停靠站时间比例系数的数据质量进行分析,出现多数比例系数较大值的原因主要是由于06:00以前和23:00以后2个时段的影响:①在这2个时段的发车班次较少;②在这2个时段存在较多由于车辆启动和关闭车辆定位装置而产生的异常数据。
把比例系数的统计特征参数按照时段进行统计,排除较早与较晚的时段(一般不属于正常运营时段),比例系数均值基本上维持在一个非常稳定的程度,由此可以得出发车时刻对比例系数的影响没有显著的趋势特征,见图11,05:00—23:00期间,比例系数均值为0.326 7,最大值为0.348 1,最小值为0.302 1,波动程度在±8%以内。从图11 中可以看出,停靠站时间比例系数与公交运行状况不同,在早晚高峰不存在波峰和波谷等显著特征,表明停靠站时间比例系数具有较高稳定性。言,这个收敛值大约是0.25,见图12~13;同时,江阴市K19 路的站点停靠时间占总行程时间的比例均值随着站点数的增加(一定程度上等效于行程时间的增加)亦收敛于0.25,见图14,二者具有一致性。
图7 不同车辆比例系数均值频率分布直方图Fig.7 Frequency distribution of bus stop dwell time proportion coefficient of different buses
图8 不同车辆比例系数均值分布箱型图Fig.8 Mean value distribution of bus stop dwell time proportion coefficient of different buses
图9 不同发车时刻的公交停靠站时间比例系数分布Fig.9 Distribution of bus stop dwell time proportion coefficient of different bus start time
图10 不同运营时段的公交停靠站时间比例系数分布Fig.10 Distribution of bus stop dwell time proportion coefficient of different bus operation time
图11 不同运营时段的公交停靠站时间比例系数特征值分布Fig.11 Eigen value distribution of bus stop dwell time proportion coefficient of different bus operation time
图12 公交停靠站时间所占比例随班次行程时长的收敛趋势(济南市)Fig.12 Convergence trend of bus stop dwell time proportion coefficient with bus shift traffic time(Jinan)
2.2.4 行程时间对比例系数的影响分析
通过分析停靠站时间比例系数随着行程时间的变化趋势可以发现,随着班次行程时间(包括路段行程时间和站点停靠时间)的增加,比例系数会逐渐趋向于1 个稳定的收敛值。对于济南而
3 结束语
公交停靠站时间占总行程时间的比例系数受到城市、线路、车辆、时段等因素的影响,但是这种影响程度导致的比例系数大小波动范围从总体分布来看可以被接受。因此可以采用过原点的线性回归模型去描述二者之间的相关关系。
图13 公交停靠站时间所占比例随班次行驶时长的收敛趋势(济南市)Fig.13 Convergence trend of bus stop dwell time proportion coefficient with bus shift driving time(Jinan)
图14 公交停靠站时间所占比例随站点数的收敛趋势(数据来源:江阴市K19)Fig.14 Convergence trend of bus stop dwell time proportion coefficient with number of bus stops(Jiangyin K19)
公交停靠站时间与班次行程时间的比例系数会随着线路长度(或站点数、班次行程时间)的增加而逐渐收敛。结合济南、江阴公交数据分析的结果,在线路足够长或者班次行程时间足够大情况下,站点停靠时间所占比例会收敛到1 个稳定的水平值,大约为0.25。实际的济南市公交全样本数据回归拟合出来的站点与停靠时间之间的比例系数(0.32)略高于0.25,可能的原因是其中大量班次存在数据缺失问题(表现为总的行程时间比较小)。对于1个城市公交系统而言,在没有采集车辆站点停靠过程数据情况下,本研究推荐公交停靠站时间所占总班次行程时间比例的估计值为0.25。
研究所提出的停靠站时间与行程时间的比例系数的推荐取值范围是在全样本大数据条件下的统计参数,研究对象为公交线路和线路网,因此当对任意2 个空间位置之间的公交行程时间进行折减来计算公交停靠站时间时,可能存在一定的误差,尤其是当2个空间位置之间的距离比较近时误差可能较大,因此还需进行更加深入的研究。