基于上海交通卡数据的公交出行链推算技术1
2022-09-07王鼎元
王鼎元
上海市交通发展研究中心
0 引 言
公共交通系统中乘客出行链的分析可以客观反应出公交系统的运营状况和城市区域之间的联系,为提高公共交通系统服务水平,推进公交优先战略提供参考依据。传统的人工调查法或四阶段法采样数据有限、采样群体不够全面,仅能从宏观角度描述公共交通的出行需求。随着公交IC卡、手机二维码等电子支付手段的推广,电子支付交易数据逐渐成为从微观层面分析公共交通出行需求的首选数据源。
上海市作为国际大都市,是国内较早形成公交网络的城市之一。截至2021年,有固定公交线路1 600多条,公交企业有28家。目前,有些城市的交通卡交易记录可以精确到站点,有的需要下车刷卡,这极大简化了出行链识别的工作。但是,上海的公交车载终端与刷卡POS机之间没有互相连接,仅根据交易记录无法分辨车辆和班次。刷卡POS机设备更新换代难度大,所以需要充分利用现有数据实现公交上下车站点的推算。
本文尝试通过利用上海交通卡和乘车码的交易数据,结合在线地图的公交线路数据,与公交车定位数据、电子路单数据作关联匹配,得到公交车辆与刷卡POS机的绑定关系,推算出公交上车站点;根据乘客在公交和地铁的换乘特征,推算下车站点,得到乘客的完整出行链。
1 数据预处理
利用交通卡刷卡交易数据推算公交客流OD需要采集和处理多种来源数据,分为相对静态数据和动态数据,其中相对静态数据包括线路基础信息表,公交线路、站点GIS数据等。本次使用的动态数据包括2021年8月内某一周的上海全市交通卡刷卡记录数据、公交乘车码交易记录数据(字段格式与交通卡刷卡记录一致)、全市公交车卫星定位数据、公交电子路单。其中,交通卡包括手机、手表等设备上使用NFC技术的虚拟卡;乘车码为乘坐公交使用的二维码乘车凭证(不能用来乘坐地铁)。
数据预处理包括数据清洗、数据集成、数据变换、数据归约等,本文主要介绍公交物理站点聚类融合以及公交车辆到离站时间推算方法。
1.1 公交物理站点聚类融合
同一个公交站牌或站亭,在不同线路上可能记录到多个站点坐标,在统计时较为不便。因此对于同一物理站点需要采用聚类的方法,聚集到逻辑上的“物理站点”。观察到作为同一公交站点,名称应该相同,且距离很近。若为中途站,可能在道路两侧有两个站台;若为首末站,可能有两个发车方向,且可能同时设有中途站(中途站在道路两侧,不在场站内)。所以,对于同名、距离相近的站点,最多可聚类为四个站点:作为首末站的两个发车方向,以及作为中途站的两个线路走向。如图1所示,临近的同名公交站,可以根据是否为终点站分别聚合,再根据站点在线路上的方向角进一步区分两侧不同方向的公交站。
图1 公交物理站点聚类示意图
1.2 公交到离站时间推算
为提高后续计算效率,在匹配交通卡数据之前,先将卫星定位数据与电子路单、站点坐标匹配,得到每辆车在每个站点的到站和离站时间。对每条GPS轨迹,先与电子路单匹配,得到上下行方向;再与对应走向的线路上的所有站点计算距离。为防止因线路弯曲,匹配到的站点顺序前后跳跃,先排除300 m范围之外的站点;在候选站点中,若有当前站点和下一个站点,选取位置较近的站点,否则选取与当前站点序号最接近的后续站点。
2 公交客流OD推算
2.1 POS机与车辆匹配
上海交通卡交易数据中,没有车牌号或车辆编号信息,只有POS机编号,该编号与车牌号的对应关系是不确定的。要将交通卡数据与公交车到离站时刻数据互相匹配,需要先获取车辆与POS机的对应关系。公交车上记录定位数据的车载终端和POS机均需要实时上传数据,可以假设这两台设备会与互联网定期同步时钟,两台设备的时钟误差可以忽略。
公交POS机与公交车牌号的匹配可以视作一个线性规划中的指派问题,即将公交POS机与公交车牌号一一对应,使匹配误差最小。假设各条公交线路相互独立,每日每辆公交车上的POS机为固定一台,即可按不同日期、不同公交线路分别求解指派问题。该指派问题的目标是使匹配误差最小,匹配误差由车辆与POS机之间停靠时间不匹配数确定。停靠时间不匹配数为某个POS机的刷卡记录时间不在某辆车停靠任意一站的时间段内的总数。
图2为2021年8月5日43路(虹漕南路至南浦大桥方向)的电子路单和各站停靠时间;轨迹图中圆点为使用该方法将POS机与车辆匹配后,得到的刷卡站点和时间。可以看到,在繁忙的早高峰时段,即使有多辆车同时停靠,该方法也能较为准确地匹配POS机与车辆的对应关系。
图2 2021年8月5日43路(虹漕南路—南浦大桥)车辆运行轨迹图
2.2 上车站点识别
使用车辆到离站时间、POS机与车辆对应关系表,根据刷卡记录中的线路名称、车牌号、POS机编号、刷卡时间,可以得出每条刷卡记录的上车站点。每一站能匹配到的有效刷卡时间范围设为这一站的到站时间直至下一站的到站时间;首站的有效刷卡时间设为发车前15 min或该车上一班终点站到站时间(取较大值),直至第二站的到站时间。上车站点识别所用数据表之间的关系如图3所示。
图3 上车站点匹配方法示意图
在2021年11月分别对43路、218路、205路、985路做了74个班次的人工调查,同时采集调查当天的原始数据,使用上述方法,各班次总上客量平均准确率为95%,站点级别上客量平均准确率为90%。POS机与车牌号匹配结果准确率为100%。
2.3 下车站点推算
公交刷卡记录下车站点的推算根据原始数据特点不同,有多种方法。[1,2,4]交通卡刷卡记录包括公交和地铁的刷卡记录。其中,地铁的刷卡记录进站和出站各为一条,关联先后的进出站刷卡记录即可得到地铁的进出站点。乘客在公交站下车后,存在三种情况(见图4):乘客先乘坐公交A,换乘公交B,其中包括公交B为公交A的返程的情况;乘客先乘坐公交A,换乘地铁;乘客先乘坐公交A,再使用其他交通工具达到目的地。
图4 公交下车站点匹配方法示意图
本文采用一种通用的方式推算公交的下车站点。对于一次乘坐公交的刷卡记录,其下车站点设置为同一条线路与下一次上车点1 000 m范围内最近的后续车站(包括返程),两次乘车间隔在7日内。这种较为宽松的条件,可以尽可能地包括乘客的规律性出行和往返行程,不论该乘客的出行是否在通常的上下班高峰期。使用这种方法,对2021年8月全市公交刷卡数据做下车点匹配,匹配率为所有刷卡记录的50%左右。
2.4 OD扩样
匹配得到每条交易记录的起讫点已经可以反映出公交与地铁客流的真实特征。但是,可以推算出OD的数据仅覆盖了总出行量的一部分,为建立较准确的交通模型,需要根据统计报表中的公交、地铁总出行量做扩样。[9]公交和地铁出行量的关系如图5所示,其中打勾的部分为可以计算出OD的客流。
图5 公交、地铁出行客流逻辑关系示意图
首先,需要计算原始数据覆盖的客流与全部客流的占比。根据2021年的客运量统计报表,与原始交易记录中的日均客流对比,电子支付方式约占公交出行量的86%,其中交通卡占55%,乘车码占31%。地铁乘客还可以使用二维码、单程票等方式进站,使用交通卡的乘客约占地铁日均客流56%。
对于单程的OD量,即乘坐一次公交,或一次地铁进出站,可以用可识别OD的记录数占总记录数的比例,乘以使用交通卡、乘车码乘客的比例,得到可识别OD的记录数占总客流的比例,单程的扩样系数为该比例的倒数。对于全程的OD量,即乘客在一次出行中,通过多次换乘到达目的地,需要排除公交乘车码的数据。因为只有交通卡可以连通公交和地铁系统,所以其中公交的OD占比及扩样系数仅使用交通卡的交易记录推算。一次出行的扩样系数可设为各单程的扩样系数的算术平均值。例如,乘客在一次出行中先乘坐公交线路A,系数为2.1,再乘坐地铁,系数为1.6,这一次出行的扩样系数为1.85,即代表1.85人次的出行OD。
3 应用场景
获得了每条刷卡记录所代表的公交线路、上下车站点,计算出扩样系数后,即可统计得到线路站间客流、站点上下客量和换乘量等,精确地分析公交线路、站点、通道的客流特征。
在站点层面,可以按物理站点集计,得到站点日均或高峰时的上下客量、换乘量。在线路层面,可以计算线路上主要的OD区间,观察断面客流,优化现有公交线路走向,如图6所示。在网络层面,可以按公交线路经过的道路,计算每条道路上的断面客流,建立更精确的交通模型,如图7所示。
图6 218路下行早高峰断面客流图
图7 上海部分区域公交断面客流分布图
4 结 语
本文描述了一种利用交通卡和公交乘车码交易数据、公交电子路单、公交车卫星定位数据,推算公交上下车站点,进而构建多模式公交出行链的方法。该方法解决了公交车辆与刷卡POS机不绑定、公交下车站点推算等问题,实现了全市规模的公交出行链的复原,能较为准确地反映整个公交系统中的出行特征。
本文所述的方法对于下客量、冷门线路客流推算的准确性尚需通过人工调查验证。后续研究时,应根据实际情况,将公交出行链数据与其他数据和人工调查相结合,为交通规划、运营调整等工作提供更真实细致的数据支撑。