基于公交车载数据的站点停靠精度分析
2022-09-02沈向前余洋吴伟
沈向前,余洋,吴伟
(1.中国有色金属长沙勘察设计研究院有限公司,湖南 长沙 410117; 2.武汉大学遥感信息工程学院,湖北 武汉 430072;3.湖南省矿山安全智能化监控技术与装备工程技术研究中心,湖南 长沙 410117)
1 引 言
公交汽车是市民日常外出最常乘坐的交通工具之一,公共交通的快速发展有效缓解了道路拥堵的城市病,在方便市民出行的同时,也有助于减少碳排放[1]。但是在实际运营中,公交汽车行驶超速、不按线路行驶、进站不减速、不靠边、停靠位置不准确等现象时有发生,甚至有到站不停、有客不载等行为。研究分析公交车到站停靠位置的精度有助于发现公交车停靠不准确发生概率高的站点和车辆,针对性的进行监督和整改,以提高公交车服务的质量,减少公交车事故的发生。
目前,大多数城市的公交车辆都配备有车载GPS和AFC数据,积累了海量的公交轨迹数据和刷卡数据[2,3]。Qin LJ[4]等人基于GPS数据和刷卡数据对公交车服务的可靠性进行了研究,Cortés[5]等人研究了基于GPS数据对商用公交汽车的速度分析,实现了对商业公交汽车速度的监控。Nguyen K等人[6]采用行程时间可靠性、准点性能和旅行时间等多项指标对洛杉矶地铁GPS数据进行处理分析以及Web可视化。任慧君[7]等利用车载GPS轨迹数据,提取驾驶过程中超速、急加速、急减速、急转弯等潜在的不安全驾驶行为,对公交车驾驶安全性分析。霍豪[8]等人根据公交运行数据和天气数据建立了一种公交车站点停靠时间预测模型,提高公交行程时间预测的准确性。刘晓[9]等人采用出行时间链识别公交乘客的上、下车站点,通过公交大数据进行了通勤时空分析。杨世军[10]等人根据人工调查数据,对城市公交车辆驻站时间进行了特征分析和预测。上述研究主要分为两类:一是利用公交轨迹数据识别公交车的驾驶行为对公交车的运行状态、行程时间等进行分析和预测,以提高公交车的服务质量;二是利用公交轨迹和刷卡数据预测乘客通勤时间、出行OD(origin destination,OD),对乘客的出行行为进行分析,通过大数据分析来合理调度公交车的运营时间与车次。
公交停靠站点的准确与否也是影响公交服务质量的因素,本文在前人对公交车大数据研究的基础上,展开对公交车到站停靠位置的分析。原理上公交车到站停靠位置可以通过刷卡数据与GPS轨迹进行时间匹配来推算,但在公交实际运营中,时常会出现行驶期间刷卡,尤其在早晚高峰时间段出现的频率最高,会增加公交到站停靠位置的估计误差,从而影响分析结果。本文提出利用加速度和刷卡时间语义特征识别公交车辆的到站停靠点,来减少时间匹配方法的误差。其次使用DBSCAN聚类算法对公交线路的到站停靠点进行聚类,降低GPS定位误差对停靠点识别的影响,以获取更加精确的公交到站停靠点和停靠区域。
2 数据来源
为了分析公交车在公交站点停靠的精准程度,首先需要根据公交车GPS和AFC刷卡数据计算公交车在各个站点的停车坐标,然后将计算出来的停车坐标与公交站点坐标进行匹配分析,以公交车在车站停车坐标点的空间分布情况来评价公交车在各个站点的停靠精度。
本研究使用的数据来自深圳大学空间信息智能感知与服务深圳市重点实验室组织的“ISPRS Scientific Initiative——Open Data challenge”大赛项目。数据共有3个表,分别为:AFC刷卡数据、GPS轨迹数据和公交线路数据,上述数据的数据结构及关联关系如图1所示:
图1 数据表结构及关联关系
其中AFC刷卡数据、GPS轨迹数据中的日期跨度为7天,时间精确至秒。GPS轨迹数据的坐标为WGS84地心坐标系下的经纬度,精确至小数点后6位,运行方向为0或1,分别代表公交车上行和下行。公交线路数据中只有线路编号和公交车编号的对应关系,没有公交站点坐标信息,本文通过将GPS轨迹数据与百度地图叠加显示的方式进行展示和相关的分析。
3 公交车停靠精度分析
3.1 到站停靠点识别
AFC刷卡数据有刷卡时间和公交车编号,可以在GPS轨迹数据中查询对应公交车编号的定位数据,通过设定时间差半径△T,可以计算落在刷卡时间TAFC缓冲区内,即满足式(1)的GPS定位点数据,其中时间差最小的GPS定位点通常认定为公交车到站的停靠点[11,12]。
TAFCm-△T≤TGPSi≤TAFCm+△T
(1)
式(1)中TAFCm表示m次刷卡数据的时刻,TGPSi表示第i个GPS点的定位时刻,△T为时间缓存区半径。
但是公交车日常运营中,经常会出现同一个公交站有多名乘客刷卡乘车的情况。此外,在早晚高峰时段公交车内乘客拥挤,部门乘客会选择从后门上车,在公交车离站后一段时间才进行刷卡,因此部分刷卡数据的时间与公交到站的时间不能完全匹配。
通过观察分析公交车进站前后的过程,可以发现公交车到站前后有3个步骤:减速进站、停靠上下客、加速出站。在此过程中,公交车辆一直保持低速行驶,且公交车辆行驶速度由大变小,又从小变大,即公交车辆行驶的加速度a由“负值”变为“正值”。由于同一公交线路的所有公交车辆都会在相同的公交站台停靠,因此提取满足式(2)和式(3)的GPS轨迹点,也可以被识别为公交车到站的停靠点。
VGPSi (2) aGPSi<0∧aGPSi+1>0 (3) 式(2)中VGPSi表示公交车在第i个GPS点位置的速度,V0表示公交车的速度阈值。式(3)中aGPSi、aGPSi+1分别表示公交车在第i个GPS点位置和第i+1个GPS点位置的加速度。 如图2所示,AFC刷卡数据在时间上呈现聚集性,同一公交车站可能会有多次刷卡记录,在道路拥堵等情况下,公交车在公交站附近可能会有多次停靠、也会出现在公交站外停车的情况,其行驶加速度也会表现由“负值”变为“正值”的特征。为了提高公交车到站停靠点识别的准确率,本文同时使用公交车加速度和AFC刷卡时间两种语义特征来识别公交车到站停靠点,GPS轨迹点i同时满足式(1)、式(2)和式(3)时,将被标记为公交车到站的停靠点。 图2 到站停靠点识别示例到站停靠区域识别 公交车在城市环境中运行时,受多路径效应影响,其车载GPS定位有所下降[13],其定位精度在±15m左右,车载GPS系统和自动售票刷卡系统记录的时间也存在基准差异,导致通过公交车加速度和AFC刷卡时间两种语义特征识别的公交车到站停靠点,仍然有一定的噪声。因此,对单辆公交车一次的停靠点进行精度评价意义不大。为了更加精准、科学的分析评价公交车到站停靠的精度,本文对公交线路多天到站停靠点进行密度聚类[14],并通过求取聚类各个簇的最小外包凸多边形表示公交车到站停靠区域。 DBSCAN是一种有代表性、有效的基于密度的聚类算法,与其他基于密度的聚类方法相比,DBSCAN有以下优点[15]:①能够对带噪声的数据进行聚类分析;②不需要对数据分布做预先的假设,即不需要预先设定分类(簇)的个数;③能够发现不同形状的聚类簇,如:线状簇、类圆形簇、凹形簇等。DBSCAN计算时需要输入3个参数:点数据(PtList)、扫描半径(eps)和最小包含点数(minPts)。如果一个点的扫描半径内包含(相互之间距离小于eps)点个数超过minPts,则此点为核心点,落在此扫描半径的点为边界点;任意两个距离小于eps的核心点将放在同一簇中;同样,任何与核心点距离小于eps的边界点也要放到与核心点相同的簇中;如果一个点既不是核心点也不是边界点,则是噪声点。DBSCAN聚类的效果如图3所示。 图3 DBSCAN核心点、边界的和噪声点 在DBSCAN聚类后通过Jarvis March算法求取各个簇的最小凸包,以最小外包凸多边形表示公交车到站停靠区域。Jarvis March算法的原理是从最左边的点(X坐标值最小的点)开始,并沿逆时针方向不断包裹点,具体算法如下:(1)初始化p为最左侧的点。(2)循环执行下面的操作,直到再次到达起点。①将当前点p添加至结果中;②搜索点q,使得p,q对于任意点i的方向(p,q,i)都是逆时针方向,令p=q。Jarvis March算法的执行过程如图4所示。 图4 Jarvis March算法执行过程停靠精度评价 本文通过DBSCAN对同一公交线路多天到站停靠点进行聚类分析,删除噪声点后,通过计算凸包的算法精确识别公交车到站停靠区域,识别的到站停靠区域与对应公交站相匹配后,可以直观的对比公交车在不同公交站到站停靠的精准情况,识别效果如图5所示。 图5 到站停靠区域识别示意图 为了对公交车到站停靠精度进行量化评价,首先将公交到站停靠区域叠加至百度地图,与对应公交线路的站点进行匹配,然后计算公交车站标准停车位面积与对应的公交到站停靠区域面积的比值,以其比值评价公交车在此站停靠的精度,计算方法见式(4)。通过现场调查,一般公交车站标准停车位长约 15 m、宽约 3.5 m,同时考虑到公交车车载GPS的定位精度不高(市区定位精度在 15 m左右),本文计算标准停车位面积时按照长 45 m、宽 33.5 m计算,面积为 1 507.5 m2。 (4) 式(4)中areastation表示公交车站标准停车位面积,areastop表示公交到站停靠区域面积,score表示公交车在此公交站点的停靠精度评分。 以深圳市337路公交7天共92万条GPS数据和13万条AFC刷卡数据为例,根据公交车停靠精度分析模型计算337路公交7天上行、下行公交车到站停靠点和停靠区域。由于公交GPS轨迹数据的坐标系和百度地图的坐标系不一致,首先需要将公交GPS轨迹数据从WGS84坐标系转换至bd09ll坐标系。然后根据转换后的GPS点和AFC刷卡数据依次求取每条公交线路的到站停靠点和到站停靠区域。图6展示了识别出来的337路公交车下行到站停靠点和停靠区域。通过与百度地图的公交线路叠加显示,可以看到识别出来的公交停靠区域和公交车站的位置吻合程度很高,而且不同站点的停靠区域面积差异也比较大。在到站停靠点、停靠区域识别完成后,使用缓冲区分析的方法将公交车站和对应的停靠区域进行匹配,如果公交车站的缓冲区内有多个停靠区域时,保留停靠点个数最多的停靠区域。最后,依次计算公交车在每个站点的停靠位置精度。表1列出了337路公交车7天上行、下行的到站停靠位置精度的部分统计结果。 表1 337路公交车7天上行、下行的到站停靠位置精度的部分统计 图6 337路公交车下行到站停靠点、停靠区域识别 337路上行经停公交站74站、下行经停公交站79站,合计153站,识别并匹配成功的上行到站停靠区域72个、下行到站停靠区域62个,合计134个,识别成功率达87.58%,对337路公交车识别出来的134个到站停靠区域进行精度评分,停靠精度得分如图7所示。 图7 337路公交车到站停靠精度得分分布图 通过分析337路的停靠精度评分情况,可以发现停靠规范(100分)的共有45站、占比33.58%,停靠基本规范(60分以上)的共有75站、占比55.97%,停靠不规范的共有59站、占比44.03%。评价数据表明公交车到站停靠不规范的现象发生的频率仍然很高,公交运营公司可以对停靠精度评分靠后的公交站点进行现场检测,分析公交车停靠不准的具体原因,由于公交车司机驾驶习惯不好造成停靠不准的应该进行监督和处罚,由于站点设置不合理造成停靠不准的应该进行改造,以提高公交车服务的质量。 采用公交GPS和AFC刷卡数据能获取公交车到站停靠的位置坐标,为分析评价公交车到站停靠位置精度提供精准数据。基于加速度特征筛选GPS轨迹点能明显提高DBSCAN聚类的速度,同时使用加速度和刷卡时间双重语义特征的公交车到站停靠点提取算法精度更高,可准确筛选出来公交车到站停靠点,识别成功率超过85%。通过对公交车停靠精度进行评价能够发生不规范停靠现象多发的公交站点,可根据评价结果对停靠精度较差的站点进行针对性的现场检测,为公交车进站规范评价和检查整改提供了新思路。 由于本文使用的公交GPS和AFC数据是历史存档数据,时效性不够强,因此无法反映当前公交车到站停靠的规范程度,有条件的可以结合当前的数据进行实验,并可对比分析不同时段、不同地域的公交车到站停靠精度情况。4 案例分析
5 结 语