基于手机信令数据的常规公交站间OD识别
2021-04-28于泳波侯佳
于泳波,侯佳
(1.南京市城市与交通规划设计研究院股份有限公司,南京210018;2.江苏省交通大数据与仿真平台技术工程研究中心,南京210018)
0 引言
公交优先是城市交通发展的重要方向,准确识别居民的公交出行,对公交线网优化、动态调度等具有重要意义。
联合挖掘常规公交GPS 与IC 卡数据,可以获得公交客流量信息,并可进一步挖掘公交站间OD信息[1-3]。大部分城市公交收费为“一票制”,即只在上车刷卡,下车不需要刷卡,从而已有研究中,判断下车站点是基于下一次乘车的上车站点,或在公交换乘地铁的情景下,结合地铁进站站点,推断最接近地铁站点的公交站点为下车站点。前者存在难以验证的问题,后者则因为公交与地铁换乘的比例问题,难以获得较高的采样率。GPS 数据和IC 卡数据均只能反映乘客在公交系统内部的信息,无法获得乘客在公交系统外的出行信息。
与常规公交GPS 和IC 卡数据相比,手机信令数据可获取用户在任意时刻的出行信息。通过手机信令数据,可以获得居民职住分布[4]、全天出行OD[5]与路径信息[6],并可以准确识别地铁出行。已有通过手机信令数据识别非地铁出行方式的研究,可分为有监督学习和无监督学习两类。有监督学习,在提取出行轨迹的速度、加速度等特征的基础上,构建随机森林、支持向量机等机器学习模型,对步行、自行车、小汽车、常规公交、地铁等出行方式进行识别[7-8]。无监督学习,通过提取路径的出行距离、出行速度等特征,采用聚类等方法识别出行方式[9]。总体而言,有监督学习的识别效果优于无监督学习。
本文以手机信令数据为基础,结合地铁刷卡数据、公交GPS 与刷卡数据等,通过计算手机用户出行轨迹与公交车辆GPS轨迹的相似度,识别手机用户是否采用公交出行,并进一步识别常规公交站间OD。与已有研究相比,本文的创新点包括:第一,从ID 层面融合手机信令数据与刷卡数据,获得包含百万个样本的大数据集作为标定过的验证集;第二,结合路段长度修正Levenshtein 距离,对手机用户出行轨迹和公交车辆GPS轨迹进行匹配,并考虑常规公交之间的换乘行为;第三,充分讨论影响公交方式、公交线路、站间OD 等识别效果的影响因素,给出通过手机信令数据识别常规公交出行特征的可靠范围。
1 数据描述
以南京市2018年4月份移动手机信令数据为基础(该数据为出现在南京市的全部移动手机用户的基站轨迹,南京市移动用户数占全部手机用户数的60%~65%,每个用户平均每天产生约300 条数据),结合相同时段内南京市地铁刷卡数据、常规公交刷卡数据及常规公交GPS数据,通过相关数据预处理方法,得到如下几类数据。
(1)手机用户出行路径数据
基于已有研究中手机信令数据的路径匹配算法,获得移动手机用户出行路径数据,该数据包括脱敏后的手机用户ID、出行时刻、出行起点基站、到达时刻、出行终点基站、出行途径的路段序列(该序列根据时间排序,每个路段信息包括进入该路段的时刻、路段ID信息)。
(2)手机信令数据识别出的地铁站间OD数据
基于已有研究中通过手机信令数据识别地铁出行的算法,获得移动手机用户使用地铁出行的地铁站间OD数据,该数据包括脱敏后的手机用户ID、进站站点、出站站点、进站时段、出站时段等信息。
(3)地铁刷卡数据识别出的地铁站间OD数据
基于地铁刷卡数据获得的地铁站间OD 数据包括IC卡卡号、进站站点、出站站点、进站时段、出站时段等信息。
(4)常规公交车辆运行GPS路径数据
基于已有研究中常规公交车辆GPS 的路径匹配算法,获得公交车辆运行的路径数据,该数据包括公交车辆ID、公交线路ID、车辆运行途径的路段序列(该序列根据时间排序,每个路段信息包括进入该路段的时刻、路段ID信息)。
(5)IC卡乘坐地铁和常规公交的信息整合
该数据包括IC卡卡号、乘坐地铁的进站站点、出站站点、进站时刻、出站时刻、乘坐常规公交的车辆ID、线路ID、上车站点、上车刷卡时刻等信息。
2 站间OD识别方法
2.1 考虑换乘的常规公交出行识别
考虑换乘的常规公交出行识别,包括手机用户与公交车辆路径匹配、换乘识别、常规公交出行判定3个步骤。
2.1.1 手机用户与公交车辆路径匹配
手机用户与公交车辆路径匹配过程如下:
(1)为区分手机用户信息和公交车辆信息,分别用m和b标记相关变量。记pit,m为手机用户i某次出行经过的路段集合,该次出行起止时段为t;记pjt,b为公交车辆j当天在时段t内运行经过的路段集合。若pit,m⋂pjt,b≠∅,则公交车辆j与手机用户i在t时段的出行轨迹初步匹配;否则,不匹配。
(2)针对(1)中初步匹配的pit,m和pjt,b,记pit,m和pjt,b在pit,m⋂pjt,b中出现最早时刻为ti,fm、tj,fb,最晚时刻为ti,lm、tj,lb,则定义手机用户出行的关键路段集Qi,t,m为(ti,fm,ti,lm)时段内pit,m涉及的路段,公交GPS 的关键路段集Qj,t,b为(tj,fb,tj,lb)时段内pjt,b涉及的路段。
(3)基于Levenshtein 距离,将路段长度归一化后作为权重,即将Qi,t,m和Qj,t,b变成同一个序列所需要做的改变路段长度最小的变换,计算公式为
式中:EQi,t,m,Qj,t,b为路段序列Qi,t,m和Qj,t,b的Levenshtein 距离;lα为路段序列中α元素的权重,这里指α路段的归一化长度,lβ为路段序列中β元素的权重,这里指β路段的归一化长度。
(4)基于(3)中的变换结果,可得路段序列Qi,t,m和Qj,t,b的Levenshtein相似度FQi,t,m,Qj,t,b为
式中:Ld,Qi,t,m为将路段序列Qi,t,m变为Qj,t,b的过程中,删除操作集合D中第d次涉及到的路段长度;Lv,Qi,t,m为插入操作集合I中第v次涉及到的路段长度;Lr,Qi,t,m为替换操作集合R中第r次涉及到的路段长度;LQi,t,m为路段序列Qi,t,m的总长度;LQj,t,b为路段序列Qj,t,b的总长度。FQi,t,m,Qj,t,b越接近1,表明路段序列Qi,t,m和Qj,t,b的Levenshtein相似度越大。
(5)计算路段序列Qi,t,m和Qj,t,b的时间相似度HQi,t,m,Qj,t,b为
式中:tia,m为手机用户i出行进入a路段时刻;tja,b为公交车辆j运行进入a路段时刻;da为公交车辆运行通过a路段所需时长。HQi,t,m,Qj,t,b越接近1,表明路段序列Qi,t,m和Qj,t,b的时间相似度越大。
(6)综合Levenshtein 相似度和时间相似度,可得路段序列Qi,t,m和Qj,t,b的相似度GQi,t,m,Qj,t,b为
式中:λ、η分别为FQi,t,m,Qj,t,b、HQi,t,m,Qj,t,b的权重系数。当满足GQi,t,m,Qj,t,b >Gthd时,保留Qj,t,b对应的车辆、公交线路及路段信息,添加到集合SQi,t,m中,SQi,t,m={(j,Uj,Qj,t,b)|GQi,t,m,Qj,t,b >Gthd} ,其中,Gthd为相似度阈值,Uj为j车辆服务的公交线路。
2.1.2 换乘识别方法
从时间维度定义换乘规则为:若集合SQi,t,m中,存在N个元素,N≤MSQi,t,m,MSQi,t,m为集合中元素个数,每个Qj,t,b(j=1,2,…,N)之间时间没有交叉,即Qj,t,b对应的时间段(tj,fb,tj,lb)和Qj+1,t,b对应的时间段(tj+1,fb,tj+1,lb),满足当tj+1,fb >tj,fb时,tj+1,fb >tj,lb,或当tj,fb >tj+1,fb时,tj,fb >tj+1,lb。
从空间维度定义换乘规则为:若Qj,t,b对应的最后一个站点与Qj+1,t,b对应的第一个站点为同一个站点,则应满足对应的两条线路均经过该站点;若不为同一个站点,则应满足距离不超过阈值θthd(单位,m)。
i用户同时满足时间和空间维度换乘规则,则认为其本次出行中使用了常规公交,且换乘过N-1次。
将集合中车辆等相关信息根据上述换乘规则分组,分组步骤如下:
(1)记一次出行中最多换乘次数为τthd,对集合中全部元素做τthd+1 次组合,每次每组元素个数为c,c=1,2,…,τthd+1,得到个组合结果。
(2)检查每组组内元素是否同时满足时间和空间维度的换乘规则。若不满足,则删除改组;否则,保留。
(3)针对(2)中保留的多组元素,根据每组元素对应的时长总和,即∑tj,lb-tj,fb,进行降序排列。
(4)保留(3)中第1 组元素,从第2 组开始检查。若当前检查组内存在元素在保留的组中出现过,则删除当前组;否则,保留当前组,并继续检查,直至所有组均执行完检查。以此保证保留的CN,surplus组元素之间不存在相同的元素,记CN,surplus组组合构成的集合为Sit,C,该集合每个元素均为长度不超过τthd+1的原SQi,t,m中的元素组合。
2.1.3 常规公交出行判定
记δ为Sit,C中某个组合各子元素Qj,t,b对应的手机路径Qi,t,m长度之和占手机用户i在t时段出行的路径长度比例,即
保留Sit,C中满足δ >δthd的元素,其中,δthd为路径长度比例阈值。若根据该条件过滤后的集合Sit,CF为空,则手机用户i在t时段出行没有使用常规公交;否则,使用了常规公交,且选择每种公交组合的概率为
式中:P(k)为手机用户i在t时段出行选择公交组合k的概率,k是集合Sit,CF的元素;δk为k对应的出行路径长度占比;kall为集合Sit,CF的长度。
2.2 站间OD概率模型
公交站客流特征受土地利用因素影响[10],假设一辆车经过的一个路段上有多个站点,手机用户在该路段上车或下车,则选择站点上下车的概率与站点周边用地属性、所处时段相关。
将全天分为3 个时间段,分别为早高峰、晚高峰、其他时段。基于已有研究成果,早高峰时段公交站点上车客流量与站点周边居住用地规模正相关,下车客流量与站点周边岗位相关用地规模正相关;晚高峰时段,岗位数较多的区域,公交站点上客量相对越多,但下车客流量与用地特征并无明显相关关系。对于商业、娱乐等用地,人越多,相应公交站被选择的可能性越大,不同时段选择公交站的影响因素如表1所示。
表1 站点上下车选择影响因素Table 1 Factors influencing choice of boarding and alighting at stops
站点300 m 范围覆盖居住人口、岗位、停留人数,是以站点为圆心,300 m 为半径的圆形区域内涉及到的相关手机用户数。若站点周边无居住或岗位,则以停留人数代替。以不同时段公交站点对应的相应手机用户数占比为站点被选择的概率,则手机用户i在t时段出行,乘坐j车辆经过对应线路Uj的站间OD (Δks,ls,Δke,le)的概率P(t,j,Uj,Δks,ls,Δke,le)为
式中:ls为i用户乘坐j车辆时经过的第一个路段;le为经过的最后一个路段;Kls为j车辆服务线路在ls路段的站点数;Kle为该线路在le路段的站点数;Δks,ls为j车辆服务线路在ls路段的第ks个站点;Δke,le为j车辆服务线路在le路段的第ke个站点;T1为早高峰时段;T2为晚高峰时段;T3为其他时段;Zks,ls为Δks,ls周边300 m 覆盖的居住人口数;Wks,ls为岗位数;Yks,ls为停留人数同时段历史平均值;Wke,le为岗位数;Yke,le为停留人数同时段历史平均值。
3 实例验证与影响因素分析
3.1 实例验证
3.1.1 验证集获取方法
手机信令数据在地铁出行识别中精度较高,而公交IC 卡既有地铁刷卡记录,又有常规公交刷卡记录,故以地铁出行识别为纽带,从ID层面匹配手机用户和IC卡卡号是获得相对较大样本数据集的一种途径。匹配过程如图1所示。
图1 验证集数据获取流程Fig.1 Verification data acquisition process
地铁刷卡记录与常规公交刷卡记录根据IC卡号进行融合,常规公交刷卡数据与GPS数据根据刷卡时刻与车辆时刻进行匹配,以此获得上车站点和对应时间信息,已有研究较多,不再赘述。仅针对手机信令数据与地铁刷卡数据通过识别出的站间OD,以进行手机用户ID 与IC 卡号匹配方法做描述,匹配过程如下:
(1)基于手机信令数据识别地铁出行的站间OD信息,得到以进站站点、出站站点、进站时段、出站时段为键,多个手机ID 组成的集合为值的键值对结果。
(2)基于地铁刷卡数据,同样得到以进站站点、出站站点、进站时段、出站时段为键,多个IC 卡号组成的集合为值的键值对结果。
(3)记相同键key 对应的手机ID 集合为Vkey,m,IC卡号集合为Vkey,IC,vi,m为乘坐过地铁的手机用户i的ID,vj,IC为刷卡进出地铁的IC 卡j的卡号,若vi,m∈Vkey,m且vj,IC∈Vkey,IC,表示手机用户i与IC卡j同时出现过。记键数阈值为μthd,如果vi,m与vj,IC同时出现的次数超过μthd,且满足条件概率P(vj,IC|vi,m)=P(vi,m|vj,IC)=1,则认为vi,m与vj,IC唯一匹配。
在上述过程的基础上,μthd取5,将vi,m对应的vj,IC乘坐常规公交的信息根据时间融入手机用户出行信息中,即可得到包含45.66 万手机用户,2010379 个常规公交出行样本,3521356 个非地铁非常规公交出行样本的数据集。
3.1.2 公交出行方式识别结果
取λ=0.5 ,η=0.5 ,Gthd=0.75 ,θthd=100 ,τthd=1,δthd=0.8,使用3.1.1节获得的数据集验证一次出行是否使用常规公交,混淆矩阵如表2所示。
表2 常规公交出行识别混淆矩阵Table 2 Confusion matrix of bus trip mode identification
常规公交出行方式识别精确率为0.807,召回率为0.912,识别效果较好。
3.1.3 公交换乘识别结果
常规公交换乘识别的混淆矩阵如表3所示。常规公交换乘识别精确率为0.660,召回率为0.756。其中,换乘1 次的样本数为387454,占有换乘行为的87.6%,其被准确识别出有换乘行为的占该样本数的73.7%;超过一次换乘的样本数占12.4%,被准确识别出有换乘行为的占比为89.0%。
表3 常规公交换乘识别混淆矩阵Table 3 Confusion matrix of bus transfer identification
3.1.4 公交线路与站间OD识别准确率
常规公交线路识别的准确率用识别出的公交线路与实际乘坐的公交线路对比,若两者一致,则线路识别准确,否则不准确。根据3.1.2 节实际采用常规公交且识别为常规公交的1832599 个样本进行分析,得出公交线路识别准确率为75.5%。
站间OD 识别准确率采用原样本中使用IC 卡先乘坐常规公交、后换乘地铁的样本,认为乘坐常规公交的下车站点是该线路最接近地铁站点的,样本数为484113,识别出常规公交出行且上车站点识别准确的样本数为402851,准确率为83.2%,下车站点识别准确率为79.7%,OD 识别准确率为71.9%。
3.2 影响因素分析
3.2.1 相似度权重影响
在保证λ+η=1 的条件下,分析λ和η取值对常规公交站间OD 识别结果的影响,如图2所示。其他参数取值为Gthd=0.75 ,θthd=100 ,τthd=1,δthd=0.8。
Levenshtein 相似度反映了路段空间上的相似特征,时间相似度反映了时间上的相似程度,由图2可知,只有赋予Levenshtein相似度和时间相似度相近的权重,站间OD识别准确率才能达到最高。
图2 相似度权重对站间OD识别结果的影响Fig.2 Influence of similarity weight on stop od recognition
3.2.2 参数阈值影响
保持λ=0.5 ,η=0.5 ,θthd=100 ,τthd=1 ,δthd=0.8 不变,改变Gthd的取值,分析常规公交站间OD识别效果变化,如图3所示。
图3 相似度阈值对站间OD识别结果的影响Fig.3 Influence of similarity threshold on stop OD recognition
由图3可知,随着Gthd取值减小,站间OD 识别准确率提高,但应该注意的是,此时站间OD 只是采用包含484113 个与地铁换乘的样本计算的,而随着Gthd的变化,公交出行方式识别的精确率、召回率变化情况如图4所示。
图4 相似度阈值对常规公交方式识别结果的影响Fig.4 Influence of similarity threshold on bus trip-mode recognition
随着Gthd增大,公交出行方式识别的精确率提高,但召回率逐渐降低。综合上述分析,Gthd取值在0.7~0.8之间为宜。
保持λ=0.5 ,η=0.5 ,Gthd=0.75 ,θthd=100 ,τthd=1 不变,改变δthd的取值,分析常规公交站间OD识别效果的变化,如图5和图6所示。
图5 公交路径长度占比阈值对站间OD识别结果的影响Fig.5 Influence of bus path length proportion in trip distance threshold on stop od recognition
图6 公交路径长度占比阈值对常规公交方式识别结果的影响Fig.6 Influence of bus path length proportion in trip distance threshold on bus trip-mode recognition
与Gthd取值变化相似,随着δthd增大,站间OD识别准确率呈下降趋势,公交出行方式识别的精确率逐渐提高,召回率逐渐降低。δthd的取值在0.65~0.85之间为宜。
考虑到数据集中换乘1次的比例占全部换乘行为的87.6%,故不对θthd和τthd深入分析,θthd和τthd的取值应根据数据情况或城市公交换乘习惯而定。
3.2.3 出行距离影响
将手机用户出行距离按照<2 km、[2, 4)km、[4, 6)km、[6, 8)km、[8, 10)km、≥10 km 分为6 类,分别得到每类距离下,常规公交方式识别、换乘行为识别、公交线路识别准确率、站间OD 识别准确率,结果如图7~图9所示。
图7 出行距离对常规公交方式识别结果的影响Fig.7 Influence of trip distance on bus trip-mode recognition
出行距离超过6 km 时,常规公交出行识别效果较好,且随着出行距离的增大,精确率与召回率均呈现上升趋势。出行距离在4 km以内的识别效果最差,可能是因为这个距离内包含大量自行车、电动车出行,其出行路径、速度特征均与常规公交相似,因而难以准确识别。
图8 出行距离对常规公交换乘识别结果的影响Fig.8 Influence of trip distance on bus transfer identification
由于样本数据集中,出行距离在2 km 以内的无换乘行为,故其精确率和召回率均为0。随着出行距离增加,常规公交换乘识别的精确率和召回率均呈现上升趋势。
图9 出行距离对常规公交线路和站间OD识别结果的影响Fig.9 Influence of trip distance on bus line and stop OD identification
公交线路与站间OD 识别的准确率与出行距离呈正相关关系,出行距离越长,经过相同路段的其他公交线路对识别的影响越小,从而准确率越高。
3.2.4 路段公交线路重复系数影响
路段公交线路重复系数,以路段经过的公交线路数衡量。经过的线路数会直接影响公交线路识别准确率,进而影响站间OD识别的准确率。对于手机用户i在t时段出行经过的路段集合pit,m,计算集合中每个路段经过的公交线路数的期望值,并四舍五入取整,以此作为用户本次出行的公交线路重复系数值。该参数对公交线路和站间OD 识别准确率的影响如图10所示。
图10 重复系数对常规公交线路和站间OD识别结果的影响Fig.10 Influence of repetition factor on bus line and stop OD identification
公交线路与站间OD 识别的准确率与重复系数呈负相关关系,重复系数越大,经过相同路段的其他公交线路对识别的影响越大,从而准确率越低。若出行距离较短,且经过路段的公交重复系数较高,则公交线路与站间OD 识别的准确率仅为50%~60%。
4 结论
本文得到主要结论如下。
(1)本文提出的基于手机信令数据识别常规公交出行与站间OD的方法,在验证集中的识别效果表明:在合适的参数下,常规公交出行方式识别精确率可达0.807,召回率0.912,换乘识别精确率0.660,召回率0.756,公交线路识别准确率75.5%,站间OD 识别准确率71.9%,这说明本文方法识别效果较好,可应用于工程实践。
(2)对出行距离、公交线路重复系数等因素的分析表明:出行距离越长、公交线路重复系数越低,公交线路与站间OD识别准确率越高;本文方法对出行距离在6 km以上、平均公交路段重复系数4以下的识别效果最佳。