公交通勤个体出行特征图谱构建及相似性判别
2020-08-24翁剑成
梁 泉,翁剑成,周 伟,荣 建
(1.交通运输部管理干部学院 道路教研部,北京 101601;2.北京工业大学 城市交通学院,北京100124;3.中华人民共和国交通运输部,北京100736)
0 引 言
公共交通作为受众最广、影响最大的出行方式,已成为通勤乘客出行的主体[1]。目前北京市公共交通通勤乘客日均客流300 万人,日均出行时间54 min,日均出行距离19.4 km,通勤交通在城市交通系统中举足轻重[2]。
为进一步提高公共交通服务水平,满足公共交通乘客出行需求,精确掌握乘客出行特征尤为重要。以往的公交出行特征提取主要通过抽样问卷、走访调研、网络调查等手段完成。周钱等[3]应用结构方程模型等提炼出行特征参数;V.S.WALLE等[4]结合调查数据分析了公交出行的时空特征;王珂[5]通过调查轨道沿线家庭居住和通勤情况,分析了居民的通勤方式、时耗和费用等特征;杨敏等[6]通过出行者空间特征分析,提出了出行者家庭和工作因素是出行模式选取的重要因素。但由于调查成本高,调查样本往往偏少且覆盖面窄,故小样本居民出行调查对出行总体特征描述精确度不够,无法实现公共交通出行特征的精细化提取[7]。同时,以往研究集中反映宏观交通运行状态,缺乏对个体出行特征的描述[8-9]。事实上,个人属性存在较大差异,从个体交通出行特征入手则能更科学地获取乘客出行规律。
伴随云计算、互联网+等新兴技术快速发展,公交系统智能化水平极大提升,可实现每位公共交通出行者出行交易过程和车辆运行状态信息记录,综合网络通信、地理信息、GPS定位及电子控制等,形成了个体交通出行多源数据,为更加准确和精细化的公交出行特征提取奠定了数据支撑。戴霄等[10]分别提出了基于线路与公交IC卡数据的出行特征分析方法;J.J.BARRY等[11]融合公交IC卡与车辆GPS数据,得到公交车行驶轨迹,并利用数据挖掘算法分析了乘客上下车站点特征;ZHAO Jinhua等[12]结合 AFC(automatic fare collection)及AVC(automatic vehicle collection)系统,对轨道交通出行的 OD 矩阵进行估算;N.KARASMAA[13]通过将公交IC卡刷卡数据与GPS定位数据联合分析,实现了车辆运行指标计算及乘客出行起终点、换乘点判别。更重要的是,基于智能公交大数据时代的多源数据为从个体角度分析公共交通出行特征提供了可能。
图谱作为特征可视化表达方式,以符号形式描述对象间的概念及相互关系,构成联结的知识结构,能实现特征的直观表达[14]。通过医学数据提取实体、关系、属性等知识图谱的组成元素,对医学知识进行表示、抽取、融合、推理及质量评估,医疗图谱形成了最佳知识表征框架:一方面便于医生通过图谱动态推理制定合适的诊疗方案;另一方面图谱可视化表达可帮助病人了解诊疗过程[15]。利用大样本学术信息(如期刊论文、专利报告等)对科学知识结构、关系与演化过程进行可视化,图书情报领域的引证图谱能自动展示文献与作者关系,并进一步分析科学知识演化过程与结果[16]。同样,基于行车过程中驾驶员操作行为和车辆运行状态的时序变化特征和编码组合,驾驶行为图谱能形象化地描述驾驶操作过程,辨别不同驾驶员的驾驶习惯[17]。总体而言,通过对原始数据进行加工和处理,图谱能对数据特征进行有效地组织与表达,刻画其过程变化特征。
因此,笔者基于公共交通多源数据,借助图谱对复杂信息可视化表达的优势,从个体角度构建了表征乘客时空轨迹特性的特征图谱,准确反映个体乘客时间分布与空间位置波动;并选取多子区间相似性判别方法,度量个体特征图谱相似性;为个体出行特征提取提供新思路,为不同类型公共交通通勤乘客出行行为准确辨识提供借鉴,为精细化公共交通出行服务提供支撑。
1 数据基础
笔者依托北京城市交通协同创新中心和综合交通协同运行与超级计算应用技术协同创新平台,以公共交通刷卡与线站数据为数据基础进行分析。公共交通刷卡数据包括地面公交IC卡刷卡和轨道AFC系统刷卡数据;公共交通线站数据包括地面公交和轨道交通线站数据。结合前期研究成果,已完成了基于多源数据的预处理及公交出行过程匹配,进而提取获得出行阶段数据[18],为出行特征图谱构建奠定数据支撑。
笔者以某乘客4 d的出行数据为例,获得该乘客出行阶段数据示意,如表1。
表1 某乘客连续4 d出行阶段数据
2 图谱构建与相似性判别
笔者选用北京市全体公交乘客连续一周的出行数据,针对公共交通通勤出行者,通过个体出行特征图谱构建及图谱相似性判别,提取公共交通通勤乘客时空特性,并实现相同个体出行行为分类与不同个体出行行为相似性判别。
定义公交常乘客为一周工作日中至少有4 d采用公共交通出行的乘客。针对通勤乘客刷卡时间间隔及往返情况的阈值分析,研究规定公交常乘客在一周中,刷卡最大时间间隔大于7 h且往返地点为闭合的情况出现次数不少于3次,则判定其为公共交通通勤出行者。
2.1 个体出行特征图谱绘制
考虑周一相比其它工作日客流量激增,随机因素较多,出行特征可能存在较大差异,故暂不考虑。笔者以个体乘客为分析单元,同一乘客相邻出行阶段数据为分析基础,制定出行特征图谱绘制步骤。
2.1.1 步骤1
公共交通出行阶段数据排序。选取乘客连续4 d的出行阶段数据,并按刷卡时间进行排序。
2.1.2 步骤2
绘制图谱位置坐标点。以时间序列(min)为横坐标,以位置点(km)为纵坐标。
1)横坐标设置
假定某乘客第1天出行的第1个刷卡时间点为1(即横坐标),相邻位置点横坐标差表示前后刷卡的时间点分钟差值;同时,假定第2天首个刷卡横坐标比前一天的末横坐标大100 min,即连续4 d横坐标值持续增大。
2)纵坐标计算
选取北京天安门为出行位置对比点,假定每天第1个纵坐标值P1为当天的首个出行阶段上车站点与天安门的曼哈顿距离,如式(1):
(1)
式中:P1为每天首个纵坐标;N1为每天首个刷卡站点的经度;N0为天安门经度(116.388°);T1为每天首个刷卡站点的纬度;T0为天安门纬度(39.9075°)。
纵坐标依次为前一位置点的纵坐标值加或减两点间路径距离,差值体现相邻位置点实际路径距离。定义规则如式(2):
(2)
式中:Di+1为从i个站点到第i+1个站点的实际路径距离,km。
2.1.3 步骤3
确定图谱元素。由节点大小表示出行方向,线型和线宽体现出行方式。
出行方向由出行阶段上下车站点经纬度通过反正切函数计算得到,为实际角度值。为了区分出行方向唯一性,利用实心节点表示角度值为0°~180°,空心节点为-180°~0°;每日首个出行方向以天安门为基准。对出行方式,粗实线代表轨道交通,细实线表示地面公交,虚线表示无公共交通出行。
2.2 通勤个体出行特征图谱相似性分析
基于个体出行特征图谱,通过相似性分析,可以实现相同乘客出行行为分类与不同乘客行为相似性识别。
2.2.1 相似性判定指标确定
图谱相似性判定从表征个体乘客出行行为特征的角度选取判定指标,根据文献[19],乘客出行特征主要体现为出行路径、出行时间、出行位置等方面。故笔者提出了图谱相似性判别方法,分别从出行路径、出行时间、出行位置这3个层面选取判定指标。其中,采用出行方式和出行方向共同表征出行路径,采用出行时间表征乘客时间特性,采用乘坐线路表征位置波动特性。个体出行特征指标与图谱元素属性关联如表2。
表2 个体出行特征指标与图谱元素属性关联
1)出行方式
由线型、线宽体现不同出行方式。
2)出行方向
采用节点大小表示出行方向。
3)出行时间
考虑到通勤者下班后可能存在娱乐、购物等活动,晚上到家时间跨度较大。故采用乘客每日首个上车时间,及当日出行阶段平均耗时体现出行时间。
4)乘坐线路
定义波动系数体现所乘线路的动态性,波动系数越小,表示各天出行位置点的变化程度越小。计算方法如式(3)、(4)。
M=[E(l1),E(l2),…,E(ln)]
(3)
(4)
式中:M为各天的位置点均值;E(ln)为第ln天位置点均值;T为波动系数;D(M)为M方差;E(M)为M均值。
2.2.2 图谱相似性判定
在个体出行图谱的相似性判别中,笔者采用非连续性与连续性相结合进行综合判别。首先,由非连续性角度度量图谱各组成元素间的相似程度,通过计算结构相似度进行判别[20-21];其次,选用公共子序列度量方法寻找不重叠的多个公共子区间,从时间先后角度判别子区间连续相似性,采用最长公共子序列衡量连续相似性,即两个或多个序列中存在最长的共同子序列[21];最后,实现相同个体出行行为分类与不同个体图谱相似性判定。
1)非连续性判定
为获取图谱间的结构相似度,研究首先计算结构距离(SD)。SD包括不同个体或相同个体不同天的特征属性比较。图谱结构距离计算如式(5):
SD(Ci,Cj)=MD×WM+DD×WS+TD×WT+
LD×WL
(5)
式中:SD(Ci,Cj)为i与j天的结构距离;MD为方式距离;DD为方向距离;TD为时间距离;LD为线路距离;W={WM,WS,WT,WL}为特征权重向量,分别表示轨迹的方式权重、方向权重、时间权重和线路权重,其中:各权重应满足权重取值非负且WM+WS+WT+WL=1,由于笔者未对各权重的重要程度进行研究,因此假定各权重不分主次,取WM=WS=WT=WL=0.25。
(1)方式距离
方式距离主要表征乘客采用不同出行方式的差异性,不考虑出行方式的乘坐顺序,为各方式占比的公共差值绝对值。例如,某乘客i天的出行方式为4次轨道,j天为3次轨道1次公交,则i天与j天的方式距离计为1/4。
(2)方向距离
方向距离从最大、平均和最小角度的层面表示结构距离。计算方法如式(6):
Dmin(Li,Lj)]
(6)
式中:Dmax(Li,Lj)即|Dmax(Li)-Dmax(Lj)|,反映了i天与j天最大斜率差异绝对程度;类似地,Davg为平均斜率差异绝对值;Dmin为最小斜率差异绝对值。
(3)时间距离
时间距离从最长、平均和最短出行时间的层面表示结构距离。计算如式(7):
Tmin(Li,Lj)]
(7)
式中:Tmax(Li,Lj)即|Tmax(Li)-Tmax(Lj)|,反映了i与j天最长出行时间差异绝对程度;Tavg为平均出行时间绝对差异程度;Tmin为最小出行时间绝对差异程度。
(4)线路距离
采用波动系数表征i与j天的线路距离LD(Ci,Cj),其波动系数计算如式(4)。
综上,由于不同特征值值域不同,需将每个特征距离值做归一化处理。引入结构距离的归一化函数N(SD)。则结构相似度(GS)计算如式(8):
GS(Ci,Cj)=1-N[SD(Ci,Cj)]
(8)
GS(Ci,Cj)体现了不同个体或相同个体不同天的特征图谱结构相似程度;其值越大,则相似性程度高。若结构相似度超过一半,需进一步判定连续相似性,否则,直接判定为不相似。
2)连续相似性判定
笔者采用最长公共子序列(longest common sub-sequence, LCSS)衡量连续相似性。通过计算最长公共子序列并转化为LCSS距离衡量轨迹间连续性相似程度[22],如式(9):
(9)
式中:LC(i,j)为图谱i与j之间的LCSS长度;m为图谱i的出行阶段数量;n为图谱j的出行阶段数量;∂为x轴相似阈值;ε为y轴相似阈值;β为方向相似阈值;R(i)、R(j)分别为轨迹i、j去掉首个记录点后的轨迹间隔。
当轨迹记录点数j均为0时,LC(i,j)=0;若记录点个数不为0,则用递归方式判断共有子序列长度最大值。当同时满足横坐标差小于∂、纵坐标差小于ε、方向角度小于β时,该对记录点相似,LCSS距离值加1。考虑到北京公共交通通勤乘客从家出发时刻常集中在07:00—09:00,且不同天可能存在娱乐、餐饮、购物等活动的差异,取∂=1 h;ε取相邻两个轨道站点间距,按均值1.7 km计算;参照利用乘客轨迹行程统计居民出行方向分布的方向划分间隔[23],设定β=30°。
通过归一化处理,将LCSS距离转换为[0, 1]的距离,如式(10):
(10)
式中:DLCSS(i,j)为特征图谱i与j间的LCSS距离;min(m,n)为i与j记录点个数的较小值。
3 案例分析
为方便数据验证与核对,笔者选取北京工业大学附近居民区为研究区域。经计算统计,90%以上公共交通通勤乘客一天内出行时间跨度在14 h内,故x轴值域最大不超过3 500(14×60×4=3 360 min);85%以上通勤乘客的位置波动在16 km内,故y轴采用统一性值域范围,即[0, 16]。随机选取5名典型乘客,构建个体出行图谱如图1。
由图1可获得公共交通个体乘客的出行特征包括:① 通勤乘客的主要出行方式。由图谱线型可知乘客A在连续4 d的公共交通出行中以地铁为主,尤其高峰期间常乘坐地铁,平峰期间较多乘坐公交;乘客B则以公交出行为主,早高峰主要乘坐公交,平峰乘坐地铁。② 乘客路径距离分布。由图谱纵轴可知乘客A路径距离在4 km内,而乘客D则集中在2 km左右。③ 乘客出行目的地。乘客B日均有3个公共交通目的地,除去工作地与家,平峰出行1次;而乘客C日均4~5个目的地,无明显出行规律。④ 不同天的出行相似性。由图1可明显看出:乘客A后两天出行存在明显相似性,乘客E前两天与后两天出行也显著相似。
笔者以乘客A为例,计算相似性指标值如表3。计算乘客A不同天的结构距离与LCSS距离,得到特征图谱相似性判别结果如表4,其中:rij指该乘客不同日期对比。由表4可知:乘客A后两天的出行相似性较大,而第1、3天出行几乎不存在相似性。
表3 乘客A相似性指标值
表4 乘客A个体出行图谱相似性判别结果
对于不同个体,通过非连续性与连续相似性判别可以得到乘客A和B的出行相似性,如表5。其中:ri指两名乘客在同日期对比。由表5知:乘客A和B在该周的出行行为不存在明显的相似性。
表5 乘客A和B出行特征图谱相似性判别结果
根据上述方法,分析这5名乘客出行特征图谱综合相似性判别结果如表6。由表6可知:乘客B和E在该周出行行为明显相似,其他乘客则不存在明显相似性。
表6 5名乘客出行特征图谱综合相似性判别
4 结 论
笔者针对公共交通通勤乘客,构建了个体出行特征图谱,并提出了图谱相似性判别方法,为分析公共交通出行特征提供了新思路。
1)通过设定公交常乘客刷卡最大间隔与往返地点闭合次数等规则鉴别通勤乘客,进而基于图谱可视化优势,以时间序列为横坐标,位置点为纵坐标,节点大小为出行方向,从个体的角度构建了通勤出行特征图谱,直观化地展示乘客乘坐公共交通的出行过程。
2)从非连续性与连续性判别的角度,通过结构相似度与最长公共子序列计算相结合,提出图谱相似性综合判别方法,实现相同乘客出行行为分类与不同乘客行为相似性判别。
3)笔者以北京5名公交常乘客一周的公共交通数据为例进行示例分析,为利用图谱进行乘客出行行为特征分析进行了探索。未来将采用计算机语言进行大样本研究与测试,进一步验证该方法的可靠性与稳定性,对相同个体通勤乘客,可实现其出行稳定性分类,比如将出行者划分为高稳定、中稳定、低稳定通勤乘客,为更加准确地掌握不同稳定性乘客的出行需求奠定支撑。同时,对于不同个体,出行者相似度判别可分析不同个体乘客间出行行为的差异性和一致性,进而实现公共交通总体出行人群细化分类。