基于多源数据的城市群枢纽间多模式交通系统异常状态影响研究
2023-06-02马书红陈西芳
马书红,杨 涛,岳 敏,陈西芳
(1. 长安大学 运输工程学院,陕西 西安 710064;2. 生态安全屏障区交通网设施管控及循环修复技术交通运输行业重点实验室,陕西 西安 710064)
0 引 言
2019年《交通强国建设纲要》明确提出“构建便捷顺畅的城市(群)交通网”、“城市群2小时通达”,2021年《国家综合立体交通网规划纲要》提出,综合交通网络需要增强互联互通,推动融合发展,提升运输整体效率,为进一步发展城市群交通指明了方向。随着城市群一体化多模式交通网络的建设,出行者的联程出行需求不断扩大,但多模式交通网络在组合效率、换乘衔接、功能协作等方面还存在短板;同时,突发异常状况(如突发客流、线路故障、自然灾害等)也会对多模式交通网络带来极大冲击,需要提出快速应对策略和提高网络韧性。因此,在异常状态发生时,如何准确判别城市群多模式客运交通系统的异常状态、受影响的通道/枢纽和影响范围,提出应急对策,确保城市群枢纽间多模式交通一体化运行效率成为当前亟待解决的重点问题之一。
在枢纽异常事件的识别及影响研究方面,R.SILVA等[1]基于智能卡数据提出一种用于量化因轨道线路和车站关闭产生影响的方法;SUN Huijun等[2]利用贝叶斯方法对突发事件进行识别并建立城市轨道交通网络中断影响评估模型;杨灵[3]分析了突发大客流在城市轨道交通网络的扩散过程及传播特性;李臣等[4]利用地铁AFC数据对大客流下时空影响范围做出识别。上述研究多基于网络理论对异常影响范围进行界定,对乘客的实际出行需求考虑较少。随着多源大数据分析技术的发展,利用手机信令数据分析城际间乘客出行能够更加准确地反映实际情况[5]。结合多源出行数据,利用关联规则挖掘方法能够更好地发现数据集中有意义的联系。比如,利用出租车GPS数据和关联规则,李勇[6]分析了城市道路拥堵的关联性和传播特性;YU Wenhao[7]提出了挖掘一定时段内频繁项集的移动路径算法;项译[8]使用手机信令数据并基于出行轨迹的关联性,研究了景区游客的路线分布规律。基于轨道交通刷卡数据、AFC数据提取相关出行信息,褚凡[9]利用关联规则挖掘方法分析轨道交通客流特征和出行行为;GUO Xin[10]分析了通勤时段内强关联性的地铁站点组合。
基于此,笔者拟在获取手机信令数据的基础上,结合意向出行调查及客票信息等多源数据提出城市群枢纽间多模式交通系统异常状态影响范围识别流程与方法,并结合京津冀城市群枢纽间多模式交通出行典型场景进行分析和验证,为利用数据挖掘方法确定突发异常状态的影响和对策提供借鉴,为进一步完善城市群多模式交通系统应急处置、韧性评估和提升等提供理论基础。在此基础上,为提高管理部门在面对灾害和突发事件等异常状态下的快速反应能力和主动保障能力,提高城市群枢纽间多模式交通系统衔接协调和整体运行效率提供支撑。
1 城市群多模式交通系统异常状态分类
笔者将异常状态定义为“由于突发事件所导致的枢纽(间)客流的非正常状态”。突发事件指突然发生、造成或可能造成严重社会危害、需要进行紧急处理的事件,包括突发事故、自然灾害、恐怖主义行为、重大群体性事件等。笔者从需求端非常态客流变化和供给端运输能力下降 2 个方面对城市群多模式交通系统异常状态进行分类总结,如表1。
表1 城市群多模式交通系统异常状态分类
2 基于多源数据的异常状态影响范围识别流程及方法
2.1 异常状态影响范围识别流程
笔者基于获取的手机信令数据、乘客意向出行调查数据、客票数据及地图信息等提出针对某些异常状态影响范围的识别流程,如图1。
图1 基于多源数据的异常状态影响范围识别流程 Fig. 1 Recognition process of the influence range of abnormal state based on multi-source data
异常状态影响范围识别的关键是枢纽间通道客流异常聚集检测和枢纽群强关联规则挖掘。前者是借助手机数据获取恶劣天气、节假日活动期间乘客的出行链信息,得到枢纽间通道客流量,利用贝叶斯预测方法就实际客流量给出动态安全阈值,进而识别通道客流的异常聚集状态;后者是在获得与实际和假定异常情况相关的乘客出行链基础上,利用Apriori算法挖掘乘客出行经由的枢纽群频繁项集,并应用关联规则特性指标对关联规则有效性进行判别,得到枢纽组合的强关联规则,识别异常条件下受影响的枢纽群。
2.2 枢纽间通道客流异常聚集检测
枢纽间通道客流异常聚集检测主要基于统计学方法,首先根据历史的通道客流数据构建一般化模型,之后结合研究时段内的通道客流数据,利用贝叶斯预测得到动态模型参数,同时确定客流人数θ的异常检测阈值。主要建模步骤如下:
1)利用历史手机信令数据获取所研究的枢纽间客流量,分析并确定合适的通道客流分布类型。
2)确定先验分布模型参数,得到分布密度π(θ)。
3)根据贝叶斯公式确定θ的后验分布密度,如式(1):
(1)
式中:h(θ|x′)为后验分布密度;π(θ)为先验分布密度;P(x′|θ)为样本x′在给定θ条件下的联合分布密度;Θ为参数空间。
4)以满足99.7%的概率条件确定客流人数阈值范围。
2.3 枢纽群强关联规则挖掘
关联规则表示不同数据项目在同一事件中出现的相关性,能够利用有效算法对大量数据集进行数据挖掘。Apriori算法是一种关联规则发现方法,可从大量数据集中寻找项集之间的隐含关系。笔者选择利用这种算法做初步的枢纽关联性挖掘,获得频繁项集,并基于大量的频繁项集通过设定条件获取关联规则,从而得到关联性高的枢纽群。
置信度和支持度是广泛用于获取简单关联规则的有效指标。笔者将置信度表示为C(X→Y),反映枢纽X出现条件下枢纽Y出现的可能性;同时将支持度表示为S(X→Y),反映项集(X,Y)在乘客出行事务集中出现的概率。
在获得满足一定支持度和置信度的频繁项集的基础上,利用兴趣度指标(规则提升度、余弦相似度等)来分析枢纽关联规则的有效性。规则提升度为规则置信度与枢纽Y的支持度之比,反映乘客在出行过程中,枢纽X的出现对枢纽Y出现的影响程度,其计算公式如式(2):
(2)
式中:S(X)为枢纽X的支持度;S(Y)为枢纽Y的支持度。
当两个规则具有相同提升度时,可利用提升度的标准化值来区别其重要性顺序。标准化的提升度作为兴趣度比原值更加有效[11],其计算公式如式(3):
(3)
式中:υ和λ为标定参数,分别为最小支持度阈值σ和最小置信度阈值κ的函数。标定原则如式(4)、式(5):
(4)
(5)
余弦相似度作为兴趣度也可以对枢纽关联规则的有效性进行判别,余弦相似度值越大表示枢纽之间的关联性越强,其计算公式如式(6):
(6)
同样地,可以利用标准化的余弦相似度来区别枢纽关联规则的重要性顺序,其计算公式如式(7):
(7)
与标准提升度一样,υ′和λ′为标定参数。标定原则如式(8)、式(9):
(8)
(9)
3 乘客出行链信息获取
利用多源数据获取乘客的出行链信息(手机数据、意向调查数据)和出行相关地理信息(高德地图),确定枢纽间通道客流量和乘客出行经由的枢纽情况,为分析客流安全阈值和枢纽频繁项集挖掘提供基础[12]。针对“城市群地域范围广、枢纽数量多、城际和城内交通方式多、管理主体多、异常状态类型多”这一现状,选取典型场景开展研究。以京津冀城市群为例,重点针对城市群内部城际间的旅客出行需求。
3.1 基于手机信令数据的乘客出行信息获取
3.1.1 手机信令数据内容
极智数据库平台开放了基于联通全量手机用户信令数据的用户驻留和出行位置数据,辅以用户入网基础属性、通信相关偏好属性和消费等多源数据。以此为基础,利用Hive SQL语句从数据库平台提取的乘客出行数据示例结果如表2。
表2 乘客出行数据示例
3.1.2 数据范围选取
根据在线平台数据情况和对异常状态的分类结果,结合示范场景信息来确定研究的枢纽范围。笔者对2019年5月京津冀城市群内发生的 2 种异常状况进行研究:节日期间大规模乘客出行(2019年5月2日)和突发雷雨大风天气(北京,2019年5月19日),提取的数据量分别为480 983条和414 162条。同时提取2019年5月5日至5月18日的出行数据作为正常日出行参考,数据总量为614万余条。
最终确定基于手机数据研究的交通枢纽(表3),其包括航空枢纽3个(因数据时间范围限制, 不含北京大兴国际机场)、铁路枢纽10个、公路枢纽24个,共37个。
表3 京津冀城市群内研究的枢纽范围
3.2 基于意向调查数据的乘客出行信息获取
由于手机数据获取的异常出行数据比较有限,为扩展异常状态研究范围,笔者以京津冀城市群为研究对象,对出行者在一定异常状态下对单程和联程出行方案的意向选择/调整情况进行问卷调查。问卷假定的异常场景包括北京西站突发大客流(Q1)、强降雨天气导致保定东至石家庄铁路段关闭(Q2)、保定东至石家庄段高铁线路事故(Q3),结合出行时间、出行目的、出行起讫点,最终设定异常状态下的出行场景共12种,如图2。
图2 假定异常状态下的出行场景Fig. 2 Travel scenarios in assumed abnormal state
调查共获得问卷1 667份,有效问卷1 336份。其中,男性和女性受访者分别占47.53%和52.47%;年龄在21~40岁区间内的受访对象为研究的核心人群(比例为62.20%);从职业和月收入情况看,政府工作人员、企业上班族和学生共占88%,57%的受访者月收入位于3 000~15 000元之间。
4 异常状态影响范围确定
4.1 通道客流分析及检测结果
考虑到数据采集的精度,笔者针对一定枢纽范围获取枢纽间的通道客流量。共获取2019年5月2日10的613位乘客信息,2019年5月19日的8 275位乘客信息。
通过处理部分手机数据得到强链接枢纽间的客流量,在此基础上应用2周的客流数据并采用正态性检验方法进行验证。表4中各通道的显著性均大于0.05(95%置信度),表明各强链接枢纽间客流量服从正态分布假设。
表4 强链接枢纽间客流量的正态性检验结果
应用极大似然估计初步估算各枢纽通道客流先验分布参数,利用贝叶斯方法求得后验信息,并不断对先验信息进行修正。在获得分布参数之后,利用拉依达准则(准则)作为人数异常检测的依据。最终得到2019年5月2日和2019年5月19日的枢纽间通道客流量及其安全阈值,如图3。由图3(a)可以看出,2019年5月2日,通道2、通道3的客流均超过了阈值上限,说明这两个通道客流已经达到异常聚集状态,应设计疏散方案及时进行客流疏散;通道1、通道5、通道6、通道8的客流接近安全阈值上限,应急管理部门应针对此通道提前设计预案,以防客流溢出。由图3(b)可以看出,2019年5月19日,通道4、通道7的客流超出了安全阈值,达到异常聚集状态;通道6的客流超出阈值下限,说明在大风影响下,可能部分采用航空出行的客流转而采用高铁出行,并导致通道7客流达到异常聚集的状态。
图3 各枢纽间通道客流量及安全阈值Fig. 3 Passenger flow and safety threshold of channels between hubs
4.2 基于关联规则的异常状态影响范围研究
为进一步确定受影响的枢纽(群),基本思路是利用Apriori算法挖掘枢纽群的频繁项集,应用关联规则挖掘正常和异常情况下关联性高的枢纽群,结合发生异常情况的位置确定该异常状态的影响范围。
4.2.1 基于手机数据的枢纽关联规则挖掘及影响范围确定
设定最小条件支持度阈值为0.5%,最小置信度阈值为10%,得到基于手机数据的关联规则挖掘结果如表5。
表5 基于手机数据的乘客出行经由枢纽的关联规则
分别计算每条规则在工作日、非工作日、节假日和突发大风天气时的提升度及其标准化值(图4)、余弦相似度及其标准化值(图5)。
图4 各时段下基于手机数据挖掘的规则提升度标准化值Fig. 4 Standardized value of rule enhancement based on mobile data mining at different time periods
图5 各时段下基于手机数据挖掘的规则余弦相似度标准化值Fig. 5 Standardized values of rule cosine similarity based on mobile data mining at different time periods
结合正常日和两种异常状态下的枢纽群关联结果,同时分析相关的关联规则兴趣度指标,确定受不同影响情况的枢纽站点。得到两种异常状态下受影响的枢纽范围如表6。
表6 异常状态下的枢纽影响范围
4.2.2 基于调查数据的枢纽关联规则挖掘及影响范围确定
3种假定异常情况下意向出行的2-频繁项集分析结果如图6,不同粗细的线条反映了枢纽之间关系的紧密程度。
图6 强链接枢纽的2-频繁项集Fig. 6 Frequent itemset of strongly linked hubs
由图6可以看出,在Q1这一突发事件下,北京西站和石家庄站、保定东站和石家庄站、保定站和徐水站容易被出行者选择;在Q2这一突发事件下,保定东站和石家庄站、北京西站和石家庄站、保定东站和北京西站、保定站和徐水站容易同时被出行者选择;在Q3这一突发事件下,保定东站和石家庄站、北京西站和石家庄站、保定东站和北京西站容易被出行者选择。在进行相应状态下的通道客流异常识别时,可重点考虑这些强链接的铁路枢纽间通道。
针对假定的3种异常情况,分别设定最小条件支持度阈值为13%、21%、15%,设定最小置信度阈值为80%,得到基于意向调查数据的关联规则挖掘结果,如表7。分别计算每条规则在不同异常情景下的提升度和余弦相似度,同时结合假定异常事故发生位置和枢纽关联性挖掘结果,最终确定假定异常状态下的枢纽影响范围,如表8。
表7 基于意向调查数据的乘客出行经由枢纽的关联规则
表8 假定异常状态下的枢纽影响范围
4.2.3 结果分析
实际异常状态下受影响的枢纽类型比较齐全,包括航空、铁路和公路枢纽,说明基于手机数据获取的实际出行数据能够很好地反映多种类型枢纽间通道的客流分布情况。假定异常场景下受影响的枢纽均为铁路站点,其一方面与意向调查假定的场景有关,假定的异常状态均发生在铁路站点或站间线路上;另一方面,在意向调查中,不同出行方案之间相互交叉的枢纽较少,仅能反映同一类型枢纽站点的关联程度。因而在实际应用过程中,利用相对客观、较大样本的手机数据能够更好地反映枢纽组合的关联性,进而确定受影响的枢纽群。
5 结 语
笔者基于手机信令数据、意向出行调查及客票信息等多源数据,提出了城市群枢纽间多模式交通系统客流异常状态的确定及影响范围识别方法,针对节假日和突发大风天气情况,分析和检测了京津冀城市群内部枢纽间客流的异常聚集通道;就异常检测结果与假定情况,结合枢纽群关联分析得到所研究异常状态的枢纽影响范围。在实际发生相同异常情况时,影响范围分析结果能够有助于进行客流疏散方案决策和交通方式运营调度。笔者在对异常情况下乘客相关出行信息进行获取时,由于手机数据时间范围的限制,异常状态类别较少,而利用多种异常时段下的手机数据能够更真实地反映乘客选择枢纽的关联情况。