基于改进Apriori算法的乘客公共交通依赖性层级转移分析
2022-04-18林鹏飞翁剑成
胡 松 林鹏飞 翁剑成 梁 泉 周 伟
(1北京工业大学北京市交通工程重点实验室, 北京 100124)(2交通运输部管理干部学院道路教研部, 北京 101601)(3中华人民共和国交通运输部, 北京 100736)
公共交通作为现代城市综合交通运输体系的重要组成部分,具有集约化、高效化和节能化等特征,是推进交通强国和城市可持续交通建设的关键环节.公共交通依赖性反映了乘客在一定交通网络、建成环境和出行政策等条件下,在日常活动区域内长期动态的公共交通使用特征,对公共交通系统的供需平衡具有持续性的影响.但不同时空条件、重大疫情条件[1]等场景下乘客对公共交通的使用情况与依赖性程度并不一致,这将对出行需求预测与规划设计的结果产生不良影响.因此,在识别不同乘客公共交通依赖性水平的基础上,利用关联规则算法挖掘多维度影响因素与乘客依赖性间的强关联规则,并定量化分析不同交通政策对乘客的影响作用,有助于准确把握公共交通乘客出行规律,从而为公共交通出行需求预测及服务质量改善提供支持.
当前,许多国内外学者已经开展了乘客出行行为转移相关的研究,主要从出行稳定性[2]、忠诚度[3]、可靠性[4]和满意度[5]等方面分析了出行者的公共交通表现行为,进而提出刺激政策改善出行者的公共交通使用行为,然而缺乏从蕴含心理和行为层面的公共交通依赖性[6]视角开展相关研究.在交通转移行为影响方面,研究表明乘客的出行转移行为受个体属性[7]、设施环境[3]、服务感知[8]和企业形象[9]等因素影响,但相关研究主要采用出行调查数据或刷卡数据等单一类型的数据,且主要考虑主观心理或客观环境单一维度因素,缺乏从综合分析视角开展研究.而在出行行为转移处理方法方面,主要采用扎根理论[10]、二元Logit回归模型[11]、决策树[12]和混合选择模型[13]等传统研究方法,未从经济学和行为致因角度利用多因素关联规则算法挖掘乘客的出行转移机理.另一方面,关联规则挖掘算法在交通领域的应用主要聚焦在交通事故风险[14]分析方面,而在公共交通出行行为表现及其影响方面的研究不足.
因此,本文在获取出行调查数据和公共交通多源数据的基础上,利用关联匹配技术提取乘客公共交通出行链,结合多层规划理论构建乘客出行知识图谱,在重大疫情条件下从外部致因和心理层面选取7个依赖性指标,采用K-means模型和改进的Apriori算法挖掘乘客的公共交通依赖性关联规则,并基于不同依赖性层次等级(层级)间的关联规则差异性,提出乘客公共交通依赖性层级转移两阶段激励政策,为制定公共交通服务优化策略与措施提供重要支撑.
1 数据基础
1.1 出行调查数据
为准确分析重大疫情条件下乘客公共交通依赖性及其影响效应,研究面向北京市设计并实施居民公共交通出行调查.出行调查内容主要涵盖居民公共交通智能卡卡号、个体属性、出行特性、出行环境和心理因素等方面,主要内容见表1.其中,心理因素采用Likert五分量表度量.
表1 出行调查主要内容
问卷调查时期为2020-07-04—2020-07-11,北京处于因新发地批发市场疫情引发的第2波重大疫情时期.考虑重大疫情条件下北京严控聚集活动且出行者具有更明显的防范心理,故此次出行调查采用线上形式.调查数区域覆盖北京16个区县,其中涉及30个中高风险疫情区域.经问卷质量检核、问卷IP地址审核及数据结构控制,共获取有效问卷298份.利用SPSS statistics软件进行问卷数据质量检验,得出数据的Cronbach’s alpha系数为0.807, KMO(Kaiser-Meyer-Olkin)度量值为0.782,表明问卷数据的信度和效度较好.
1.2 公共交通出行链提取
依托北京公交都市平台,获取北京市公共交通智能卡交易数据、移动定位数据和公共交通线站数据等多源异构数据.首先,进行关键字段提取以剔除与出行特征无关的数据字段,并以卡号为关键字将乘客每一出行阶段的公交、地铁刷卡记录分别标记B和R;其次,利用时空阈值判别、出行链结构获取、出行行为识别、出行OD融合、出行特征匹配等大数据处理步骤,实现乘客个体公共交通出行链的提取,示例信息如表2所示.
表2 个体公共交通全量出行链信息示例
为了同时获取乘客的客观出行数据与主观调查数据等个体全量信息,研究基于公共交通智能卡卡号关联匹配出行链与问卷调查数据,得到乘客公共交通全量出行链信息
1.3 乘客个体出行知识图谱构建
基于提取的个体出行链全量数据,借助知识图谱高效的数据表达与知识聚合功能,从个体零碎、信息不完备的数据中实现基于大规模出行知识图谱构建的个体出行行为表达,并采用图谱领域中的实体抽取、关系抽取和属性抽取方法对个体出行特征进行提炼.图谱的构建便于更直观、全面地理解居民公共交通使用行为,为公共交通依赖性指标提取与行为转移研究奠定基础.通过个体出行空间位置聚类、出行时间分类和实际路径聚类分层提取信息,并采用多层规划理论分别构建图谱的第1~3层结构,进而实现个体出行知识图谱的搭建[15].
2 乘客公共交通依赖性辨识与关联规则挖掘建模
2.1 依赖性刻画指标及辨识模型
通过观察个体出行知识图谱的多维结构和特征,利用乘客出行表现维度提取出行天数占比、出行次数占比和公共交通往返性3个特征指标刻画公共交通依赖性.其中,出行天数/次数占比为一定时期内,居民采用公共交通出行的天数/次数占总出行天数/次数的比例;公共交通往返性指在一定时期内,居民采用公共交通方式出行并返回的次数占总出行次数的比例[16].不同乘客的依赖性刻画指标关系示例如表3所示.由表可知,乘客公共交通依赖性刻画指标的数据形态具有异质性特征,尤其是公共交通往返性与其余2个指标值的分布特征具有更为显著的差异性,这可能与限号政策以及公共交通往返使用特征有关.
表3 乘客出行特征指标关系示例 %
为了基于以上指标准确辨识乘客的公共交通依赖性,采用可有效处理连续型变量的K-means无监督聚类算法,为关联规则的挖掘提供关键事务项集.K-means算法基于样本间距离差异将样本集C划分为k个簇(C1,C2,…,Ck),则算法目标的最小化平方误差E计算公式如下:
(1)
式中,k为簇类数;Ci为第i类指标数据集;μi为Ci的均值向量;x为Ci的样本数据向量.
2.2 依赖性影响指标及关联规则算法改进
基于出行链数据,从公共交通依赖性(PT_dependence)外部致因角度,选取了家和目的地到站点总距离(Distance_to_transit)、是否途径中高风险区域(OD_areas)、收入(Income)、小汽车可用性(Car_availability)4个易于改变的指标.此外,当前交通领域中关联规则算法的事务项通常忽略了乘客心理层面因素.考虑到乘客心理因素对其出行依赖性具有显著影响,本文从计划行为理论(TPB)的态度、感知控制和主观规范角度,分别选取公共交通总体满意度(Overall_satisfaction)、公共交通疫情防控政策了解度(Acquaintance_degree)与疫情期亲友对使用公共交通支持度(Support_degree)3个代表性指标,作为关联规则挖掘的基础项集.
为便于关联规则挖掘和激励政策定量化制定,需将依赖性特征指标进行离散化处理.除类别变量A外,利用K-means算法将其余连续变量分别划分为3类子集.聚类得到的各特征指标的分类结果如表4所示.
表4 乘客公共交通依赖性指标离散化结果
关联规则算法从致因角度发掘大规模数据中不同特征或事务间的隐含关系,可有效挖掘多因素间的共现性与相关性,刻画不同公共交通依赖性层级群体间的出行影响差异.本文借助经典的Apriori算法进行公共交通依赖性关联规则挖掘,将乘客公共交通依赖性视为事务,而7个公共交通依赖性指标为事务的项,h个项的集合称为h项集,h=0,1,2,…,7.
Apriori算法的思想为:通过单遍扫描数据集C1确定各项的最小支持度阈值Smin,基于阈值对候选集Lh进行剪枝,提取不同项集长度候选集Lh中的频繁项集Ch,并结合最小置信度Cmin和最小提升度Lmin进一步挖掘Ch中的强关联规则.算法迭代过程如图1所示,图中A~D为关联规则的项集.
图1 Apriori算法迭代示意图
其中,关联规则的蕴涵表达式为A⟹B,A为关联规则前件LHS,B为后件RHS.支持度support可衡量各项集在数据集中的频繁共现程度,计算公式如下:
(2)
式中,η(A∪B)为数据集中A与B同时出现的事务数;N为数据集中事务总数.支持度越高,表明某一关联规则的适用性与可靠性越大.
置信度confidence为B在包含A的事务集中出现的频率,可度量关联规则推测的可信度,计算公式如下:
(3)
式中,η(A)为数据库中涵盖A的事务数.置信度越高,表示由B推测A出现的可信度越大.
提升度lift(l)反映A的出现对B出现的影响程度,为相关性度量指标.提升度计算公式如下:
(4)
若提升度l>1,则A和B呈正相关;若l=1,A和B相互独立,不存在相关性;若l<1,则A和B呈负相关.
考虑Apriori算法在频繁模式提取时会随机选定关联规则的前后件,即规则前件会涵盖群体依赖性层级项,而后件包含7个依赖性影响指标项,从而产生大量不符合预期结果的关联规则.为了避免以上情况进而挖掘有效的关联规则,研究采用R语言的subset函数对Apriori算法的关联规则挖掘逻辑进行改进.subset函数可限定关联规则前件LHS包含7个公共交通依赖性影响指标项,而后件RHS仅涵盖依赖性层级项,剔除不具现实意义的无效规则.
3 实证研究
3.1 依赖性水平辨识
将2.1节3个公共交通依赖性特征指标输入到K-means聚类模型中,基于多次迭代计算所得的最终聚类中心结果的方差值,确定最佳聚类数为4,即将乘客的公共交通依赖性水平划分为低、较低、较高和高4类,人群占比分别为26%、16%、26%、32%.最终聚类中心结果如图2所示.各聚类中心值间具有显著的差异且聚类中心值随着群体依赖性的增大而增加,侧面表明K-means聚类算法对于样本数据处理的有效性.
图2 最终聚类中心结果
3.2 频繁模式提取
为了挖掘不同项集长度下依赖性属性指标间的关联规则,需要首先明确不同频繁项集支持度与生成的关联规则数量间的非线性关系.本文使用R语言软件RStudio进行数据的处理与算法实现,将初始数据集输入到构建的Apriori算法中,可得到共86 143条初始关联规则.分别计算初始关联规则的支持度、置信度和提升度,其中提升度值由低到高自动聚为8类,则三者间的散点关系如图3所示.
由图3可知,关联规则的支持度多数分布在0.2以内,而置信度分布较广泛.为确定不同项集的支持度阈值,在控制置信度和支持度分别为0.01的情况下,计算h项集在不同支持度与置信度条件下生成的关联规则数量,结果如图4所示.
图3 初始关联规则散点图
(a)支持度
由图4(a)可知,当候选频繁1项集~6项集的支持度分别大于5%、5%、4%、4%、2%、1%时,关联规则数量显著减少,故将其分别作为不同长度项集的支持度阈值Smin;同理,基于图4(b)将1项集~6项集的置信度阈值Cmin分别取值为40%、40%、40%、50%、50%、50%.此外,为全面分析各类群体公共交通依赖性指标间的差异,经多次迭代计算将7项集的Smin和Cmin分别设定为1%和40%;提升度阈值lmin取最小正相关关系阈值1.
将初始数据集输入到改进的Apriori算法中,基于阈值限制与迭代计算可得1项集的频繁模式规则,如图5所示.图中,圆形大小表示支持度高低,颜色深浅表示提升度高低.
图5 1项集频繁模式规则
由图5可知,1项集的频繁模式规则共有7条.其中,公共交通低依赖性(PT_dependence=low)对应的频繁项集分别为家和目的地到站点短距离(D1)、公共交通低满意度(S1)和公共交通疫情防控政策低了解度(P1);公共交通较高依赖性(PT_dependence=relatively high)对应的频繁项集为家和目的地到站点的中距离(D2);公共交通高依赖性(PT_dependence=high)对应的频繁项集分别为小汽车低可用性(C1)、家和目的地到站点的长距离(D3)和亲友对使用公共交通支持度(R2).
3.3 关联规则挖掘
为挖掘乘客公共交通依赖性不同长度项集的强关联规则,分别设定不同长度项集的算法参数阈值后,可逐步计算获得2项集~7项集的公共交通依赖性强关联规则.本文共选取7个乘客公共交通依赖性影响指标,故频繁7项集结果为最终挖掘的公共交通依赖性强关联规则,如图6所示.其中,强关联规则的前件LHS分行列出,后件RHS分列列出,圆的位置关联前件与后件,而圆的大小、颜色深浅表示不同关联规则支持度和提升度的大小.结果表明,不同公共交通依赖性关联规则对应的共现项集具有显著差异,且较低依赖性群体因公共交通使用特征的随机性与动态性导致相关的项集共现性较低.参数值越大,表明关联规则的共线性与关联性越高.从不同依赖性层级对应的强关联规则中提取支持度最高的前2条强关联规则进行具体分析,如表5所示.
图6 不同项集长度的关联规则结果
表5 不同公共交通依赖性典型关联规则
重大疫情条件下随着公共交通依赖性降低,依赖性影响指标呈现出的规律性以及不同依赖性层级间指标的差异性也随之减弱,且多维指标的共现度与关联规则发生概率也相对较低.关联规则3、6、8的置信度为最高值1,表明符合此类规则条件的乘客可直接判定为对应的公共交通依赖性层级.
家和目的地到站点总距离、是否途径中高风险区域和收入3个指标在不同依赖性层级间未呈现出明显的规律特征,表明此三者并非决定乘客公共交通依赖性的重要因素.而是否途径中高风险区域指标仅在较高公共交通依赖性层级中出现,表明重大疫情对此类乘客的公共交通使用行为影响更大.对于包含低收入属性的2类典型群体中,公共交通较低依赖性层级中81.3%为大学生群体,其出行主要为步行或骑行等中短途非公共交通出行活动;而高依赖性层级中主要为无车的上班族与离退休人员,公共交通为其最优出行方式.公共交通高依赖度层级中亲友对使用公共交通支持度指标与其他层级具有较为明显的异质性,且整体水平偏低,均具有一定的提升空间.
3.4 依赖性层级转移策略分析
为提升重大疫情条件下不同层级出行群体的公共交通依赖性以及公共交通分担率,结合问卷调查信息,采用两阶段法促进乘客逐步向更高公共交通依赖性层级转移.
第1阶段对比分析公共交通低、较低依赖性层级与较高依赖性层级强关联规则间的差异,并剔除面向大学生群体的关联规则4,提出以下依赖性改善策略建议:① 家和目的地到站点总距离虽未在各层级间呈现明显差异,但整体层面上数值偏大,而公共交通线网优化、公交站点位置优化、城市居住区规划与TOD(transit-oriented development)模式引导等有利于减少乘客家和目的地到站点总距离的重要措施,预期可减少公共交通乘客约10 min的末端出行距离.② 该阶段乘客的小汽车可用性整体较高,若采用车辆限行和增加停车费等小汽车限制措施预期可改善约36.4%出行者的公共交通使用行为.
第2阶段聚焦较高公共交通依赖性群体,通过对比分析第5~8条强关联规则可知,第1阶段相关的政策措施仍为此阶段重要的保障.此外,33.3%的乘客因途径中高风险区域而对公共交通选择带来负面影响,调查表明车厢内乘客间隔管控、车站与车厢环境清洁消毒与站台排队间隔管控是出行群体认为应亟须加强的3个措施;而科学有效地传播公共交通疫情防控政策、健康预约出行等也为可实施的重要策略.此外,重大疫情时期亲友对使用公共交通支持度较低,为减弱该指标对乘客公共交通出行产生的负面心理效应,可加大公共交通优惠贴补、增加发车频率、与共享单车等模式整合以及开通多模式公交等,预期进一步提升约37.2%乘客的亲友对使用公共交通的支持度,并有利于乘客公共交通总体满意度的提升.开展以上相关组合策略可针对性激励不同依赖性层级群体改善公共交通使用行为.
4 结论
1)从外部致因和TPB理论视角更准确全面地提取7个乘客公共交通依赖性影响指标,避免了因考虑维度不足所造成的影响关系刻画片面性.
2)改进的Apriori算法可有效实现不同项集长度下公共交通依赖性的强关联规则挖掘,且关联规则前件涵盖的项集数与其对应的支持度呈负相关关系,即公共交通依赖性越低,则层级对应的关联规则共现度与发生概率也越低.其中,关联规则3、6、8的置信度为最高值1,可将其作为公共交通依赖性层级判定依据.
3)家和目的地到站点总距离、小汽车可用性和疫情期亲友对使用公共交通的支持度为乘客公共交通依赖性层级转移所需持续提升的指标;而是否途径中高风险区域指标为较高公共交通依赖性群体需要重点改善的指标.