城市公共交通系统通勤出行特征提取分析方法*
2019-06-19翁剑成涂强袁荣亮王月玥
翁剑成涂 强袁荣亮王月玥
(1.北京工业大学交通工程北京市重点实验室,100124,北京;2.北京市城市规划设计研究院,100044,北京;3.北京市轨道交通指挥中心,100101,北京∥第一作者,副教授)
随着智能公共交通系统的不断发展及其技术突破,城市公共交通运行、服务等方面的动态数据持续积累,智能卡刷卡交易及车辆GPS(全球定位系统)位置等数据已形成了海量的规模。
基于良好的数据基础,很多学者利用智能卡数据在公共交通用户出行行为分析方面做了大量研究,主要包括出行者的出行起点/终点(OD)、出发时间、行程时间和换乘特征等方面。文献[1]利用伦敦市的公交智能卡数据,研究了地铁与其他公交系统换乘之间出行阶段的连接时间阈值。文献[2]基于韩国智能卡数据记录信息,对乘客公共交通出行时间及换乘特征进行了分析。文献[3]基于智能卡数据,提出了用于预测公共交通出行者的活动目的、出行地点、出行时间、持续时间的方法。文献[4]利用刷卡数据揭示了深圳市通勤人群在出发时间、出行耗时、换乘特征等方面的规律。文献[5]提出了基于智能卡信息采集技术的公交客流及出行信息的分析方法。文献[6]提出基于多源数据的公共交通通勤出行特征提取方法,但通勤人群识别仅依据一周的出行频次,可靠度较低。文献[7]利用智能卡和问卷调查数据,建立了基于决策树模型的通勤人群分类器,精度较高。
这些研究都是基于智能卡数据,以单次刷卡记录为研究对象对公共交通出行者出行行为进行详细分析。然而,在城市公共交通系统网络化、出行模式多样化的背景下,应重点解决换乘行为的判别问题,注重从“完整出行”的角度研究乘客的出行行为,以期更客观、准确地描述出行者的出行特征与需求时空分布。此外,与非通勤人群相比,通勤人群在换乘特征、出行频率等方面有明显的差异性。现有研究在出行行为分析时缺乏对不同出行者的科学分类,无法确切表达通勤人群的出行特点与资源时空需求。
本文拟利用海量的智能卡交易数据,研究城市公共交通系统出行链的连接方法,并引入机器学习方法进行通勤人群判别,为实现公共交通出行行为的精细化分析提供技术支持,为城市公共交通规划与管理提供更为准确的指导。
1 数据基础与预处理方法
公共交通刷卡数据是进行出行链提取、出行者类型识别及出行行为特征分析的基础,包含道路公交智能卡数据和城市轨道交通自动售检票(AFC)系统刷卡数据两种来源。
1.1 城市轨道交通及道路公交刷卡数据特点
目前,城市轨道交通AFC系统主要用以记录用户卡号、进出站点编号及时间等信息。由于乘客在轨道交通网络内部换乘时不需要再次刷卡,因此AFC数据无法直接记录乘客在轨道交通系统内部的换乘行为,但根据其出行轨迹可获取不同出行OD所对应的换乘次数。
本文以北京市2014年9月的公共交通刷卡数据作为研究基础。2014年北京市道路公共交通系统的计费方式同时包括一票制和分段计价制两种,可覆盖大多数城市的情况,具有普适性。其中:一票制只能准确记录乘客的上车站点信息,下车时间和站点位置缺失;分段计价制虽然上下车均需刷卡,但上车站点信息缺失的现象明显,且准确度较低,往往只有下车站点信息相对准确。以往基于智能卡数据推算道路公交上下车站点信息的研究较多,在此不作为重点研究对象。
1.2 数据预处理与整合步骤
为了完整分析公共交通出行者的出行过程,按照以下步骤剔除与出行特征分析无关的数据字段,并对轨道交通和道路公交的异源数据进行整合。
(1)关键字段提取:从道路公交和轨道交通刷卡数据库中提取与出行特征相关的字段,包括用户卡号、进出线路号、进出站车站编号、进出站时间等7个有效字段;
(2)数据整合:以卡号为关联条件,将同一用户的刷卡记录按照刷卡时间排序,为一票制、分段计价制道路公交和轨道交通线路等3类数据增加出行阶段类型的数据标记,分别记为B1、B2和R。公共交通刷卡数据整合表如表1所示。
表1 公共交通刷卡数据整合表
2 城市公共交通出行链结构提取方法
将城市公共交通出行链定义为从出行的起始站点到目的站点,由一个或多个地铁及道路公交的出行阶段按照时间顺序组成的一次完整的出行过程。其中,一个出行阶段指从道路公交出发站点刷卡上车或轨道交通进站起,经过在途出行(可包含轨道交通内部换乘)后刷卡下车或出站的过程。因此每一条刷卡数据记录都可表示一个出行阶段。出行阶段与出行链示意图如图1所示。
图1 城市公共交通出行链二维结构图
2.1 出行链结构提取方法
基于经过整合的公共交通刷卡数据,将所有刷卡记录按照时间顺序进行排序,利用一卡通卡号字段锁定同一用户,根据相邻出行记录时间差进行换乘关系识别,划分或者连接该用户的所有出行阶段。由此方法确定的公共交通出行链可由一个或多个出行阶段组成,设第i个出行阶段的上、下车(或进、出站)刷卡时间分别为Ti-ON和Ti_OFF,则相邻出行阶段之间的换乘时间可由Ti+1_ON-Ti_OFF表示(见图2)。
图2 前后两个出行阶段时间分布示意图
2.1.1 换乘关系判别阈值
在刷卡数据中,单次(一票制)刷卡道路公交只记录上车时间TB1-ON、双次(分段计价制)刷卡道路公交只记录下车时间TB2-OFF,轨道交通同时记录进站时间TR-ON和出站时间TR-OFF。因此,三种出行模式间的换乘交易时间差阈值包含了不同的时间组成,部分换乘结构的交易时间差阈值中包含公交在途时间(见表 2)。
根据道路公交站点服务水平及轨道交通站点吸引范围的相关研究[8-9],确定道路公交与道路公交、道路公交与轨道交通间在理论上可接受的最大换乘时间(不含在途时间)。根据所有道路公交线路的运营里程和高峰时段的运行速度,确定B1或B2理论上的最大可接受在途时间。根据不同的公共交通换乘模式,共划分出8种换乘类型。选取一个月的多模式刷卡数据(约1 500万条/日),连接同一卡号用户的相邻出行阶段,分别计算这8种换乘类型的交易时间差。基于累计频率在95%位的刷卡实际交易时间差,确定各换乘类型的交易时间差阈值(部分包含在途时间),如表2所示。
表2 8种出行阶段连接类型换乘关系判别实际交易时间差阈值
2.1.2 出行链结构提取
基于城市公共交通系统内各换乘关系的时间判别阈值,可实现出行链结构的提取。在表1的基础上增加以下标记字段:“CHAIN”代表该刷卡记录处于该公共交通卡用户的第i条出行链;“JS”代表该刷卡记录处于所属出行链的第k个阶段。基于公共交通卡卡号及上车时间字段,对表1中的刷卡记录进行排序,采用图3所示流程即可实现出行链结构的提取与标记。
图3 公共交通出行链结构信息标记流程
2.2 出行链结构提取方法验证
选取396名志愿者,记录他们连续10个工作日的公共交通出行过程,包括通勤出行和非通勤出行。志愿者按照出行次序,完整记录每一次出行过程包含的所有乘车信息,包括乘坐的交通方式、线路号、上车和下车站点及刷卡时间等。
根据志愿者卡号,匹配刷卡交易记录中的数据,进行出行链提取,对比模型提取结果与实际出行过程的吻合程度。共记录了284条包含换乘的出行链,包含577个出行阶段,共有15种出行链结构。验证结果显示,模型的出行链结构提取成功率为96.1%(见表3)。道路公交出行记录信息的不完备造成部分换乘交易时间差阈值中包含了道路公交在途时间,对出行链提取的准确度影响较大。但目前的提取成功率可以基本满足换乘特征分析的精度要求。
表3 公共交通出行链结构提取成功率
3 基于机器学习的通勤人群鉴别
在数据挖掘技术中,“分类识别”十分重要且具有广泛的应用价值。目前,机器学习分类器的核心算法种类多样[10],各类算法的分类原理、适用范围和精度特点各有差异。
机器学习分类器的建立过程可分训练和测试两部分,构建过程与步骤如图4所示。
3.1 样本数据采集与预处理
采用网络问卷、现场调查等方式,并通过对调查样本一周刷卡数据特征进行校验,最终确定了978位公共交通出行者为样本人群,其中包括490位通勤出行者和488位非通勤出行者。
为了使分类器能够了解各类出行人群的出行特征,从而增强分类器的泛化性和推广性,在基础数据选择时需要注重样本的多样性。因此,在选择样本数据时,考虑了出行人群在性别比例、年龄结构和出行结构等方面的均衡性。此外,在样本数据选择时还考虑了样本数据的出发时间、出行距离和出行时间等要素。
通勤出行具有以下特点:出行的往返性、出发时间的规律性、出行方式选择的固定性、线路选择的多样性。而非通勤出行的上述特征并不明显。因此,可选取上车和下车刷卡时间、上车和下车线路编号、上车和下车站点编号作为特征值描述每个公共交通出行者的出行特征。
图4 机器学习分类模型的建立过程
3.2 模型训练
(1)训练与测试集准备:将全部样本数据按照7∶3的比例随机划分为训练集与测试集。
(3)模型训练:选取多种机器学习算法进行模型训练,包括决策树(Decision Tree)、逐步增强法(AdaBoost)、感应器 (Perception)、支持向量机(SVM)、随机森林(Random Forest)、梯度提升树(Gradient Boosting Tree)等,基本涵盖了常用的机器学习算法。
(4)模型评价:采用分类准确度A、召回率R和精准度P来评估模型的分类效果。三个参数的计算公式如下:
式中:
PS——通勤人群的样本数量;
NS——非通勤人群的样本数量;
TP——可正确识别的通勤人群的数量;
TN——可正确识别的非通勤人群的数量;
施工人员在基坑开挖期间首先要开挖两边,主要采取机械和人工两者结合的方式行。在实际开挖时要对土质在基坑底部的变化情况尤其注重,一旦发现土质在基坑底部的状况不符合工程设计,则要将开挖工作立刻停止,并进行实际情况的反馈。通过和监理与相关设计单位的沟通出现的状况进行综合分析,从而将有效的解决措施制定出来,再继续实施开挖工作,这样可以使开挖工作的进行顺利开展;其次设计标准高度在一定程度上达到时为了将基坑底部受到的干扰影响减少,使开发工作的质量得以确保,应当将正在进行的机械开挖工作暂停并转为人工开挖。
FP——把非通勤人群识别为通勤人群的数量。
基于测试集的293个样本采用不同的算法进行模型评价,计算结果如图5所示。结果显示,随机森林算法的分类准确度最高,达99.96%,且召回率和精准度也明显高于其他算法。与已有的基于决策树的通勤人群鉴别方法[7](准确度98.1%,召回率81.0%)相比,模型精度有明显提升。因此,随机森林算法在出行人群分类中具有最好的适用性,可实现高精度的通勤人群鉴别。
图5 机器学习分类效果评价截图
4 案例分析
利用提出的出行链提取方法和基于机器学习的出行人群分类模型,选取了北京市2014年9月一周的公共交通刷卡数据(当时尚未实施公交票改,数据普适性较好),对公共交通的出行人群结构、出行链与换乘特征进行了初步分析。
4.1 出行人群结构分析
通过分析可知,北京市每天采用公共交通通勤出行的人数在270万左右,出行量较为稳定,占公共交通日均出行总人数的52.5%。
在公共交通出行资源使用方面,通勤出行的公共交通使用频次明显高于非通勤出行。通勤出行日均刷卡次数为750万次,占刷卡总量的58.6%。同时,一周的不同工作日,通勤人群的出行特征和构成比例也相对稳定。
4.2 出行链结构分析
通勤人群出行链结构特征如表4所示。由表4可知:无换乘出行链(不包含轨道交通线网内的换乘)的通勤人群占比约为66.4%。此外,在含有轨道交通模式的通勤出行链中,约有28%的通勤者乘坐轨道交通前后需要采用道路公交接驳的方式完成出行,这反映北京市轨道交通线网在可达性方面有待提高。变异系数表示各结构类型出行链数量在统计期内的稳定程度。结果表明,不同结构类型的出行链在每天的数据量和占比中均较稳定,变异系数均在3%以内。
表4 通勤人群出行链结构特征分析表
4.3 换乘特征分析
出行者平均换乘系数是衡量出行直达程度、反映乘车方便程度的指标。换乘系数越低,表明乘客出行直达程度越高,计算方法如下:
本案例的乘客平均换乘系数计算结果如表5所示。
表5 乘客平均换乘系数
表5的计算结果表明,通勤出行者的平均换乘系数明显高于非通勤出行者。这说明受到出行时耗和工作地点的限制,通勤人群出行过程中存在更多换乘。
5 结语
研究利用公共交通刷卡数据,建立了城市公共交通系统出行链连接方法和基于机器学习的出行人群分类模型,通过实际出行调查和测试样本集验证了出行链连接方法和出行人群分类模型的精度,并初步分析了北京市居民出行特征。结果表明,该特征提取分析方法可以有效识别通勤人群的城市公共交通系统出行链结构及换乘特性。
在今后的研究中,可通过增加分类训练集的样本量,以提高分类器的准确性与泛化性;从出行链的出行时间、上下车位置和换乘过程等维度进一步进行分析与信息挖掘,为城市轨道交通及道路公交线路规划与站点布局优化等提供更准确的数据支撑。