基于XGBoost算法的大型活动期间轨道进出站量预测*
2020-10-19翁剑成钱慧敏蒋锦港
付 宇 翁剑成* 钱慧敏 蒋锦港
(北京工业大学交通工程北京市重点实验室1) 北京 100124) (武汉理工大学交通学院2) 武汉 430063)
0 引 言
以文艺活动、体育赛事为代表的短时性大型活动在举办期间对场馆周边轨道站点的出行需求影响显著,有针对性的对其进行时空影响分析及客流预测有助于管理者把握轨道站点进出量的变化规律,为安保策略制定和轨道交通车辆调度提供数据支撑[1],也有利于出行者更合理的选择出行时间及线路.
目前,国内外针对大型活动期间客流变化及需求预测方面开展了较多有针对性的研究.孙根年等[2]依据多种调查资料和旅游本底趋势线理论,对2008年北京奥运会背景下的旅游客流量变化进行预测,并给出了各月客流量的预测值.王田田等[3]利用青岛世园会实时客流数据分析其客流规模特点及影响因素,对入园客流的时间变化特征进行总结,并提出了世园会期间乘客进出站量预测的方法.王兴川等[4]针对2014年广交会期间的客流成分构建了活动客流与背景客流预测模型,基于城市轨道交通自动检票系统(AFC)采集到的刷卡数据实现了对展会期间城市轨道交通站点客流量的预测.Arun等[5]对美国亚利桑那州举办的赞助类型活动进行了数据收集和交通集散特征分析,建立轨道需求预测模型并预测了活动举办当天特定轨道站点的客流量.Li等[6]提出了一种新的多尺度径向基函数(MSRBF)网络预测模型,结合公交智能卡数据完成了对北京某次演唱会当天的公交客流预测.
总计而言,现有研究侧重于宏观需求预测,通常是针对整个大型活动期间进行客流需求分析,集中在月、日、时级别的中长期维度[7-8].然而短时性大型活动具有短时间内诱增交通量大、进出站客流量时空波动性明显等特点,使得中长期客流预测方法无法满足轨道运营管理中实时监控、预防突发事件等需求的精度要求[9-10].
因此,文中针对分钟级别的城市轨道站点进出量短时预测开展相关研究.采集2017—2018年的北京市轨道AFC刷卡数据和短时性大型活动数据为基础,在分析活动举办期间场馆周边轨道交通客流集散特征的基础上,总结影响客流变化的关键因素,构建了基于极端梯度提升决策树的站点进出客流量预测模型,并通过案例进行精度验证.
1 数据采集及影响因素分析
1.1 活动定义
本文所研究的短时性大型活动是指活动开始时间和结束时间明确、集中,持续数小时,活动参与人数超过5 000人的集中式活动,如演唱会、体育赛事等.
1.2 数据基础
北京工人体育场位于北京市朝阳区工人体育场北路,是中超俱乐部北京国安队的主场,也是各大演唱会举办的热门场馆.以北京工人体育场为例探究短时性大型活动的举办对周边轨道进出站量的影响规律,选取东四十条站、东大桥站及团结湖站为研究对象.
AFC数据中主要包含卡ID、进出站线路编号、进出站站点编号、进站时间、出站时间等共16个字段.以北京为例,轨道AFC系统数据质量良好,站点定位准确且字段完整率高,可以实现工作日均超过500万条的数据记录量.
从北京市交通管理部门获取以上三个轨道站点2017年7月1日—2018年10月30日期间,每日05:00—23:00时段15 min粒度的AFC刷卡数据作为目标函数导入样本库,总样本量跨18个月共34 600余条.
北京工人体育场大型活动数据主要包含活动举办日期、星期、气象信息、活动名称、活动上报规模及开始和结束时间,数据格式见表1.
表1 短时性大型活动数据样例表
1.3 影响因素分析
1) 时段特征轨道交通客运量在不同周期范围内均呈现出相应的规律性波动,具有明显的时段特征:1、2月份轨道客流总体呈现低位运行状态,7、8月则处于较高水平.周变化中,周一早高峰、周五晚高峰轨道运行压力较大;日变化中又分为高峰、平峰时段.故将月份、星期、时段三个特征指标纳入因素集.
2) 日期属性日期属性主要分别工作日、双休日及节假日.不同日期属性下的轨道交通客运量存在差异,故将日期属性作为特征指标纳入因素集.
3) 活动性质及上报人数短时性大型活动种类繁多,包括以演唱会等为主的文艺活动,以篮球赛、足球赛为主的体育活动,以产品发布为主的商业类活动等.不同性质的大型活动所吸引的人数不同,活动规模的大小直接影响前来参加人数的总量,是影响场馆周边轨道站点的决定性因素.
4) 天气状况对于现场购票的短时性大型活动而言,恶劣天气将直接影响到居民的前往意愿.对于预约购票的大型活动,特殊天气会将部分采用小汽车、步行出行方式的居民转移到乘坐轨道交通中来,同时特殊天气下的交通系统应急保障会提出更高要求.
5) 举办时间举办时间是指活动的开始、结束时间.短时性大型活动主要集中在15:00及19:00左右开始,对于工作日而言15:00是工作时段,会对轨道客流会有一定的影响.对于结束时间而言,当结束时间过早,居民可能会在场馆周边逗留、餐饮,导致进站客流峰值不明显.当活动结束时间较晚时,客流需要在较短的时间内疏散,客流峰值相对集中.
6) 距离活动开始、结束时间基于上文分析,选取活动开始前3 h至活动开始后0.5 h、活动结束前0.5 h至活动结束后1 h作为影响特征,按照15 min为最小单元进行划分.
2 活动期间周边轨道站点客流集散特征分析
本文针对2017年8月25日举办的“周杰伦2017北京演唱会”进行案例分析,活动时间为19:00—22:00,上报参与人数为37 000人,活动开始前轨道站点诱增客流合计达20 009人·次,占总规模人数的54%.选取东四十条、东大桥及团结湖三个站点当天进出站客流数据与同期未有大型活动时的客流数据进行对比,探究活动开始前后观众进出周边轨道站点的集散特征.
2.1 开场前轨道出站客流特征
演唱会当天与历史同期的出站客流数据对比见图1.可以看出东四十条、东大桥及团结湖三个站点具有相同的规律变化特征,在16:30(活动前2.5 h)左右诱增客流量逐渐上升,站点出站量明显增长;在18:30—18:45(活动前0.5 h)时段出现客流高峰;出站客流于19:30(活动开始后0.5 h)回归到正常水平,回复速率明显高于增长速率;影响时段共计3 h,累计诱增客流分别达到9 005,5 110,5 023人·次.
图1 演唱会开始前东大桥、东十四桥、团结湖站点出站客流
2.2 散场后轨道进站客流特征
为了更直观准确的刻画活动结束后轨道站点客流量的变化情况,明确活动影响时段及影响程度,以15 min为统计粒度,将以上三个站点在演唱会结束后的进站客流数据与同期历史客流数据进行对比,见表2.
表2 周杰伦2017北京演唱会结束后进站客流
当天演唱会22:00结束,可以看出三个轨道站点在活动结束后进站客流量均显著增长,但与活动开始前出站量相比影响时段相对较短,呈现快增快退的趋势.分析可得活动结束后对轨道客流的影响时长为1 h,进站高峰时段出现在22:15—22:30,15 min进站量超2 000人,高于出站客流峰值,客流增幅分别高达956.9%,664.8%和286.2%.
3 基于Xgboost的轨道站点进出量预测
3.1 模型构建
Gradient Boosting算法学习机制是共迭代构建K个不同的个体学习器:f1(x),…,fK(x),每添加一个新的学习器时要使得整体预测损失更小.其中第t轮迭代的学习器为
ft(x)=ft-1(x)+L(x,ft(x))
(1)
式中:ft-1(x)为从第1到第(t-1)轮迭代的学习器;L(x,ft(x))为第t轮的损失函数.
假设第(t-1)轮迭代得到的学习器为ft-1(x),损失函数为L(x,ft-1(x)),那么本轮的迭代目标就是找到一个L(x,ft(x)),来最小化目标函数.
基于以上思想,极端梯度推进决策树回归算法总结如下.
1) 定义目标函数
(2)
(3)
式中:T为叶子结点个数;ω为叶子节点的分数;γ与λ为控制参数,用来防止过拟合.
2) 基于GB思想,第t轮的学习器等于前t-1轮的学习器加上ft
(4)
则目标函数可以表示为
(5)
3) 在构建第t个学习器时要寻找最佳的ft,来最小化目标函数.利用ft=0处的泰勒二阶展开来近似它,则目标函数可以近似为
(6)
式中:gi为一阶导数;hi为二阶导数.
4) 前t-1轮学习器的预测分数与yi的残差对目标函数优化不影响,可以去掉,并将同一叶子节点的样本进行重组
(7)
5) 将目标函数改写成关于叶子结点分数ω的一个一元二次函数,求解最优ω和目标函数值就变得很简单了,直接使用顶点公式代入即可.因此,最优的ω和目标函数的表达式变换为
(8)
3.2 实例验证
以东大桥站点为例,选取北京市2017年7月1日—2018年10月30日期间该站点内的AFC刷卡数据、短时性大型活动数据及其他影响因素数据构建数据集,期间共包含94场短时性大型活动.为了提高模型泛化程度,防止过拟合现象,将前70%日期的数据作为训练集,后30%作为测试集进行模型训练.本文使用Python编程语言构建预测模型,并使用scikit-learn代码包中的GridSearchCV工具实现模型参数最优化调整.
利用XGBoost模型对北京市2018年11月7日、12月22日2天北京工体举办短时性大型活动时的轨道客流量进行预测,并用实际数据进行精度检验评估.活动数据见表3.
表3 大型活动数据实例
选取的两场活动具有不同的日期属性、天气、活动类型与规模、举办时间,能够体现出模型在不同因素影响下的预测性能,具有较强的代表性.针对活动举办前后以15 min为粒度进行轨道客流预测,进出站量预测结果见图2.
图2 东大桥站客流预测结果
预测精度方面:
1) 11月7日东大桥进出站客流预测精度分别为91.2%和89.1%,12月22日东大桥进出站客流预测精度为93.5%和92.9%,平均预测精度可以达到91%以上.
2) 12月22日整体预测精度较高,这是因为演唱会观众规模较小,轨道客流波动相对平稳.
3) 活动开始前出站客流预测精度高于活动结束后进站客流精度,说明活动结束后轨道出行需求集中且波动性较大.
4 结 论
1) 短时性大型活动的开展对周边轨道站点客流进出量会产生显著影响.影响时段方面,距活动开始前2.5~3 h诱增客流开始出现,在活动开始前0.5 h出站客流达到峰值;诱增客流于活动结束后 1 h内疏散完毕.
2) 影响幅度方面,活动开始前客流增长幅度呈初步增大的趋势,与背景客流相比增幅在100%~250%;活动结束后进站客流增长更为显著,呈现快增块降的趋势.
3) 提出了影响堆到站点客流的6个主要因素:时段、日期、上报人数、天气、举办时间、距离活动开始结束时间,并构建极端梯度提升决策树预测模型.对工人体育场举办的两场短时性大型活动进行实例验证,预测平均精度超过90%.
4) 模型适用性方面,当要对其他场馆周边轨道站点客流量进行预测时,仅需按照本文所构建因素集的格式,输入目标站点的AFC刷卡数据及该场馆的活动相关信息,即可完成相关预测,模型具有移植性高、通用性强的优势.