APP下载

基于Stacking集成学习的机场线短时客流预测研究

2024-01-01杨安安韩星玉田旷刘泽远明玮

山东科学 2024年4期
关键词:航班信息进站客流

摘要:地铁机场线客流具有高度时变性,受机场航班影响使得精准的短时客流预测具有挑战性。综合考虑机场航班信息和机场线路历史客流,构建了一种以随机森林(RF)、LightGBM (light gradient boosting machine)、梯度提升决策树(GBDT)和逻辑回归算法作为集成学习器,基于叠加(Stacking)集成模型的机场线路短时客流预测模型。以北京地铁大兴机场线为实例进行验证,并与Informer和长短时记忆神经网络(long short-term memory,LSTM)两种基线模型进行对比。结果表明,考虑航班信息和机场线历史客流的双通道预测效果明显优于仅考虑机场线历史客流的单通道预测;Stacking模型在各项指标中均表现出优越的性能,其中,在96步长(24 h)下的预测效果最好,预测进站客流的平均绝对误差为7.66,预测出站客流的平均绝对误差为4.67;分析航班信息特征对预测模型的影响,发现离港航班信息重要性不如到港航班,这与离港旅客提前到达机场时间差异较大有关。

关键词:机场线;短时客流预测;Stacking集成模型;航班信息

中图分类号:U121"" 文献标志码:A"" 文章编号:1002-4026(2024)04-0112-09

开放科学(资源服务)标志码(OSID):

Study on short-term passenger flow prediction for a subway airport line

based on Stacking ensemble learning

YANG An’an1, HAN Xingyu2, TIAN Kuang1, LIU Zeyuan3, MING Wei1

(1.Beijing Intelligent Transportation Development Center (Beijing Automotive Regulation and Management Service Center),

Beijing 100161, China; 2. Beijing Metro Operation Administration Co., Ltd., Beijing 100068, China;

3. Beijing Jingcheng Metro Co., Ltd., Beijing 100082, China)

Abstract∶The highly dynamic nature of subway airport line passenger flows and their susceptibility to the influence of airport flight schedules present challenges for accurate short-term forecasting of passenger flow. This study integrates airport flight information and historical passenger flow data from airport lines to construct a short-term passenger flow forecasting model based on a stacking ensemble model. The model incorporates random forest (RF), LightGBM (light gradient boosting machine), gradient boosting decision tree (GBDT), and logistic regression algorithms to act as ensemble learners. The proposed model is validated using data from the Beijing Subway Daxing Airport Line and is compared against two baseline models, namely informer and long short-term memory (LSTM) networks. The results indicate that the dual-channel prediction, which considers flight information and historical passenger flows, outperforms the single-channel prediction solely based on historical passenger flows. The results also indicate that the stacking model demonstrates superior performance across all metrics. Particularly, the best prediction performance is achieved at a 96 step (24 h) forecast horizon, with mean absolute error of 7.66 and 4.67 for inbound and outbound passenger flow predictions, respectively. Analysis of the impact of flight information characteristics on the prediction model reveals that departure flight information is of relatively lower importance than that of arrival flights, which is attributed to large differences in advance arrival times for departing passengers.

Key words∶airport line; short-term passenger flow forecasting; Stacking model; flight information

近年来,航空运输业的迅猛发展使我国的机场网络规模不断扩大。据统计,截至2021年,我国境内运输机场(不含港澳台)有248座,全年旅客吞吐量超9亿人次[1]。然而,随之而来的是机场周边交通压力的显著增加,这对机场线的规划和运营提出了更高的要求[2]。机场线不仅为乘客提供了从机场到市区的高效便捷出行方式,还有效减轻了机场周边道路的交通压力。然而,机场线客流的高度时变性和受多种因素影响的特点,使得其运营管理面临一系列挑战,其中最重要的之一就是精确预测客流。精确的客流预测可以帮助运营企业更好地掌握客流变化规律,优化列车发车间隔,避免高峰时段拥堵,提升乘客的出行体验,为机场线的高效运营和服务提供可靠支持。

机场线是一种专门承担特定功能的轨道交通线路,其在区位、功能、客流来源、客流特征和客流影响因素方面与一般轨道线路有着显著的差异。机场多位于城市外围,占地面积大,机场线的终点和起点都位于机场的航站楼或航空枢纽附近,以便乘客的无缝连接。机场线的主要功能是为旅客提供从城市中心到机场以及从机场到城市的快速便捷交通服务。这种单一的功能定位导致机场线的主要客流来源集中在民航旅客和机场工作人员[3]。与一般轨道线路站点客流呈现出的“单峰型”和“双峰型”特征[4]不同的是,机场线的客流特征不规律。机场线的高峰小时系数低于一般站点[5],这主要由于航班的起降时间分布在全日不集中,在航班集中度到达或离开的时间段反而会产生大量轨道客流[6]。航班的延误、取消等突发事件可能导致乘客需要临时调整乘坐机场线的计划,从而对机场线的客流产生影响[7]。

近几年,基于大数据和先进的数学方法来预测轨道站点客流量成为趋势。大数据技术的广泛应用为轨道站点客流量的精准预测提供了强有力的支持。通过收集、整合和分析大量的历史乘客进出站数据,可以揭示客流量的周期性变化、节假日影响、特定时段的高峰等规律,为预测模型的构建提供了可靠的依据[8]。机器学习和深度学习等技术的应用不断推动着轨道站点客流量预测的精度和效果的提升。传统的时间序列模型如ARIMA(autoregressive integrated moving average,自回归移动平均模型)能够预测客流量的趋势,但难以捕捉非线性关系和复杂的影响因素[9]。而机器学习模型如支持向量机[10]、长短时记忆网络(LSTM)[11]等,具备更强大的拟合能力和学习能力,能够处理大量的历史数据,提供更准确的预测结果。然而,机器学习模型在训练阶段存在过于关注训练数据中的细节和噪声,从而产生过拟合的问题。随着机器学习技术的发展,集成学习在客流量预测方面展现了出色的性能[12]。集成学习通过将多个基本模型的预测结果进行结合,从而提高整体预测的准确性和稳定性[13]。在预测轨道站点客流量的场景中,集成学习能够克服单一模型的局限性,更好地适应数据的多样性和变化性[14]。

城市轨道交通站点客流预测研究已经较为丰富,但是机场线的客流预测研究较少,其主要原因是,一般线路的客流影响因素在机场线适用性差,如时间特征(工作日、非工作日)对民航乘客的出行目的的关联度不高[15],反而航班安排、气象条件、航班延误、旅客通关等动态因素对机场线客流的影响较为显著[16]。

然而,目前对于机场线客流预测的研究仍存在不足:(1)集成学习方法在机场线短时客流预测方面的研究较为有限,其预测效果及精度有待进一步验证;(2)航班信息对预测精度的影响缺乏深入研究;(3)现有的预测方法仅聚焦于到港旅客的客流量预测,缺乏对离港方向客流的准确预测。鉴于此,本研究将到离港航班信息纳入机场线客流影响因素,对乘坐机场线出入机场的进出站双向客流进行预测。采用基于Stacking的集成学习方法对机场线短时客流进行预测,预测结果与LSTM、Informer等深度学习方法进行对比。最后,以大兴机场线作为实例,验证基于Stacking的集成学习客流预测方法的可行性与有效性,并进一步挖掘到离港航班信息对预测结果的重要性。

1 模型构建

1.1 模型架构

Stacking算法由Wolpert[17]于1992年提出,被广泛应用于机器学习各类应用中。Stacking是若干个机器学习方法的结合,其本质上是一种分层结构,通过生成一系列基学习器,再用某种策略将学习器组合起来使用。因此为得到性能优异的Stacking集成学习预测模型,需要选择相适应的基学习器和元学习器。

为满足Stacking对基学习器“多且不同”的要求,本研究选取了4个基学习器。其中,随机森林(random forest, RF)[11]和梯度提升决策树(gradient boosting decision tree, GBDT)[18]是两种常见的以决策树模型为基础的回归算法,常被用来预测连续数值。极端梯度提升(extreme gradient boosting, XGBoost)[19]是GBDT的改进算法,具有更强的计算能力、效率出众、速度更快、预测准确度高的优点。

除上述3种以决策树为基础的模型算法外,本研究增加K近邻(K-nearest neighbors, KNN)作为基学习器层的模型算法,其精度高、对异常值不敏感、简单有效。第二层应当选择泛化能力较强的模型,能够实现从中归纳并纠正第一层多个基学习器对于训练模型的偏值情况,通过对第一层基模型产生的数据进行二次预测,进一步提高预测表现。逻辑回归(logistic regression,LR)算法是一种概率统计模型,为最流行的分类算法,具有容易拓展、解释力强等优点,作为元分类器可以保证模型精确度的同时防止过拟合。因此,本研究将RF、GBDT、XGBoost、KNN 4种算法作为第一层基学习器,LR算法为第二层元学习器,构成基于Stacking的机场线短时客流预测算法架构,如图1所示。

1.2 算法流程

基于Stacking的机场线短时客流预测模型的目标是预测机场线未来短时进出站客流,通过输入机场线历史客流与到离港航班数据(自变量X)以及机场线预测客流(因变量Y)构建的数据集进行训练,返回预测结果。Stacking训练流程图如图2所示,具体流程如下:

(1)将数据划分为原始训练集D和原始测试集V。

(2)引入5折交叉验证方法训练各个基学习器,将原始数据集D平均划分为5个互斥子集,分别为D1,D2,…,D5。然后,分别选择其中4个子集的并集作为训练集,余下的1个子集作为测试集,构造初级学习器的训练集和测试集。这样每个初级学习器可获得5组训练集和测试集,并获得5个测试结果S1,S2,…,S5。

(3)生成新训练数据集。因本Stacking集成预测中含4个基学习器,都采用这5组训练集和测试集进行基学习器的训练和测试,则对于第n个基学习器,在完成5折交叉验证后,将有5个预测结果,将其按行纵向堆叠,获得该基学习器下样本数据的预测集Si,n(i=1,2,…,5),同时将这5个预测结果平均得S-n(n=1,2,…,4)。在完成4个基学习器的训练之后,将每个基学习器获得的预测集与预测均值按列拼接,则得到第二层的新的训练集Si,n,与新的测试集S-n。形成第二层元学习器的输入数据集。即数据集{(S-n,Si,n),i=1,2,…,5;n=1,2,…,4}。

(4)使用元学习器LR进行二次训练。将通过上一步初级学习器训练得到的新训练集与测试集输入第二层元学习器用于次级训练,得到最终机场线客流预测结果。

1.3 特征重要性评价方法

为了更好地理解数据训练的模型,了解各输入数据(自变量X)对预测结果(因变量Y)的影响程度,有必要对自变量开展特征重要性分析。

本研究采用排列重要性(permutation importance)[20]估计每个特征的总体重要性,这些特征重要性得分可以量化当一列的值在行间随机洗牌时预测性能。这些得分有助于观察模型整体行为的可解释性,有助于得到这些特征影响预测性能的局部解释。具体步骤如下:

(1)输入训练集的所有特征数据训练得到模型;

(2)选择其中一个需要分析的特征,将验证集中的该特征数据进行打乱(图3),并保持其他列和目标值不变;

(3)计算新的预测结果,如果新旧结果的差异不大说明该特征重要性低,如果新旧结果差异显著,说明该特征对模型的影响也是显著的;

(4)将验证数据集还原,并重复第2步和第3步,分析其他特征变量。

任何机器学习模型都可以使用排列的策略来计算特征重要性。其对于特征重要性的评判取决于该特征被随机重排后模型表现评分的下降程度。其数学表达式可以表示为:

ij=s-1/K∑Kk=1sk,j,(1)

其中,s是模型在原数据集上的性能评分;对于K次重复实验中的每一次迭代k,随机重排列特征j,构造一个被污染的数据集(重排列后),计算模型在被污染的数据上的性能评分sk,j,最后计算得到特征j的重要性分数ij。特征的重要性分数越高,表示其对模型的性能就越重要。比如若特征得分为0.01,表明该特征被随机打乱时,预测性能下降0.01。

2 数据源

本研究以北京大兴国际机场线(以下简称大兴机场线)短时客流预测为例进行分析。大兴机场线全长41.36 km,北起草桥站,途径大兴新城站,南至大兴机场站。作为机场线的终点站,大兴机场站的站厅和站台层与大兴国际机场换乘大厅直接相连。

本研究选取2022年4月23日—29日15 min粒度的大兴机场线进出站刷卡数据以及大兴机场到离港航班信息数据。4月25日机场线客流分布如图4所示,可以看出,草桥站呈现出“双峰型”的特征,大兴新城站呈现出早高峰进站量高,晚高峰出站量高的“单峰型”特征,大兴机场站呈现出早高峰出站量高而晚高峰进站量高的“单峰型”特征,但高峰小时系数仍处于较低水平[5]。

到离港航班信息数据主要字段有:航班号、起飞机场、到达机场、实际载客量、计划起飞时间、实际起飞时间、计划到达时间、实际到达时间和登机延误情况等。通过数据统计,可以获得15 min颗粒度的到、离港旅客人数和到、离港架次,时间分布如图5所示。

3 实验结果

3.1 预测结果分析

本研究实验环境为CPU Intel(R) Core(TM) i7-7700 CPU @ 3.60GHz,GPU NVIDIA GeForce GTX 1060 6GB。输入步长粒度为15 min,预测步长为1;训练集与测试集的比例为8:2。选取均方误差(δMSE)和平均绝对误差(δMAE)对模型的性能进行评价。

3.1.1 进站客流预测

大兴机场站的进站客流主要来源于大兴国际机场到达航班的旅客,因此将机场到达航班作为机场线客流预测的重要自变量;同时,大兴机场站的进站客流也拥有时序流量特征,所以也将历史进站客流作为模型的考虑变量。

将输入步长设置为192 (即15 min×192=48 h),模型输入步长粒度为15 min,预测步长为1。输入数据类型为机场线历史进站客流数据和预测时段前的到港航班数量,控制输入步长为4(1 h)、8(2 h)、12(3 h)、96(24 h)和192(48 h)。

基于Stacking集成学习预测结果如图6所示。可见,输入步长为96时,预测误差最小,其中δMSE=165.10,δMAE=7.66,当步长增加到192时预测误差反而上升。

集成学习的优势在于拥有灵活的特征输入方式,本研究通过控制输入不同步长的不同变量,分析得到各特征对模型预测结果的影响情况,如图7所示。

从图7可以看出,96步长的进站客流和到达航班数,模型的预测误差最低;通道数为2(同时输入2个特征)时,模型的表现效果优于输入单变量预测;只输入进站客流特征时,仅输入前3 h(步长12)的历史客流模型预测误差相对较大,当输入1 d长度的历史客流有更好的效果;当输入航班到达数量时,模型预测误差变化相对于进站客流单变量较平稳。

3.1.2 出站客流预测

大兴机场站的出站客流主要目的是前往大兴国际机场乘坐航班离港,而离港航班时段位于预测时段之后,因此将大兴机场站的历史出站客流和未来离港航班数据作为模型的考虑变量,开展预测分析。

同样模型输入步长粒度为15 min,预测步长为1,输入数据分别为历史机场线出站客流数据和预测时段以后的离港航班信息,当输入步长分别为4、8、12、96和192,预测误差如图8示。结果显示,同样当输入步长为96时,模型有最好的预测性能,其中δMSE=54.28,δMAE=4.67,当步长继续增加到192时预测性能反而下降。

通过控制两个变量的步长,对出站客流预测结果的影响情况见图9。可以看出,当同时输入96步长的出站客流和出发航班数,模型的预测误差最低;且当通道数为2(同时输入2个特征)时,模型的表现效果优于输入单变量预测;当只输入出站客流特征时,效果优于只输入出发航班情况。

3.2 模型对比

本研究将基于Stacking集成学习的客流预测模型与LSTM和Informer模型的预测结果进行对比,验证模型适用性。LSTM模型设置三层隐藏层,第一层神经元个数为32,其余层神经元个数为64,学习率设置为0.001,激活函数均采用relu函数,优化器选择Adam优化器。Informer模型设置2层编码器和1层解码器,每个编码器中包括两个堆栈层,每个堆栈层包含2个注意力头。

对于进站客流来说,如图10(a)、10(b)所示,结合不同步长模型的综合表现,可见基于Stacking集成学习预测效果最好,且预测误差稳定;其次是Informer模型,步长对模型预测误差的影响相对较小;而LSTM在步长为8时候预测效果最差。对于出站客流来说,如图10(c)、10(d)所示,仍是基于Stacking的集成学习预测效果最好,且预测误差稳定;其次是Informer模型;LSTM在步长为8时候预测效果较差。

3.3 特征重要性分析

将输入步长设置为192,通过数据集拟合出的预测模型计算得到最重要的4个特征及其得分见图11,图中,HB30表示前30 min的到港航班,GD15表示前15 min的机场线大兴机场站进站客流数据,其他表示按此规律。从图11(a)中可见,首先预测时段前30 min和45 min的航班到达情况对于模型的预测性能局部影响最大,得分分别为2.09和1.37,认为这与航空旅客到达大兴机场后需经过30~60 min才到达大兴机场线密切相关。其次,15 min和1 440 min前的机场线历史进站客流数据在一定情况下也能反映当前预测时段的机场线进站客流,重要性得分为0.61和0.48,这说明机场线客流虽有别于一般通勤客流的强周期性,其时序特征也具有一定的出行规律和周期特点。如图11(b)所示,可以看出区别于进站客流预测,影响出站客流预测的主要因素均与历史轨道客流有关,而与离港航班关系较弱。影响程度最大的是预测时段1 440 min以前的出站客流数据,说明大兴机场线路出站客流规律性较强。从与离港航班的关系来看,大兴机场站的出站客流同离港航班时间关系相对较弱,可见大兴机场旅客提前到达机场时间差异较大,规律性不够显著。

4 结论

本研究提出了一种基于Stacking集成学习的机场线短时客流预测方法,模型综合考虑机场航班信息和历史流量数据,对机场线进出站双向客流进行了预测,并与Informer和LSTM预测结果进行对比,发现所提出的模型适用于机场线短时客流预测,且预测结果具有更高的精度。具体结论如下:

(1)综合考虑机场航班信息和历史客流的双通道预测精度高于仅考虑历史客流的单通道预测精度。

(2)Stacking集成学习、LSTM、Informer三种模型的预测结果对比表明,对于进站客流和出站客流预测,Stacking模型表现出更好的稳定性,次之为Informer。

(3)步长对Stacking模型的预测结果均具有一定影响。96步长下的预测效果优于4、8、12和192的预测结果。

(4)自变量特征重要性分析显示,历史客流数据与航班信息具有不同的影响。对于进站客流预测来说,预测时段前30 min和45 min的航班到达情况对于模型的预测性能影响最大,其次为历史进站客流;影响出站客流预测的主要因素均与历史客流有关,而与离港航班关系较弱,进一步说明大兴机场旅客提前到达机场时间差异较大。

综上所述,本研究证明了Stacking模型在机场线短时客流预测方面的实践价值。在后续研究中,我们将重点探究使用集成学习模型降低误差的方法,以进一步提升机场线客流预测的准确性和可靠性。

参考文献:

[1]刘亚宁, 李桂安. 基于乘坐舒适性的城市轨道交通机场线列车立席和座席设置研究[J]. 铁道技术监督, 2023, 51(8): 5-9. DOI: 10.3969/j.issn.1006-9178.2023.08.003.

[2]鲁放, 周旭, 乔颖丽, 等. 2020年中国轨道交通机场线统计及空轨协同运营分析[J]. 都市快轨交通, 2020, 33(6): 1-6. DOI: 10.3969/j.issn.1672-6073.2020.06.001.

[3]孙继营, 杨晓飞, 刘晓庆, 等. 北京地铁大兴机场线客流特征分析与行车组织方案研究[J]. 城市轨道交通研究, 2023, 26(3): 119-124. DOI: 10.16037/j.1007-869x.2023.03.022.

[4]曹秉新, 刘卓, 陈艳艳, 等. 基于时空大数据的轨交站域用地功能紧凑度分析[J]. 地理信息世界, 2021, 28(4): 9-15. DOI: 10.3969/j.issn.1672-1586.2021.04.002.

[5]王静, 张源, 廖唱, 等. 城市轨道交通机场线客流特征分析及建议[J]. 综合运输, 2021, 43(6): 22-27.

[6]LIN L, LIU X, LIU X, et al. A prediction model to forecast passenger flow based on flight arrangement in airport terminals[J]. Energy and Built Environment, 2023, 4(6): 680-688. DOI: 10.1016/j.enbenv.2022.06.006.

[7]陆柠馨. 基于顾客感知服务质量的XP航空公司顾客满意度研究[D]. 昆明: 云南财经大学, 2022.

[8]SUN Y S, SHI J G, SCHONFELD P M. Identifying passenger flow characteristics and evaluating travel time reliability by visualizing AFC data: a case study of Shanghai Metro[J]. Public Transport, 2016, 8(3): 341-363. DOI: 10.1007/s12469-016-0137-8.

[9]DING C, CAO X Y, LIU C. How does the station-area built environment influence Metrorail ridership? Using gradient boosting decision trees to identify non-linear thresholds[J]. Journal of Transport Geography, 2019, 77:70-78. DOI: 10.1016/j.jtrangeo.2019.04.011.

[10]郭文. 基于支持向量机的轨道交通短期客流预测方法研究[D]. 苏州: 苏州大学, 2019.

[11]LIN S F, TIAN H Y. Short-term metro passenger flow prediction based on random forest and LSTM[C]//2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). Chongqing, China: IEEE, 2020: 2520-2526. DOI: 10.1109/ITNEC48623.2020.9084974.

[12]方昇越. 基于XGBoost的地铁短时客流量预测研究[D]. 大连: 大连海事大学, 2022.

[13]de CAIGNY A, COUSSEMENT K, de BOCK K W. A new hybrid classification algorithm for customer churn prediction based on logistic regression and decision trees[J]. European Journal of Operational Research, 2018, 269(2): 760-772. DOI: 10.1016/j.ejor.2018.02.009.

[14]XU T P, MA Y, KIM K. Telecom churn prediction system based on ensemble learning using feature grouping[J]. Applied Sciences, 2021, 11(11): 4742. DOI: 10.3390/app11114742.

[15]苗辰, 王万江. 基于出站旅客出行目的的地铁站口分析及优化:以乌鲁木齐地铁1号线国际机场站为例[J]. 城市建筑, 2020, 17(22): 143-147. DOI: 10.3969/j.issn.1673-0232.2020.22.032.

[16]杜文博, 石婉君, 廖盛时, 等. 基于“时间-特征”协同注意力的机场快轨客流预测[J]. 北京航空航天大学学报, 2022, 48(9): 1605-1612. DOI: 10.13700/j.bh.1001-5965.2022.0321.

[17]WOLPERT D H. Stacked generalization[J]. Neural Networks, 1992, 5(2): 241-259. DOI: 10.1016/S0893-6080(05)80023-1.

[18]DING C A, WANG D G, MA X L, et al. Predicting short-term subway ridership and prioritizing its influential factors using gradient boosting decision trees[J]. Sustainability, 2016, 8(11): 1100. DOI: 10.3390/su8111100.

[19]WANG K P, WANG P, HUANG Z R, et al. A two-step model for predicting travel demand in expanding subways[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(10): 19534-19543. DOI: 10.1109/TITS.2022.3166669.

[20]朱月凡, 蒋国平, 高辉, 等. 基于特征选择和数据增强的电池荷电状态预测[J]. 计算机系统应用, 2023, 32(2): 45-54. DOI: 10.15888/j.cnki.csa.008943.

猜你喜欢

航班信息进站客流
客流增多
进站口上下行载频切换时引起ATP制动问题分析
春运期间北京西站共有154.8万人次刷脸进站
地心游记(四)一位向导
航班信息一手掌控
基于自学习补偿的室内定位及在客流分析中的应用
人工免疫算法在电梯客流时段划分的应用
国际航班信息披露的法律问题研究——由马航客机失联事件引起的思考
重庆轨道交通三号线列车进站警示功能接口电路的分析
城市轨道交通运营客流数据分析缺陷及应对