APP下载

基于IOWA 算子的航班订座组合预测模型

2024-01-17尚亚博潘海莹吴灵珊

中国民航大学学报 2023年6期
关键词:航班算子精度

樊 玮,尚亚博,潘海莹,吴灵珊

(1.中国民航大学计算机科学与技术学院,天津 300300;2.厦门航空公司数字委员会,福建 厦门 361006)

航班订座预测历经近50 年的发展,早期重点关注预测结果在座位优化中的应用,回归模型、乘法模型、增量模型、加法模型、指数平滑模型等是常用的经典方法[1-2]。近年来,随着航空公司竞争的不断加剧,国内外学者对航班订座预测的研究不断涌现。国外学者更关注预测精度的评估[3-4]以及对高舱低卖或低舱需求被挤兑行为的补偿[5],国内学者则不断尝试各种新的预测方法在航班订座预测这一问题中的应用,如神经网络模型[6-7]、多元回归模型[8]、聚类模型[9]等方法。

航班旅客订座量受淡旺季、航司竞争、节假日及重大事件等多种因素影响,需求变化较大,历史数据呈现较强的非线性特征,且预测期越远,可获得数据质量越差,各种模型适应性存在较大差异。组合预测模型可以综合各单项预测模型的优点,因此被广泛应用[10-11]。组合预测模型以单项预测模型的加权组合为主,如方差倒数模型[12]、均方误差倒数模型[13]、二项式系数模型[14]、基于诱导有序加权平均(IOWA,induced ordered weighted averaging)算子的组合预测模型[15]等,这些预测模型对加权系数的确定基本以整体的误差平方和或误差绝对值之和最小为基准,但基于IOWA 算子的组合预测模型将预测精度作为单项预测模型的诱导值,倾向于在组合预测结果中增大各数据点预测精度较高的单项预测模型的权值,计算科学性明显,在交通运输[16]、经济管理[17]、能源动力[18]等领域应用广泛,张蕾[19]将其应用于民航客运量的整体预测,目前鲜有将相关方法应用于特定航班预测的文献。本文结合在国内外航空公司得到广泛应用的经典预测模型,构建了基于IOWA 的航班订座组合模型,并结合航班旅客订座数据的特点,改进了模型中IOWA 算子诱导值的计算方法,实验结果表明,该模型能获得满意的预测结果。

1 数据分析与预处理

鉴于实际的应用场景,航班订座数据在不同数据采集点(DCP,data collection point)取得,一般远期数据采集间隔较大,近期数据采集间隔较小,本文选取采集间隔依次为航班离港前35、17、15、13、9、8、7、…、1、0 天。采集两年内某航班在所有DCP 的数据,记t 为航班日期,第t 期航班的累计订座量可记为ft=(DCPt,35,DCPt,17,DCPt,15,DCPt,13,DCPt,9,…,DCPt,1,DCPt,0),其中,t=1,2,…,n,n 为两年内该航班总数。

考虑到销售异常及座位数对高需求的抑制,在预测之前需要进行数据预处理,数据预处理在每个DCP单独计算,首先统计2 年内所有航班在该DCP 的均值及标准差,删除偏离均值超过3 倍标准差的数据,其次对客座率接近100%的航班,为了弥补固定座位数对高需求的溢出效应,对DCP0的数据扩大10%。对预处理之后的数据,比较各DCP 两年同期数据后发现,航班订座量的变化随机性较强,但两年对应时间段的变化趋势相关性明显,且同一个DOW(day of week)的航班,订座量相关性比较显著。

2 经典预测模型

航班预测的目标是依据t 期航班当前DCPt,i的订座量预测未来DCPt,0的订座量。增量模型、指数平滑模型、回归模型是航班订座预测广为采用的经典模型,这些算法的基本思想是将每个DCP 的订座量独立于当前航班前期订座量,算法参数学习都选取了同一航班同一DOW 的历史数据,如对周一航班提前3 天预测模型的参数学习,就选取了同一航班倒推2 年的每个周一航班提前3 天的订座量,且按时间顺序自远至近排列,以此类推。

q 为训练集历史航班总数(q

增量模型统计历史航班DCPt,i到DCPt,0之间的订座增量均值,对t 期航班处于第i 个DCP 的订座量的预测结果为当前订座量加上订座增量均值,即

指数平滑模型自训练集第1 条航班数据开始,逐条对订座增量移动平均,t 期航班的预测结果同样为该航班在第i 个DCP 的实际订座值和t-1 期航班移动平均得到的值相加,即

式中,平滑指数∂=0.65。

记X={x1,x2,…,xt,…,xq},Y={y1,y2,…,yt,…,yq},其中:xt=DCPt,i和yt=(DCP0,t-DCPi,t)分别表示第t 期历史航班当前DCP 订座量和订座增量,回归模型表示如下

3 基于IOWA 算子的组合预测模型

3.1 IOWA 算子定义

诱导有序加权平均算子IOWA 是Yager[20]早期提出的一种被广泛应用的信息融合算子,其具备单调性、幂等性、介值性等,已被国内外学者广泛应用于建立各种组合预测模型[21-22]。

定义1设〈v1,α1〉,〈v2,α2〉,…,〈vm,αm〉是m 个二元组,令则称函数fW是由v1,v2,…,vm所产生的m 维诱导有序加权平均算子,记为IOWA 算子,vi称为αi的诱导值,其 中,v_index(i)是v1,v2,…,vm中按从大到小的顺序排列的第i 个数的下标,W=(w1,w2,…,wm)T是算子的加权向量,满足

该定义表明IOWA 算子是对诱导值v1,v2,…,vm按从大到小顺序排序后所对应的α1,α2,…,αm中的数进行有序加权平均,wi与数αi的大小和位置无关,而是与其诱导值所在位置v_index(i)有关。

3.2 基于IOWA 算子的组合预测模型

定义2令

则αi,t表示第i 种预测方法在t 期的预测精度;xt为训练集第t 期实际值。将αi,t作为预测值的诱导值,这样m 种单项预测方法在t 期的预测精度αi,t和其对应 训练集的预测值就构成了m 个二元组〈α1,t,。设W=(w1,w2,…,wm)T 是各种预测方法在组合预测模型中的加权向量,则由预测精度α1,t,α2,t,…,αm,t作为诱导值所产生的IOWA组合预测结果表示如下

令t 期第i 种预测方法的预测误差eα_index(i),t=xt-,则q 期组合预测误差的平方和为

以误差平方和为最小建立基于IOWA 算子的组合预测模型

式中,wi和wj为欲求解的单项模型权重。

3.3 组合模型的预测算法

按照3.2 节的组合预测模型,算法1 步骤如下:

(1)准备训练数据集和测试数据集;

(2)用m 种单项预测模型在训练集训练预测参数,其中m=3,选第2 节3 种单项模型;

(3)根据得到的预测参数,分别用m 种单项模型继续在训练集进行预测,并根据式(5)得到各单项模型在各t 期的预测精度;

(4)将各t 期的预测精度作为诱导值,将各单项模型预测结果作为预测值,代入式(6),可得到以权重W 为变量的线性规划表达式,即式(7)的目标函数;

(5)求解线性规划表达式,得到赋予各单项模型的权重向量W;

(6)在测试集上,将第(2)步中得到的预测参数代入各单项模型,得到单项模型预测结果,设定新的诱导值,结合W,代入式(6),得到预测结果;

(7)预测结果评析。

需要注意的是,算法在学习阶段的第(4)步,采用各期预测精度作为诱导值,在实际预测的第(6)步,无法得到预测精度,参考文献[15],将最近TL期的可测量的各单项模型的预测精度的平均值(TL)作为诱导值,表示如下

式中,TL表示期末,即本期。

4 实例分析与算法改进

4.1 算法1 实例分析

本文以某航司某条商务航线上午9 时较为繁忙的一个航班为例,该航班每日1 班,选取2018—2019年的历史数据,以2018 年1 月到2019 年10 月的数据作为训练集,以2019 年11 月到12 月最后2 个月的数据作为测试集,分别在不同的DCPi进行预测,其中,i ∈{35,17,15,13,9,8,…,1}。本文不仅比较各算法在相同DCP 的预测效果,而且评估算法在航班离港不同提前期的预测效果。评价指标选择平均绝对百分比误差(MAPE,mean absolution percent error)和均方根误差(RMSE,root mean squared error)表示如下

严格按照算法1,在训练集上选取各t 期航班的预测精度作为W 估算诱导值,在测试集选取最近4 期(即按照DOW 选取历史数据的最近1 个月的已离港航班)航班的预测精度平均值作为未来预测诱导值,即式(9)中TL=4,结果发现,组合算法几乎在所有DCP都倾向于得到W=(1,0,0)的组合权值,仅在DCP3得到W=(0.902 6,0.097 4,0)的不同结果。也就是说,算法倾向于在不同的预测周期t 都选择3 种单项预测模型中诱导值最大的模型,而非3 种单项预测模型的加权组合,这和文献[15,23]的结果不谋而合。分析发现,以往期精度作为学习诱导值,该诱导值可以在每个周期t 准确地选择最佳单项预测模型,进行权重参数学习,但对未来的预测,因为无法得到类似训练集数据的精确预测精度,诱导值的设置不一定能符合实际的数据状况。测试集组合预测结果也验证了这一分析,不管在远期DCP 还是近期DCP,都出现MAPE 及RMSE 高于其他模型的情况。

经2018 年全年数据测试发现,回归模型、增量模型、指数平滑模型在所有航班上预测最好的情况分别占14.2%、18.5%、67.3%,但预测精度为0 的情况分别占5.90%、6.25%、13.19%,显然,指数平滑模型整体预测较好,但个体预测精度最差,回归模型反之。这表明数据随机性变化对模型选择的影响,即在订座量突变情况下,回归模型表现较好,增量模型适合比较平稳的季节,指数平滑模型对近期单调增减反应较快。

分别选择2019 年全年52 周DOW=1 和DOW=5的DCP35和DCP5的实际累计订座量,以观测预售远期、预售近期在不同DOW 的数据表现,如图1 和图2所示。显然,预售远期和预售近期数据在全年表现了基本一致的季节性趋势,但数据的随机性明显。表1中2、3 列给出了各DCP 一年内数据的均值μ 和标准差δ,可见数据波动幅度较大,且最终订座量在10~172之间波动,因此,算法1 第(4)步和第(6)步将预测精度作为诱导值,在预测结果相差甚微的情况下,也会优先选择预测精度高的单项模型,这无法兼容随机波动较大、数据变化幅度较大的航班订座量数据,特别是第(6)步的诱导值设定具备一定的主观性,对下期较大的数据波动适应性差。

表1 实际数据与预测偏差分析表Tab.1 Analysis of deviation between actual data and prediction

图1 2019 全年周一远期近期订座对比图Fig.1 Comparison of long-term and short-term reservations on Mondays in 2019

图2 2019 全年周五远期近期订座对比图Fig.2 Comparison of long-term and short-term reservations on Fridays in 2019

4.2 算法改进

为了解决算法1 对随机波动较大数据的适应性,分别对算法1 第(4)步和第(6)步的诱导值进行改进。在第(4)步,由于历史数据预测精度已知,但订座量数据离差较大,为了平抑数据差异,采用tanh 函数对预测精度进行平滑处理,截断小数点后2 位,并将其结果作为新的诱导值,即

式中,α′i,t如式(5)定义。

图3 给出2018 年全年DCP35采用回归预测的预测精度α35,t和诱导值之间的关系。式(12)可强制不同单项预测模型的预测精度相差较小时获得相同的诱导值。但当2 个或3 个单项模型诱导值相同时,可修改预测值为其相应的平均值,用于算法1 第(4)步。

图3 经tanh 函数变化后的预测精度曲线Fig.3 Prediction accuracy curve after function changing of tanh

不同于第(4)步,算法第(6)步的诱导值在输入之时是预估的,鉴于航班订座量较大的波动,且航班本期DCP 的订座值和前期DCP 的订座值相关性较大,同时受前3 日航班影响较大,为此,将算法第(6)步的诱导值设置如下,可在未来诱导值设定时考虑航班当前各方面的情况。

式中:t=1,2,3,代表前3 期航班;i=1,2,3,代表第i种预测模型;k 为DCP 下标表示第i 种预测方法对当期航班TL在DCPk预测时的诱导值和表示当期航班在前1 个及前2 个DCP 的订座量除以总座位数,即客座率表示t 期航班预测值减去实际最终订座值再除以总座位数;βt代表前3 期 航班影响权重,取为式(9)结果。

4.3 算法比较

进一步在测试集得到表1 所示结果。记算法1 为IOWA,4.2 节改进后的算法为IOWAn。不同于IOWA 在几乎所有DCP 都得到W=(1,0,0)的结果,IOWAn在DCP1得到W=(0,0,1),在DCP2得到W=(0.54,0,0.46),在DCP3得到W=(0.944,0,0.056),在DCP15之前得到W=(1,0,0),其余DCP 都得到W=(0,1,0)的结果。显然,IOWAn倾向在远期选择期望最佳的单项预测模型,在中期选择表现中庸的模型,在近期更希望进行单项模型的加权组合,这和式(12)的设计初衷吻合。

从表1 可见,在DCP15之前,IOWAn和IOWA 倾向于选择单项预测模型中最优模型,和指数平滑法结果接近,这验证了远期改进的诱导值对结果影响不大。在DCP1到DCP3,IOWAn综合发挥了权值调节和近期航班扰动调节的优势,在所有算法上是表现最好的,其余DCP 代表的中期预测方面,IOWAn整体表现优良,在DCP11稍逊于指数平滑法。整体上,IOWAn在航班订座预测量问题上,优于IOWA 及其他单项预测模型,验证了诱导值的合理设定对基于IOWA 组合预测模型的重要性。

航空公司实践中很难保证数据的完整性,某航空公司实测数据集大约包含15%的不完整数据,上述回归模型、增量模型、指数平滑模型的预测成功率分别约为93.4%、96.1%、67.9%。对于组合模型而言,当某一单项预测模型失效时,可将其权值均分给其他有效单项预测模型,其预测成功率接近100%,因此,组合模型在提高预测精度的同时,更能大幅度提高预测算法的健壮性。

5 结语

航班订座量预测在航空公司有多方面的应用需求,也是航空公司业务建模的难点之一,本文以航空公司常用的回归模型、增量模型、指数平滑模型为基础,首先构建了一种广泛应用的基于IOWA 的航班订座组合预测模型,在此基础上,结合IOWA 模型原理,深入分析航班订座量数据独有的季节性及非线性特点,改进了适合航班订座特点的诱导值计算方法,不仅提高了预测的准确度,而且大幅度改进了预测算法的健壮性。本文提出的航班订座量预测算法,已应用于航空公司的业务实践,取得满意的效果。

猜你喜欢

航班算子精度
全美航班短暂停飞
山航红色定制航班
山航红色定制航班
山航红色定制航班
拟微分算子在Hp(ω)上的有界性
各向异性次Laplace算子和拟p-次Laplace算子的Picone恒等式及其应用
一类Markov模算子半群与相应的算子值Dirichlet型刻画
基于DSPIC33F微处理器的采集精度的提高
Roper-Suffridge延拓算子与Loewner链
GPS/GLONASS/BDS组合PPP精度分析