APP下载

基于改进ICEEMDAN的航班延误短期预测研究

2020-10-31辉,陈

中国民航大学学报 2020年4期
关键词:分量滤波航班

王 辉,陈 超

(中国民航大学航空工程学院,天津 300300)

随着中国航空业的持续发展,航班延误问题随之显现,不仅造成经济上的损失和负面的社会影响,而且航班延误的发生严重影响机场和航空公司的正常运作。因此,对航班延误问题进行研究分析,实现航班延误有效预测十分必要,通过准确预测给部门调度运行提供可靠依据,进而保障民航业的健康发展。

针对航班延误问题的预测,国内外专家学者通过不同的角度进行研究。Khanmohammadi 等[1]提出新的多层输入层神经网络预测方法,将各级延迟来源系统化设置,并依据神经系统方式判断发生可能性对肯尼迪机场延误的航班进行预测;曹卫东等[2]分析枢纽机场航班离港延误状况,提出基于遗传禁忌搜索思想的贝叶斯网络结构学习算法,得出导致航班延误的多因素之间的因果关系;Cheng 等[3]根据大实时数据下的航班延误区域风险管理方法,提出长期离港预测模型和改进的实时到达预测模型,实现航班延误的预测研究;Ding 等[4]设计了基于灰色预测和危险预测的加权组合预测方法,通过修正解析出延误的周期性特点;罗赟骞等[5]根据相空间重构理论分析出延误存在的混沌特性,选用差分进化算法在支持向量机回归模型基础上预测延误规律。

上述研究只是基于整体历史数据,定性分析影响航班运行的各种因素,无法将航班延误序列中隐藏的规律挖掘出来。为了解析出航班延误规律特性,提高航班延误预测准确率,通过对延误序列的分析,并由此提出结合相关函数分析和SG 滤波的改进互补集合经验模态分解(ICEEMDAN, improved complementary ensemble empirical mode decomposition with adaptive noise)的去噪算法,利用互相关函数分析模态分量所包含原始序列信息容量,并根据模态分量中噪声与信号自相关函数的差异,对判定混有噪声的分量进行SG滤波处理,该算法能达到良好的去噪水平。针对延误序列波动幅度大、无明显规律的特点,对处理得到分量分别建立支持向量机(SVM,support vetor machine)回归预测模型,实现航班延误短期预测。

1 改进ICEEMDAN 分解去噪方法

1.1 ICEEMDAN 算法

自适应噪声集合经验模态分解ICEEMDAN 方法是由Colominas 等[6]在自适应白噪声的完全集合经验模态分解[7]基础上提出的信号处理方法。该分解方法在信号处理过程中加入特殊噪声Ek(w(i)),即高斯白噪声被EMD 分解[8]后所得到的第k 层imfk。算法设定M(·)为计算局部均值,Ek(·)为由EMD 分解产生第k 个分量。ICEEMDAN 算法步骤为:

1)原始序列信号x(t)加入I 组高斯白噪声信号得到x(i)(t)=x(t)+β0w(i),通过EMD 分解计算局部均值得到第1 组残差和imf1分量为

2)继续加入特殊白噪声r1+ β1E2(w(i))做EMD 分解局部平均值求出第2 组残差和imf2分量为

3)类比计算出k 组残差和imfk,即

4)直至分解结束,得到所有imf1~imfk和剩余分量Res。

1.2 相关函数分析

在延误序列的分解过程引入噪声辅助分析,若不能自适应消除残留噪声,会对结果造成污染。虽然ICEEMDAN 方法降低了噪声在分量中的残留,但通过对模态分量的分析发现,前几个imf 分量误差超过标准范围,在后续的处理中误差会被放大甚至产生错误结果。因此,对模态分量进行降噪处理成为延误预测过程不可或缺的环节。在此通过相关系数分析方法[9]进行噪声判定,即通过互相关函数和自相关函数来实现计算识别混合噪声的分量。

自相关函数和互相关函数定义如下

归一化处理相关系数为

互相关函数判定imf 分量和原始序列信息的匹配程度,计算分量包含原始延误序列的信息容量。归一化自相关函数判定imf 分量是否混有噪声,混有噪声的imf 分量自身呈现弱相关性,其归一化函数表现为在0点处取得最大值为1,随着序列延续迅速衰减到极小值。相对应的未被噪声污染的模态分量的归一化值不会迅速衰减,跟随序列延续呈现波动。

1.3 SG 滤波去噪

经过相关系数判定后,选用SG 去噪方法[10]对含有噪声的模态分量进行滤波处理。SG 算法在对imf 分量进行滤波去噪时,首先在序列上选定合适的窗口进行拟合处理,并随着序列窗口进行滑动,计算得到平滑数值代替原来的值。该方法是在序列数据窗口设定多项式基础上的最佳拟合,基本保留原序列的信息,显著提高序列信噪比。

通过取点xi附近左l 个点和右r 个点拟合一个M次多项式,多项式通过最小二乘法拟合出在xi的光滑数值,即

对判定混有噪声imf 分量应用SG 滤波,转化公式为

其中:s(·)为滤波拟合函数。

综上,改进ICEEMDAN 分解去噪方法步骤(图1)如下:

1)对航班延误序列x(t)进行ICEEMDAN 分解得到imf 分量和剩余分量Res;

2)分别根据公式计算各imf 分量的相关系数,包括自相关函数Rxx(τ)=E(imfn(t)·imfn(t+τ))和互相关函数Rxy(τ)=E(imfn(t)·x(t+τ));

3)通过互相关函数确定各模态分量包含原始序列信息的容量,根据自相关函数分析各模态分量混合噪声信息;

4)研究相关系数特点,确定序列噪声的模态分界点,对判定含有噪声的模态分量imf1~imfn进行SG 滤波,得到去噪的分量

图1 改进ICEEMDAN 分解去噪方法Fig.1 Improved ICEEMDAN denoising method

2 支持向量机

支持向量机回归算法用于延误序列的预测思想如下:设定延误序列样本集合{(x1,y1),…,(xk,yk)},xi∈Rn为延误序列样本输入,yi∈R1为预测结果输出,将非线性序列映射到高维空间进行回归预测,映射函数[11]为

其中:w 为加权系数向量;φ(xi)为构造数据到高维特征空间的映射;b 为偏置量。

支持向量机回归函数标准形式可表示为

引入拉格朗日乘子,回归函数近似为

引入核函数[12]可表示为

定义低维到高维空间的映射,在回归函数求解过程利用核函数代替非线性映射简化算法。回归函数方程表达式为

3 航班延误预测组合模型

航班延误预测使用历史数据序列作为输入进行研究分析,但对于波动幅度大、规律特征不明显的航班延误序列,现阶段单一模型无法通过数据整体分析,得出航班的延误规律,直接整体预测时难以取得良好的效果,因此,从延误序列中分离出有效的延误规律成为首要解决的问题。

建立预测组合模型,首先,通过改进的ICEEMDAN分解去噪方法对航班延误序列处理得到模态分量,显现出延误序列中隐含的特征信息,接着根据各分量的数据特征计算相应的模型参数并建立SVM 回归预测模型,最终得到航班延误的预测值。组合预测模型的流程如图2所示。

图2 组合预测模型流程图Fig.2 Flow chart of combined prediction model

航班延误预测组合模型的步骤如下:

1)通过改进的ICEEMDAN 去噪算法对航班延误序列分解处理得到去噪后分量、无需去噪的分量和剩余分量Res;

2)分别建立支持向量机回归预测模型SVR1~SVRk+1根据分量特征选取核函数K(xi,x);

3)通过网格搜索和V 折交叉验证(VFCV)[13]得到所有预测模型SVR1~SVRk+1回归误差估计,确定最优参数组合(C,γ)并计算各序列的预测值;

4)统计各分量模型预测值并计算叠加,得到航班延误预测数据,根据误差指标进行回归误差分析。

4 数据来源及实验方案

航班延误数据来源于VariFlight 网站,选择旅客吞吐量为千万级别的某国际枢纽机场为研究对象,获取2017年1月1日至2018年3月23日每日进出港延误航班数据,共得到447 个有效实验样本,其中350个数据用作模型训练样本,97 个数据用作结果测试样本,航班延误序列如图3所示。

图3 机场航班延误序列Fig.3 Airport flight delay sequence

对航班延误样本进行ICEEMDAN 处理,根据序列本身的时间尺度分解出模态分量,直至分解完成最后得出剩余分量。从图4可看出,非线性非稳态的航班延误序列被分解为7 个波动类似正弦的imf 分量和1个代表序列趋势的剩余分量Res。

图4 航班延误序列ICEEMDAN 处理结果Fig.4 ICEEMDAN processing results of flight delay sequence

互相关函数描述了模态分量和原始延误序列的匹配程度,分析模态分量包含原始延误序列的信息的容量,定义两者之间的相互依存关系,函数数值对分量进行有效的信息量判决。各模态分量与原始序列的互相关函数如表1所示,其中imf1~imf3、imf7及Res分量与原始序列的相关性较高。

表1 模态分量互相关函数表Tab.1 Cross-correlation function of model components

归一化自相关函数判定模态分量是否包含噪声信息,依据白噪声自相关函数特点,图5模态分量归一化自相关函数图发现前两个分量在起点处取得最大值,随着序列延续其自相关函数急速衰减,在0 点附近波动,因此,判定前二阶分量被白噪声污染。

图5 归一化自相关函数Fig.5 Normalized autocorrelation functions

然而,被污染分量imf1~imf2与原始延误序列有相对强的相关性,其互相关函数达到0.446 5 和0.380 8,因此,筛选掉这两个分量会造成数据量的缺失,可对imf1~imf2进行SG 滤波去噪处理,保留其原始分量信息,分量imf1~imf2经过SG 滤波去噪,结果如图6所示。

图6 SG 滤波处理Fig.6 SG filter wave processing

表2 预测模型参数及统计结果Tab.2 Parameters and statistical results of predictive models

表2中均方根误差RMSE 和拟合度R2是交叉验证中训练集的验证结果,分析发现验证误差随着分量频率的增加而增大,各分量验证均方根误差最大值在10 以内,且拟合度数值都趋向于1,说明各分量预测模型训练结果良好。图7和图8为分量验证叠加结果,用来证明延误组合预测模型数据训练的可靠性。除了在航班延误序列突变区段出现偏离,总验证值曲线贴合实际值曲线,验证结果误差量基本趋向于0,表现出组合预测模型对训练样本数据的良好学习能力。

图7 航班延误序列验证结果Fig.7 Verification results of flight delay sequence

为进一步验证改进组合模型对航班延误预测的有效性和可靠性,分别使用改进组合模型和ICEEMDANSVM 预测模型进行延误预测,并将预测结果比对分析。表3为各模型多步预测累加误差统计分析。

图8 验证结果误差Fig.8 Verification error

表3 预测模型统计分析Tab.3 Statistical analysis of predicting models

模型采用五步一次实现延误的滚动预测,结果表明:改进组合模型有较高的预测精度,预测结果的均方根误差较ICEEMDAN-SVM 模型降低8.7%,平均绝对百分比误差(MAPE)降低11.9%,相比与原始序列的拟合度提高了9.5%。各模型航班延误预测数据与实际样本数据对比,如图9所示。改进组合预测模型在航班延误序列曲线的波动过程中,对序列波动表现出较强的跟随能力,而ICEEMDAN-SVM 模型因为缺少噪声的过滤,预测会受到噪声干扰,结果有一定的延后性,甚至在序列波动剧烈片段,会出现预测数据严重偏离实际延误曲线,虽然两种预测模型在极端值的预测能力上都有所欠缺,但改进组合模型在数据峰值的回落过程和波动复杂区段更能贴合原始数据。

图9 航班延误预测数据与原始序列对比Fig.9 Predicted vs.original data

综上所述,航班延误序列与其他类型的数据相比,其特点是波动幅值较大、频率较高,因此,简单模型难以实现对航班延误的准确预测。基于此,提出了改进ICEEMDAN 去噪算法对航班延误序列分解,将序列中隐藏的信息解析为近似正余弦的模态分量,并通过相关函数分析和SG 滤波处理,消除了虚假噪声分量对最终结果造成的影响,然后对各分量建立合适的SVM预测模型,最终实现较高精确度的航班延误预测。

5 结语

1)改进的航班延误组合预测模型,将非线性、波动剧烈的延误序列分解使之平稳化和规律化,得到不同频率尺度的模态分量,再对分解后的规律分量建模,解决了对整体不规则序列不能准确构建模型的难题。

2)对分解后的模态分量模态进行相关函数分析,使用SG 滤波处理混有噪声的分量,并分别建立SVM回归预测模型,根据分量特征统一选择RBF 核函数,解决了因核函数类型过多增加模型决策复杂度和降低预测准确度的问题;再通过网格搜索和VFCV 验证获得模型参数,从而保证预测准确性,验证结果表明各序列模型在对应的参数下的预测结果良好。

3)改进的组合预测模型使用相关函数分析和SG滤波,弥补了ICEEMDAN 分解结果混杂噪声问题,可较准确地剖析出航班延误的特征,并通过训练模型参数优化更准确地描述延误规律,提高了航班延误的预测精度。

4)虽然改进组合预测方法能够实现航班延误短期预测,但在延误序列剧烈波动的区段模型预测准确性就会下降,经过研究发现处理得到的分量波动幅值较大,使用SVM 回归模型预测在相对应区段出现误差影响。由于机场气象因素和空域限制条件所影响,若在后续预测方法中加入相关因素的影响,将会大幅度提高在特定区段的预测准确度。

猜你喜欢

分量滤波航班
船岸通信技术下舰船导航信号非线性滤波
山航红色定制航班
山航红色定制航班
山航红色定制航班
山航红色定制航班
画里有话
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
基于EKF滤波的UWB无人机室内定位研究
论《哈姆雷特》中良心的分量