基于最小二乘支持向量机的航路流量预测与评估
2015-06-28王文然陈金良张舰齐
王文然,陈金良,张舰齐
(1.空军工程大学空管领航学院,陕西西安710051;2.解放军理工大学气象海洋学院,江苏南京211101)
基于最小二乘支持向量机的航路流量预测与评估
王文然1,陈金良1,张舰齐2
(1.空军工程大学空管领航学院,陕西西安710051;2.解放军理工大学气象海洋学院,江苏南京211101)
综合运用集合经验模态分解(EEMD)和最小二乘支持向量机(LS-SVM)建立了空中交通过点流量预测模型.EEMD的分解结果显示,高频本征模态函数(IMF)分量占有较大的方差贡献,而低频分量相对较小;对各IMF分量的预测结果表明,起始阶段的高频IMF分量具有较好的可预测性,距平相关系数(fACC)值相对较高,高频分量的预测效果随预测时段加长而逐渐下降,均方根误差逐渐加大,低频分量的ACC值在起始阶段相对较低,随预测时段加长而逐渐加大,整个预测时段可预测性较强;最终的合成预测流量曲线表明,基于上述的思想,算法在20h时段的流量预测效果较好,拥有较高的ACC值和相对较低的均方根误差,30h时段的同号率均较为理想.
EEMD;LS-SVM;高频IMF;低频IMF;ACC;均方根误差;同号率
0 引言
近年来,随着经济的快速发展,空中交通流量随之增大,空中交通堵塞也日趋严重[1].对空中交通流量进行预测已显得十分必要.空中交通流量的日趋复杂,借助历史交通流量值对未来流量做推断,其本质是对交通流量的时间序列进行预测.当前对空中交通流量的预测已经有过一些研究,一些学者[2]利用多元线性回归进行推断,或构建线性时间序列预推模型[3],这些方法在流量预测方面进行了有益的尝试,但是仍存在局限性,如多元线性回归虽然方法较为简单,但准确性不高.线性的时间序列预测模型在面对空中交通流量的非线性变化特点,预测误差较大;针对非线性流量预测,一些学者[4]运用支持向量机预测技术,相比于线性预推方法,支持向量机有更好的效果.但面对日趋堵塞的空中交通,预测的时效仍需进一步提高.近些年,针对非线性时间序列发展起来的隔离预测法[5]在预测效果上取得了一定突破,传统的预测方法是基于单纯的时间序列直接进行外延预推,而隔离预测法是使用一定的技术将非线性的时间序列分解为若干相互正交的分量,进而对这些分量进行预测后合成预测曲线[6].对时间序列的分解方法较多,其中经验模态分解[7](Empirical Mode Decomposition,EMD)可以将时间序列分解为若干个具有特征时间尺度的分量,这些分量近似正交并且分解的结果无能量损失,EMD比小波分解[8]更加精确,特别适合于非线性序列的分解.此外,最小二乘支持向量机(Least Squres-Support Vector Machine,LS-SVM)改进了传统支持向量机[9],它使用等式约束代替不等式约束,使得二次规划问题变为线性方程求解,算法更加先进,具有较好的泛化能力.本文使用集合经验模态分解(EEMD)结合LSSVM对空中交通过点流量进行预测,并做出了评估.
1 资料与方法
1.1 资料来源
数据来源于民航中南空管局提供的A461航路上BUBDA强制报告点的时间为2014-05-01—2014-05-27的648h时段过点交通流量值,以25d共计600h时段的交通流量值作为历史资料值,后续取30h作为预测对比值.
1.2 方法
1.2.1 EMD与EEMD
EMD[7]在处理非线性非平稳的时间序列上具有较强的优势,它能够将非线性非平稳的信号分解为若干具有一定时间尺度特征的分量.具体详细的步骤可参考文献[5].
EMD存在着模态混叠的问题.模态混叠是因为时间序列信号中由于含有一定的噪声,在分解的过程中造成分解的结果不稳定.为了克服模态混淆问题,一些学者提出了EEMD[10-11],详细的步骤参见文献[11].
EMD存在边界效应,对边界效应的处理已经有过较多的研究[12-14],本文采用极值延拓法,具体的操作步骤参见文献[14].
1.2.2 预测评估指标
对于空中交通流量的预测效果需要采用一定的评判标准,评估指标如下.
(1)距平相关系数(fACC):可以用来评估流量预测趋势的准确性,fACC值较高则趋势预报较好,反之则较差.具体计算公式为
其中ΔRf为距平的预测值,ΔRf为距平预测的平均值,ΔR0为实际距平值,ΔR0为实际距平的平均值.
(3)定义均方根误差:可以反映出流量距平数值预测的准确性,其计算公式为
其中xoi为实际值,xi为预测值.
2 空中交通流量预测建模
对于空中交通流量预测问题,首先对历史空中交通流量的时间统计进行分析(如图1a所示).图1a中统计分析了600h的空中过点交通流量,在此点的过点流量存在着较为明显的日变化规律,即每日的0点左右飞行过点流量较少,而在一天中的正午时刻左右过点流量达到高峰值.然而每日的同时刻流量则不尽相同,出现了较为明显的非线性特征,为了更进一步地突出空中交通流量的非线性特征,计算了流量的在任意时刻的距平值.具体计算步骤如下:
Step1:获取25d共计600h的空中过点流量统计数据fi(i=1,2,…,600),对历史上25d的每一时刻计算平均流量值为
Step2:计算任意时刻的流量距平值为
通过上述两步可以得到任意时段过点流量的距平值,共计600个时刻f()′i(i=1,2,…,600)(如图1b所示),空中交通过点流量呈现复杂的变化,具有较强的非线性和时变性特征.
图1 600个时段的空中交通过点流量统计
2.1 空中过点流量距平的EEMD
对空中交通流量的距平值f()′i(i=1,2,…,600)进行EEMD,分解可得到若干IMF分量FIMFi(i)(i=1,2,…,600)和剩余项(RES)r(i)(i=1,2,…,600)分解结果(如图2所示).图2中依次显示了EEMD得到的高频信号至低频信号,高频信号控制了流量距平的快速时变,在对过点流量的瞬时变化预测起着较为关键作用.低频分量控制着长时间尺度的流量变化,在过点流量的时间尺度的趋势走向中占有较为重要的角色.对各项IMF分量和RES进行方差统计计算如表1所示.
图2 空中交通流量距平的EEMD结果
表1 过点流量距平EEMD的各项IMF分量以及RES方差贡献
表1中显示了高频分量占有较大方差贡献,低频分量占有较小的方差贡献,从表1中也可以发现,高频分量在预测中起着较为关键的作用,而低频分量恰好相反.
2.2 IMF分量序列预测
为后续表达方便,将某一IMF分量序列表示为xi(i=1,2,…,600),对其经过EEMD后得到的某一IMF分量序列xi(i=1,2,…,600)进行LS-SVM预测.利用非线性映射ψ(·)将一维的IMF分量序列映射到高维特征空间φ(xi),从而构成决策函数
因此,在高维空间中IMF分量序列的预估转换为线性估计函数.寻找ω和b使得结构风险最小化
其中的约束条件为
引入Lagrange乘子λ,则目标函数的Lagrange函数
由KKT泛函极小值条件可得
上述非线性的决策模型需要确定2个重要参数,分别为正则化参数γ和高斯径向基核函数的宽度系数σ,这2个参数决定模型的性能.在确定参数的过程中利用了10折交叉检验法,将某一IMF分量序列xi(i=1,2,…,600)随机分成10个互不相交的子集,利用前9个对给定的一组参数建立回归模型,利用剩下的最后一个子集的均方误差(MSE)评估参数的性能.通过以上过程重复10次,根据10次迭代后得到的MSE平均值来估计期望泛化误差,最后选择一组最优的参数.将最优的参数γ和σ带入非线性的决策函数中,即可利用模型进行预测.预测的各项IMF分量和RES分别为xp(i,j)(i=1,2,…,8,j=1,2,…,30),rp(j),j=1,2,…,30.i为分解得到的8个IMF分量,j为预测的30h时段内.
对各个IMF分量和剩余项的预测结果如图3所示,图3中分别将高频分量和低频分量的预测值与实际值进行对比,结果显示高频IMF分量的变化较为复杂,LS-SVM能够在一个时段内抓住IMF实际分量的变化规律,而在后续的预测则不能抓住其变化规律.低频分量则相反.统计分析各个IMF分量在各个预测时段的均方根误差、fACC值,计算结果如表2所示.表2中反映了各个阶段的预测效果,在起始1~10h阶段的预测内,高频分量的预测fACC值较低频分量值好,但是均方根误差相对较大.起始阶段高频分量的fACC值较低频分量的fACC值好的原因由EEMD的过程中误差逐渐向内部传播造成的,虽然使用了极值延拓法在一定程度上克服了边界效应,但是极值延拓法具有一定的人为性,分解得到的IMF分量与真实的IMF分量在边界上有一定的偏差,并且这个偏差也会随着EEMD的进行而逐渐向内部传播.低频分量受到的边界误差传播影响较严重,因此在起始阶段预测fACC值较不理想.然而EEMD的结果中高频分量的方差贡献最大,其振动幅值相对较大,也不可避免地在预测过程中造成均方根误差较大.在后续阶段中低频分量的fACC值逐渐加大,而高频分量的fACC值则逐渐减小.低频分量的尺度变化较为平缓,在后续的预测过程中低频尺度分量的可预测性较高,如IMF5-IMF8起始阶段的fACC值均较低,然而在后续的10~30h的预测中fACC值较为可观.高频分量变化较为复杂,在后续时段的预测中,可预测性降低,反映在均方根误差加大,fACC值减小,如IMF1-IMF4均方根误差随着预测时段加长而逐渐加大,fACC值随之减小.
图3 各个IMF分量和剩余项的预测与实际对比
表2 各个预测时段的IMF分量和RES的均方根误差和fACC评估
2.3 时空重构
将各项IMF和RES的预测值重构,计算结果为
其中f′p()j为得到空中过点流量距平预测值,j为预测的共计30h时段.合成曲线的最终结果如图4所示.
对图4中的结果运用fACC,fRMSE和R进行评估,评估的结果如表3所示.通过表3可进一步看出合成后的曲线在1~20h的过点流量预测效果较为可观,fACC值在0.6以上,可较好地反映出空中交通流量变化走势.其次在具体数量值的预测上也较为理想,可反映出具体流量的增值.20h以后的评估结果较不理想,fACC值较小,均方根误差增大,20h后的预测可信度较差.预测的R在宏观上可反应流量的变化符号,可判断流量增加或者减少,R显示在整个30h的预测中较为理想,平均R可达0.6以上.
图4 空中过点流量距平值的预测与实际对比曲线
表3 空中过点流量距平的fACC,fRMSE和R进行评估
3 结论与讨论
(1)统计分析了600h时段的空中过点流量,并计算了过点流量距平值.运用EEMD结合LS-SVM对空中过点流量距平进行了预测评估,通过EEMD将600h时段的空中过点流量分解为若干IMF分量和剩余项RES,运用LS-SVM对IMF分量和RES进行预测,并将预测的结果重构合成为流量距平值.
(2)对空中过点流量距平的EEMD结果显示,高频分量占有较大的方差贡献,低频分量具有相对较小的方差贡献,高频分量的变化幅值波动较大.使用LS-SVM对IMF分量的预测结果显示,起始阶段高频分量的预测结果较好,拥有相对较高的ACC值和较小的均方根误差,而低频分量仍然受到了误差向内部传播的影响,预测的结果在起始阶段ACC值相对高频分量较低.而随着预测时段的加长,高频IMF分量的可预测性逐渐降低,反映在ACC值下降,均方根误差加大,而低频分量由于变化的尺度较为平缓,其可预测性较强,ACC值保持在较高水平.高频分量由于较大的幅值变化,均方根误差相对于低频分量较大.
(3)合成的空中过点流量距平预测曲线显示,在过点流量预测上1~20h时段内的流量预测较为准确,平均ACC在0.6以上水平,均方根误差相对较小.20h后的流量预测效果不理想.整个30h的预测时段内R的预测水平均较高.
[1] 闫少华,姚玲,赵嶷飞.空中交通拥挤评价方法探讨[J].交通运输工程与信息学报,2009,7(1):11-16.
[2] 董玉波.道路交通事故多元线性回归模型及其检验方法[J].中国人民公安大学学报:自然科学版,2013,76(2):73-75.
[3] 郁梅,郁伯康,郑义.基于视觉的车辆牌照检测[J].计算机应用研究,1999(5):65-67.
[4] 杨兆升,王媛,管青.基于支持向量机方法的短时交通流量预测方法[J].吉林大学学报:工学版,2006,36(6):881-884.
[5] 闫少华,姚玲,赵嶷飞.空中交通拥挤评价方法探讨[J].交通运输工程与信息学报,2009(1):11-16.
[6] 崔艳,程跃华.小波支持向量机在交通流量预测中的应用[J].计算机仿真,2011,28(7):353-356.
[7] HUANG NORDEN E,SHEN ZHENG,LONG STEVEN R.,et al.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proceedings of the Royal Society A:Mathematical,Physical and Engineering Sciences,1998,454(1971):903-995.
[8] 龚志强,邹明玮,高新全,等.基于非线性时间序列分析经验模态分解和小波分解异同性的研究[J].物理学报,2005,54(8):3947-3957.
[9] 阎威武,邵惠鹤.支持向量机和最小二乘支持向量机的比较及应用研究[J].控制与决策,2003,18(3):358-360.
[10] WU Z,HUANG N E.Ensemble empirical mode decomposition:a noise-assisted data analysis method[J].Advances in Adaptive Data Analysis,2009,1(1):1-41.
[11] HUANG N E,WU Z,PINZÓN J E,et al.Reductions of noise and uncertainty in annual global surface temperature anomaly data[J].Advances in Adaptive Data Analysis,2009,1(3):447-460.
[12] ZHAO JIN-PING,HUANG DA-JI.Mirror extending and circular spline function for empirical mode decomposition method[J].Journal of Zhejiang University Science,2001,23(3):8-13.
[13] 朱金龙,邱晓晖.正交多项式拟合在EMD算法端点问题中的应用[J].计算机工程与应用,2006,23:72-74.
[14] 黄大吉,赵进平,苏纪兰.希尔伯特-黄变换的端点延拓[J].海洋学报:中文版,2003,25(1):1-11.
The prediction and evaluation of route flow based on least sq uares support vector machine
WANG Wen-ran1,CHEN Jin-liang1,ZHANG Jian-qi2
(1.College of Air Traffic Control and Navigation,Air Force Engineering University,Xi'an 710051,China;2.College of Meteorology and Oceanography,PLA University of Science and Technology,Nanjing 211101,China)
This paper creates a time-based air traffic flow prediction model through the comprehensive application of ensemble empirical mode decomposition(EEMD)and least squares support vector machine(LS-SVM).According to the EEMD results,the high frequence IMF components make greater variance contribution compared with the low frequency components.And the prediction results of different IMF components show that the high frequency IMF components are more predictive at the initial stage with a relatively high anomaly(ACC),and that as the prediction period gets longer,the prediction effect of the high frequency components decreases with the root-mean-square error increasing gradually.And the low frequency components demonstrate a relatively low ACC at the initial stage and the longer the prediction is,the bigger the ACC is,and it shows relatively strong predictive ability throughout the prediction period.At last,the combined flow prediction curve demonstrates that the algorithm based on the above methods works well in predicting traffic flows with a relatively high ACC and low RMSE within 20hours and maintains satisfactory ratios of the same symbol within 30hours.
EEMD;LS-SVM;high frequency IMF;low frequency IMF;ACC;RMSE;ratio of the same symbol
V355;TP183 [学科代码] 520·20
A
(责任编辑:石绍庆)
1000-1832(2015)03-0083-07
10.16163/j.cnki.22-1123/n.2015.03.018
2015-05-18
国家自然科学基金资助项目(61472443).
王文然(1990—),男,硕士研究生,主要从事空域规划与飞行流量控制研究;通讯作者:陈金良(1958—),男,教授,主要从事空中交通管理研究.