基于长短期记忆网络与支持向量回归的空中交通流量预测研究
2022-11-07王佳旭那容菲何雨霖严子阳强旭泽郑浩楠张召悦
王佳旭,那容菲,何雨霖,严子阳,强旭泽,郑浩楠,张召悦
(中国民航大学,天津 300300)
随着航空运输需求的增长,空中交通流量不断增大,空中交通拥挤现象日益严重,管制员工作负荷不断加大,空中交通管理监控系统面临着严峻的挑战。因此,空中交通监控预测需要高精度、实时的空中交通流量管理。广播式自动相关监视(ADS-B)技术的出现给传统的基于雷达的监视技术带来了巨大的变化。ADSB系统基于卫星定位和地面/空中数据链通信,为空中交通管理系统和航空公司提供更安全和高效的空中交通监视技术。ADS-B被认为是下一代空中交通监视系统的关键部分。
钟翔关于天津滨海机场的流量分析,研究了各种流量的预测性;吴璇使用BP神经网络飞行流量预测方法对航空运输实行了短期的预测;黄海朝采用灰色关联度分析非线性关联度并将筛选后的结果利用双向长短期记忆神经网络对轨道交通客流量进行预测。在时间序列分析中,因为查找复杂结构和匹配对象之间的便利性,空中交通流量预测可以通过支持向量回归(SVR)和长短期记忆网络(LSTM)2种机器学习方法更好地预测航路流量。
1 系统构架及流量统计
1.1 基于ADS-B航空大数据平台
由于空域中大量飞机的不间断冲突,将会导致空中交通越发拥挤的情况,为保证空中交通的安全和高效,需要空中交通管理部门不断学习,找到解决问题的方法。装载ADS-B的空中交通管理系统能够更加有效地解决空中交通拥挤的问题并能提供更安全的空中交通网络。
地面监测中心包括3部分:存储ADS-B数据的中央云服务器、用于挖掘数据的数据处理中心和用于描述所得信息的数据可视化装置,一些基础的飞行信息和飞机轨迹都呈现在显示屏上[1]。此外,这些每天的输入数据首先根据时间进行切片。之后,切片数据通过数据中心对数据进行分析和处理,实现不同时间粒度的交通流量统计。
1.2 ATM和ATFM的关键问题
空中交通管理(ATM)主要作用是充分利用已经存在的空域和航路,并且确保航班的安全和高效。因此ATM包括3部分:空中交通管制(ATC)、空域管理(ASM),以及空中交通流量管理(ATFM)。
空中交通流量统计和预测是基于航空大数据平台的2个主要部分,由基于航空大数据平台的ADSB提供的实时信息能够成为1个精确的空中交通流量统计的数据来源,由此能够获得1个基于空中交通流量的统计数据的更精确的预测模型。因此,统计和预测情报可以为未来更智能的航班调度策略和ATM提供帮助。
1.3 基于ADS-B信息的空中交通流量统计
空中交通流量是指在一定时间内特定空域的飞机数量。航空大数据平台收集的ADS-B信息可以提供更准确和全面的综合信息,由于配备了ADS-B发射器的飞机会自动广播ADS-B信息,使得有充足的数据来促进空中交通流量的统计。
ADS-B数据处理包括:①航空器呼号处理。当空中交通管理自动化处理ADS-B相关数据后,提取航空器呼号,为其分配合适的有关因子,确保大量航迹数据正确归于同一航迹,并且根据有关因子处理多条航迹信息。②航空器位置信息处理。提取经处理过的ADS-B的经纬度和高度位置信息,确保航迹信息都属于同一个航空器,能够精确定位航空器的位置。③二次代码处理。空管自动化系统对航空器的ADS-B二次代码信息进行处理后,根据相关特点对提取出的二次代码判断是否有效。④告警信息处理[2]。当空中交通管理系统的ADS-B系统的信息收到告警处理时,应该对航空器中每个信息都进行相应的分析和处理,从而提取出有效的告警信息,通知空中交通管理有关部门。
2 空中交通流量预测方法
预测任务领域研究重要组成部分是时间序列。随着机器学习的发展,神经网络、支持向量机等一系列人工智能算法在时间序列预测领域得到了广泛的应用。这些现代算法在探索具有隐藏特征的数据方面表现出卓越的性能。在本节中,分别提出了基于SVR和LSTM的2种预测模型,利用航空大数据平台获取的大量ADS-B数据训练2种预测模型。
2.1 特征选择
输入数据在任何基于预测器的模型中都扮演着重要的角色。在机器学习和性能预测中的模型可由数据特征的选择大致确定。根据相关工作,选取的特征主要包括日期和时间等时间序列特征。由于航路流量是一个时间序列,本研究考虑了与时间相关的基本特征及一些可能影响航路流量的因素。因此,可以形成1个包含这些特征的输入向量x。首先定义2个向量,表示2种类型的特征,即时间向量t和影响向量p。
式中:t1、t2、t3分别表示当天的时点、星期的当天、月份的当天;p1、p2、p3分别表示节日指数、季节指数和平均流量。
因此,输入向量x可以表示为
式中:f为航路内航班号;r为航路;t、p分别为时间向量和影响向量。
2.2 基于SVR的流量预测
SVR是SVM的扩展,其可以引入回归问题的有效解决方案。SVR将一个非线性问题转化为高维空间中的线性问题,并通过核函数,计算出高维空间的复杂特征。对于一对(x,y),传统回归模型通常通过计算预测f(x)和真实值y之间的差来计算损失,只有当其相同时,损失才为零[3]。相反,SVR假设可以容忍一个阈值Q作为其之间的最大差异。SVR问题可以表示为
式中:ω为超平面的法向量;C表示一个影响模型复杂度和泛化能力的正则化常数。
通过确定算法对ω以外的样本数据的惩罚,lQQinsensitive的损失函数表示为
因此,只有当f(x)和y的差值的绝对值大于Q时,才计算损失。这相当于构造一个宽度以2Q为中心的波段f(x)。如果样本在此范围内,回归结果为正确的。
2.3 基于LSTM的流量预测
LSTM由循环神经网络演化而来,其适用于时间序列中间隔时间和延迟时间较长的事件的处理和预测。优点之一是避免了传统递归神经网络的梯度消失问题。LSTM在自然语言处理、目标识别和声音检测等领域显示出巨大的成效。此外,LSTM中还存在一种独特的结构,称为门控神经元。该结构可以捕获短期和长期记忆,使得LSTM适用于时间序列预测任务[4]。LSTM网络的输出可以通过以下函数来计算
式中:x(t)为模型在t时刻的输入;W和b分别为权矩阵和偏差向量。it、ft、ct、ot表示4个不同的门,即输入门、遗忘门、候选门和输出门。ht表示RNN隐藏层状态h=[h1,h2,…,ht]。
基于LSTM的模型体系结构包括3层:LSTM层、全连通层和输出层。LSTM层的作用是捕获不同时间空中交通状态之间的时间相关性。输出层以一定的概率使神经元失活,提高了网络的泛化能力。全连接层用于将输出形状重塑为预期的形式,主动功能是整流线性单元(RELU)功能。这是一个关于时间序列的回归问题,因此,本研究通过计算均方根误差(RMSE)和平均绝对误差(MAE)来比较真实的统计流数据y和预测值具体指标的定义如下
上述指标的值越小,表示所提议的预测模型的性能越好。
3 实验结果与分析
3.1 预测方式
提出的2个预测器(基于SVR和基于LSTM)的数据集是由2020年10月25日至2020年11月1日的240条线路的每小时分离流量信息产生的。由于存在异常数据情况,任何远远超过历史平均值(超过1 000)的交通流量将被视为无效值,并由该时段内的历史平均值代替。预测器的输入是一些选定的特征,如下所示:①一天中的小时、每小时内的15 min。以15 min为单位,每15 min一统计。②该日是否为法定假日的历史平均交通流量。
参数惩罚C决定了权重向量的大小,来自RBF的参数伽马决定了每个支持向量对应的RBF的宽度。向量的数量影响训练和预测的速度。进一步影响训练速度和预测器的准确性之间的权衡,为了获得合适的参数组合,采用了网格搜索法,通过计算RMSE得分来选择最佳组合[5]。
3.2 分析
当处理大量航路交通流数据时,SVR预测器比基于LSTM的预测器花费更多的时间。2种预测模型的结果分别如图1和图2所示。2种预测器的均方根误差(RMSE)分别为3.59和2.56,基于LSTM的预测器的均方根误差(RMSE)越小,预测器的性能越好。LSTM预测器牺牲时间来提高精度,基于LSTM的模型在缓解异常因素造成的大残差值方面表现出了较好的性能[6]。
图1 利用基于SVR的预测器预测交通流量和相应的残差
图2 利用基于LSTM的预测器预测交通流量和相应的残差
其中,基于SVR的预测模型在1 h内不同区间的预测量分别为61.8%、25.34%、11.23%和2.84%。基于LSTM的模型分别占75.36%、13.45%、8.54%和2.34%。残差分布表明,基于LSTM的模型对交通流误差有较好的控制。
残差分布表明,基于LSTM的模型对交通流误差有较好的控制,并且具有较好的预测精度。SVR模型和LSTM模型都能很好地捕捉非线性特征与交通流之间的内在关系。LSTM算法得益于独特的门结构,可以自然地捕获长期和短期的时间相关性。因此,该算法在时间序列预测任务中表现出了良好的性能。
4 结论
根据上述实验可以得到,LSTM模型预测方法拥有更快、更准确的预测结果,并且空中交通航路点流量预测模型对航路点分时段流量和总流量预测的精度均符合预期,且对总流量的预测精度更高。另外,研究还发现航路点流量时间序列曲线的趋势性越明显,预测曲线的拟合度越高;时间序列曲线的波动幅度越大,预测曲线拟合度越差,这说明航路点流量时间序列趋势的明显性直接影响模型的预测精准度。