基于支持向量机回归算法的值机行李流量预测
2022-05-12徐小波何迅李光飞杨力阚细武沈伟
文/徐小波 何迅 李光飞 杨力 阚细武 沈伟
随着我国经济持续快速发展,越来越多的旅客出行选择空中交通运输工具,使得我国民航客流运输量在疫情前的每年都能持续稳定地增长。据统计,2016~2019年我国民航客流年运输量每年保持7%以上的稳定增长[1];虽然2020年疫情期间客运量约减少2.4亿人次,但2021年上半年该局面已经逆转,旅客运输量出现反弹式增长。如此强势的客运增长量,表明我国的民航运输还有巨大潜力与发展空间。
在民航机场领域推进建设平安、绿色、智慧、人文“四型机场”战略的背景下,2020年1月民航局出台的《中国民航四型机场建设行动纲要》提出要鼓励综合运用大数据、云计算、人工智能、区块链等新技术,收集、融合、统计和分析各类数据,实现辅助决策、资源调配、预测预警、优化控制等功能,支撑工作协同、精确分析、精准管控、精细管理和精心服务,最终实现机场智慧化运行[2]。
行李处理系统作为机场内部最大的单体系统,具有包括值机、安检、输送、分拣、储存、中转、装载、到港、控制等10个子系统[3],是机场最重要的系统之一。上述政策无疑都带动了机场行李处理系统的规划设计向安全、高效、智能、绿色等方向发展,研究提升行李处理系统效率具有重要的现实与战略意义,而值机行李流量预测的研究则是提升行李运输及服务品质的关键节点。
一、国内外研究现状
伴随旅客运输量的逐年增长,我国千万级以上机场不同程度出现了行李处理系统运行能力不足的现象,包括值机排队时间长、早到存储能力不足、服务质量下降等。传统的行李处理系统资源配置方式已不能满足未来旅客爆发式增长的需求,如何在有限资源下解决上述问题以及合理分配资源,成为当前的热点问题。
对于行李处理系统而言,行李流量是直接影响该系统资源配置及流程优化的关键点,值机行李流量预测是根据历史数据及数据特征建立一套值机流量预测模型,该模型能预测短时值机行李流量,还可以为行李系统资源实时分配提供决策支持,帮助管理者提高服务质量。
针对行李处理系统,行李流量预测更直接地影响该系统的资源配置及优化,通过机场行李数据分析,行李流量与旅客流量相关性极强,呈现较为稳定的比例,即行李系数。由于当前极少有学者研究行李流量预测,因此本文主要参考研究旅客流量预测的文献。
近年来,国内外研究者根据不同的预测场景提出了不同的预测方式。例如,Fei Dou[4]等提出了一种基于模糊时序逻辑的高速铁路客流预测模型(FTLPFFM),该模型能够对高速铁路短期客流进行预测。Yong Wang[5]等提出了将现行政策与专用客流预测时间相结合的方法,并建立了定量与定性相结合的城际高速铁路客流预测新流程。Dan Yang[6]等提出了一种基于长短期记忆神经网络改进的模型,该方法充分利用了LSTM神经网络模型在处理时间序列时的优点,克服了LSTM神经网络模型由于时间滞后而不能充分学习长时间相关性的缺陷。贾锐军[7]等提出了一种基于集成学习的XGBoost算法的机场旅客流量预测方法。何川[8]提出了双层K近邻模型(T-K近邻)模型,并在考虑航班计划影响因子的前提下,加入天气状况、星期类型、节假日影响因子,预测精度达到93%左右。
本文将考虑机场每天的运营特征属性,将历史日期的特征与预测日期的特征进行匹配,采用支持向量机回归算法来对预测日目标时刻值机行李流量进行预测,为行李处理系统流程优化及资源合理分配提供一种新的解决思路。
二、支持向量机回归算法
在众多机器学习算法中,支持向量机算法有着可使用核函数解决非线性问题、算法思想简单、拟合效果好的优点,并且值机行李流量预测属于回归问题,因此本文使用支持向量机回归算法(Support Vector Machine Regression,SVR)进行预测。
1.SVR算法原理
SVR算法在线性函数两侧制造了一个超平面“间隔带”,对于所有落入间隔带内的样本,都不计算损失;只有间隔带之外的,才计入损失函数。之后再通过最小化“间隔带”的宽度与总损失来最优化模型。如图1,只有深色“间隔带”外侧的样本数据才被计入最后的损失。SVR算法的线性回归函数与损失函数,如下所示:
SVR算法原理,如图1所示[9-11]。
图1 SVR算法原理图[10]
对该对偶问题进行求解,可以得到SVR算法的最终求解目标为[12]:
2.核函数
在实际预测中会遇到许多非线性问题,这些都不能用一条直线进行分类或拟合。但向数据添加非线性特征往往能让模型变得更强大,或者使用非线性函数可以将非线性可分问题,从原始的特征空间映射至更高维的空间。对于支持向量机而言,将数据映射到高维空间的方法是使用核函数,它不需要对数据特征进行实际的扩展,而是直接计算扩展特征表示中数据点之间的内积。常用核函数与解析式,如表1所示。
表1 常用核函数表
式(14)引入核函数后可得求解目标:
SVR算法可通过核方法得到非线性的回归结果。
三、基于支持向量机的值机行李流量预测模型
本文根据西南某机场行李数据库中导出的数据创建数据集和整体预测流程,设计了数据预处理、特征工程及相应的SVR算法。预测模型及流程,如图2所示。
图2 预测模型流程图
图2 预测模型流程图
1.数据源
数据是预测模型的基础,机器学习就是要从大量数据中学习某种规律及分布,因此数据的重要性不言而喻。
(1)行李数据源
行李数据源来自于西南某大型机场行李处理系统数据库,该数据库记录了每件托运行李的信息,包含行李编号、值机柜台、值机时间、航班信息、旅客姓名等数据。
(2)外部数据源
外部数据库主要包含了历史节假日信息(如春节、中秋、国庆等)、日期类型(如星期几、周末)、机场天气状况。
2.数据预处理
为了保证所获取的数据能够正确地进行预测,必须对大量历史数据进行预处理,其中包括重复值处理、缺失值处理、异常值处理等3个步骤。
(1)重复值处理
对数据中的重复行李数据(如托运多件行李,重复记录等)用删除法进行处理。
(2)缺失值处理
对数据中的缺失值用删除法与中值法进行处理。
(3)异常值处理
对数据中的异常值采用中值法进行处理。
3.特征工程
特征工程是指用一系列数值工程化的方式,从原始数据中筛选出更好的数据样本特征,以提升模型的训练效果。
(1)构建数据特征
由于在行李处理系统数据库中的现有特征无法满足预测需求,因此本文从外部数据库中添加构建了新的特征,包括节假日类型、日期类型、天气状况3个特征。
(2)特征提取
根据行李处理系统数据库与外部数据库建立相应特征,借鉴电力行业文献[13]中的特征工程方法,对每个特征属性建立相应的映射函数,提取后的特征如表2所示。
表2 数据集特征
4.SVR模型及对比模型参数调节
将上述处理完成的数据及特征向量作为模型的数据样本进行预测时,为保证各模型预测的精确度,还需要对模型的超参数进行调节。本文从训练样本中随机抽取20%的验证样本,并使用Scikit-Learn机器学习框架的自动化参数搜索工具进行最优参数搜索,各模型参数如表3所示。
表3 预测模型参数表
四、实验结果分析
为了验证SVR 预测模型的精度,将其与K 近邻模型(KNeighbors)与随机森林模型(RandomForest)的预测结果进行对比。所有预测模型采用Python编程并在PyCharm Community 2021编译器中实现,均在CPU为Intel(R)Core(TM) i5-9300H CPU @ 2.40GHz、内存为16GB以及系统为Windows10的个人电脑完成测试。
1.评价指标
本文采用的回归预测评价指标分别为拟合优度(R²)、平均绝对误差(MAE)、均方根误差(RMSE)。N为样本数量,为真实值,为预测值。
拟合优度(R²)的计算公式:
平均绝对误差(MAE)的计算公式:
均方根误差(RMSE)的计算公式:
2.实验结果及数据分析
首先对SVR模型从平常日、节假日、周末、天气3个特征维度随机抽取4个预测日数据,进行24小时值机行李流量预测,验证模型的可行性。
如表4所示,对应于表2数据集特征所抽取的预测数据包含数据集的相应特征分布,预测日中无特征完全一致的数据并且有不同特征重叠。如预测日1、3、4是平常日,预测日1、3是周末,预测日2、3、4的气候是雨天,预测日2包含节假日和雨天等重叠特征,该预测数据有广泛的特征分布,对验证模型具有代表性。
表4 预测日特征取值表
模型的预测精度指标如表5所示,预测图如图3所示。
表5 SVR预测模型评价指标表
图3 SVR模型预测图
由表5可以看出,SVR预测模型的拟合优度都高于0.9,证明模型有效,值机行李流量预测模型能够对机场的行李流量做出高精确度预测。
取预测日1作为预测的对比数据样本,使用SVR、KNeighbors、RandomForest三种模型对比其预测结果。
三种预测模型对预测日1的预测精度指标及预测结果,如表6和图4、图5、图6所示。
表6 预测模型评价指标对比表
图4 SVR预测结果
图5 KNeighbors预测结果图
图6 RandomForest预测结果图
由预测对比结果可以看出,SVR 预测效果最佳,RandomForest次之,KNeighbors效果最差。
五、结论
面对当前机场行李处理系统运行能力不足的现状,本文针对机场行李处理系统值机流量预测问题提出了基于SVR算法的预测模型,并成功将该模型首次应用于机场行李流量的预测;相较于以往的流量预测数据集,本数据集增加了适应于SVR算法的特征映射函数并加入了天气、周末、节假日等特征。以西南某大型机场行李处理系统数据库及外部数据库为数据源,对数据集进行预处理,然后提取特征,使用SVR算法对机场值机行李流量进行了预测。预测结果表明,SVR模型预测性能优异,拟合优度都高于0.9。该预测模型可为行李处理系统制造商及机场运营管理部门提供服务决策及资源合理分配依据,进而降低机场运营成本,提高服务质量。