APP下载

基于大数据与机器学习的安检通道开放数预测

2020-12-23夏侯康王丽娟林勖江敏婷罗浩贤

软件 2020年10期
关键词:机器学习大数据

夏侯康 王丽娟 林勖 江敏婷 罗浩贤

摘  要: 有效地预测安检通道开放数,对合理制定机场安检排班有重要的指导意义,能够提升机场安全保障和旅客体验。随着大数据的浪潮,大数据机器学习在各领域已有广泛的应用,本文将其应用到了机场安检通道开放数的预测上。结合安检人数历史数据和航班信息数据,实现对安检人数的预测,进而实现安检通道口的预测,并对比多种算法预测效果。

关键词: 安检通道数;大数据;机器学习;XGBoost

中图分类号: TP181    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.10.034

本文著录格式:夏侯康,王丽娟,林勖,等. 基于大数据与机器学习的安检通道开放数预测[J]. 软件,2020,41(10):137140

【Abstract】: Effectively predicting the opening number of security inspection channels has important guiding significance for the reasonable formulation of airport security inspection schedules, and can improve airport security and passenger experience. With the wave of big data, big data machine learning has been widely used in various fields. This article applies it to the prediction of the opening number of airport security channels. Combining the historical data of security inspection number and flight information data, it can realize the prediction of security inspection number, and then realize the prediction of security inspection channel, and compare the prediction effects of various algorithms.

【Key words】: Number of security check channels; Big data; Machine learning; XGBoost

0  引言

随着中国经济的快速发展,民航业数据呈现出了爆发式的增长。一个机场在生产运营的各个阶段,都会源源不断地产生数据,同时系统和数据库会把数据存储下来,机场积累了大量各种各样的数据。如何在旅客吞吐量高速增长的情况下,使用机场内有限的保障资源,仍然保持良好的服务质量,这是一个值得研究的问题。目前,大多数国内机场仍然通过人工调配设备和加大人力资源来尽可能地满足旅客安全需要与服务体验。这种方式,存在相当多弊端。为了更科学的提升机场的管理效能,使旅客的出行体验更加便捷、高效和个性化,需要新的技术体系去实现[1-2]。

1  大数据与机器学习平台搭建

对于枢纽机场来说,每天安检人数庞大,安检过程中产生的数据量通常会达到千万条,甚至上亿条。Hadoop是Apache Foundation开发的分布式系统基础设施,其软件框架能够处理大量数据[3]。HDFS(Hadoop Distribu-tedFileSystem)分布式文件系統为海量数据提供了存储空间,MapReduce有效提高了大数据的处理速度[4-6]。

大数据技术下的机器学习平台支持海量数据处理,利用并行计算,构建模型流程,支持常见的机器学习算法,支持常用的特征工程组件。本文选择了 mllib,mllib是spark中的机器学习库,包括了大量的机器学习算法。通过简单的配置可以进行模型训练和评估,支持决策树和神经网络等多种模型训练。大数据技术下的机器学习平台如图1所示。

2  算法综述

GBDT(Grdient Boosted Regression Tree)是一种迭代决策树算法,通过构造一组弱的学习器(树),并把多棵决策树的结果累加起来作为最终的预测进行输出[7]。XGBoost是基于GBDT梯度提升框架提出的一种可扩展的Boosting算法,是大型分布式通用GBDT库,实现GBDT和一些在梯度广义线性机器学习的集成算法框架,能利用 CPU 多线程并行加速树的构建,支持 YARN、MPI等多个平台,实现分布式运算[8]。

模型的参数用来让数据更好的拟合预测结果,改变参数就是改变了已有模型。目标函数在保证模型泛化能力同时将代价降至最小。XGBoost算法在梯度提升树的基础上采用前向分布算法,初始提升树

XGBoost算法的优势在于设计和构建高度可扩展的端到端提升树,提出了一个合理加权分位数略图(weighted quantile sketch)来计算候选集,它引入了一种新颖的稀疏感知算法用于并行树学习。它提出了一个有效的用于核外树形学习的缓存感知块结构,并用缓存加速寻找排序后被打乱的索引的列数据。

3  基于大数据与机器学习的安检通道数预测

3.1  数据处理及模型构建

3.1.1  数据获取

利用大数据hadoop平台对国内某枢纽机场的海量数据进行处理,获取所需要的原始数据,选取2018年9月至2019年9月安检和航班信息相关数据,并进行探索分析。

3.1.2  数据清洗

为了避免数据不稳定对预测效果造成影响,结合业务知识和分析结果,对原始数据进行了预处理,如图2所示。

3.1.3  特征工程

分析历史安检旅客数据发现:(1)每个区域每天的安检数据呈现规律性,所以将安检人数统计值作为了特征;(2)安检人数受时间、节假日、航季等因素影响,因此,分区域选取了时间相关、节假日、航季等数据作为了基础特征。航班架次与旅客人数有着直接的关系,结合国内枢纽机场推荐的值机时间及对历史数据的统计分析,将航班计划起飞前2小时的航班都记为正在安检的航班,计算得到的航班架次数据作为了特征。

统计分析航班历史运载旅客数据,获得该航班在每个时间片人数的分布,累计每个航班的分布情况,并结合当日安检人数总数,得到了旅客分布。

3.1.4  模型构建

在开始训练之前,首先划分训练集、测试集和预测集,对数据进行归一化处理。对于具有相同规律的数据集以外的数据(数据集中没有出现的数据),训练后的模型可以给出适当的输出。本文对模型通过Hyperopt 进行参数自动调优,对模型不断进行凸优化,在多次快速迭代中選出最优超参数组合。

3.2  预测结果与分析

本文对国内某枢纽机场的两个安检区域,以10 min为粒度,进行人数预测。利用训练集和内部测试集(2018年9月1日-2019年9月22日),通过调参,得到每个区域的最优参数及模型,预测(2019年9月23日-2019年9月29日)。通过均方根误差(RMSE)评估预测精度及预测方法表现力。

(1)真实数据形态及趋势

(2)人数预测结果分析

利用XGBoost算法对两个区域安检人数进行预测,预测结果与真实值对比图如图4所示。可以看出,XGBoost算法能够很好的拟合出数据趋势和周期,这说明该模型具有较好的普适性和泛化能力。

有较好的表现,平均误差虽有波动,但总体均低于5%。

3.3  通道数转换及分析

选取4.2节中安检人数预测结果,结合枢纽机场安检业务规则,分区域进行通道数的换算。转换公式如下:

通道口的开关取决于安检人数的多少,通过预测的人数转换得到的通道数,更加合理科学。基于大数据和机器学习技术的安检通道数预测,能够解决旅客在安检区域长时间滞留的问题,亦能为安检工作人员调配和工作分配提供科学性导和数据支持。

4  结论

通过大数据机器学习技术,挖掘安检区域历史人数信息和航班动态数据中潜在的规律,以预测未来一段时间该区域的旅客人数变化,进而预测安检通道数,合理的调配人力和物力资源,提升旅客在机场的体验度,也能够及时避免因旅客长时间滞留而引发的安全性事件。

参考文献

[1]李向明. 大数据在机场运营管理中的运用研究[J]. 空运商务, 2017(3): 20-22.

[2]牛虎. 大数据时代下的机场旅客数据价值挖掘[J]. 综合运输, 2015, 37(11): 92-95+135.

[3]彭仁通. Hadoop的核心技术研究或概述[J]. 科技广场, 2012(5): 41-43.

[4]Condie T, Mineiro P, Polyzotis N, et al. Machine learning for big data[C]//2013.

[5]陈康, 向勇, 喻超. 大数据时代机器学习的新趋势[J]. 电信科学, 2012, 28(12): 88-95.

[6]李尚晋. 大数据环境下的机器学习研究[J]. 电子世界, 2018(1): 62-63.

[7]Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.

[8]Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. knowledge discovery and data mining, 2016.

猜你喜欢

机器学习大数据
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
大数据环境下基于移动客户端的传统媒体转型思路