基于多源数据分析的南京禄口机场旅客吞吐量预测研究
2024-06-14赵春风
赵春风
摘要 机场是区域经济社会发展的重要引擎,而旅客吞吐量是衡量机场开放与活跃程度的重要标志,也是指导机场科学制定运营计划的重要指标,因此有必要对机场旅客吞吐量进行预测。文章通过分析用于机场旅客吞吐量预测所需的多源数据构成、采集方法及数据项,提出了多源数据处理流程,构建了旅客吞吐量预测框架,通过多源数据技术和相关算法,设计了旅客吞吐量预测、决策和统计查询等预测系统的功能模块,最后结合禄口机场近五年的旅客吞吐量数据,对提出的方法与系统进行验证,结果表明预测误差小于3%,表现出良好的预测效果。
关键词 旅客吞吐量;预测;多源数据
中图分类号 TP311.13文献标识码 A文章编号 2096-8949(2024)08-0005-04
0 引言
南京禄口国际机场作为江苏省省会机场,2019年旅客年吞吐量均突破3 000万人次,发展势头良好。然而据统计数据显示,江苏省人口占华东地区的20%,而民航客运量仅占12%,民航发展水平低于华东地区平均水平。南京禄口机场是我国重要的交通枢纽之一,如何合理预测其吞吐量并进行精准管理,对于优化航班安排与资源配置、提升旅客体验至关重要。近年来,随着大数据技术的发展与成熟,为海量数据分析提供了基础,开展基于多源数据的分析与预测工作成为可能[1-4]。该研究旨在依托大数据技术,设计一种先进、适用的机场旅客吞吐量预测方法和系统,为进一步提升禄口机场运输管理水平提供支撑。
1 数据来源分析
1.1 数据来源构成
机场枢纽作为城市交通的重要节点,集聚了多种不同的交通方式,可将客流数据分为私家车数据、出租车(含网约车)数据、公交车数据、地铁数据、高铁数据等。同时不同种类的数据具有不同的信息来源,具体数据详见表1。
在表1数据来源方式中,票务和闸机数据的记录结构和形式相对简单,多为出行行为的起讫点记录、出行时间记录和少量的出行者属性记录,而手机信令数据、公路卡口视频监控数据、公交卡刷卡数据、收费站数据、卫星定位数据等具有信息量丰富、信息记录形式多样、信息处理方式复杂等特点,因此主要对这五种数据采集技术进行分析。
1.2 手机信令数据采集
手机信令数据是移动通信网络满足自身运行需要而生成和记录的数据,其主要依赖于移动通信网络基站和移动平台,即手机与基站之间的信息交互。手机信令数据可分为主动行为数据和被动行为数据两种:主动行为数据是手机用户使用手机进行了短信收发、拨打电话等行为而产生的信令数据;被动行为数据是在手机用户本身并未对手机进行任何操作时,由于跨越基站所覆盖位置区或基站定期更新信令源位置所产生的信令数据[5]。手机信令记录产生的原理如图1所示。
手机信令数据本身包含的信息众多,在交通应用方面通常包括采集时间、空间位置等数据,其原始数据记录如表2所示。
由于无线信号和传输系统的不稳定性,会产生大量无效冗余数据、噪声数据、漂移数据等,因此,在使用手机信令数据进行相关的交通分析之前,需要通过噪声数据剔除、数据空间位置匹配等方法对原始数据进行加工处理,最终得到可用于分析的数据源。
1.3 公路卡口视频监控数据采集
由于人工智能技术快速发展及GPU服务器算力显著提升,可从视频中自动提取动态交通信息,作为客流分析的来源之一。视频监控系统经过机器学习之后,可识别的交通信息如表3所示。
1.4 公交卡刷卡数据采集
公交IC卡数据已成为交通客流分析的有效数据源,主要包括卡号、刷卡时间、乘坐车号和线路等字段。不同的卡号代表不同的乘客,根据卡号信息查找乘客一天的刷卡次数,从而确定乘客换乘或者二次出行信息。刷卡时间即乘客上车时间,根据线路上某具体车辆的运营调度信息以及线路站点顺序,依据刷卡时间来判断乘客的上车站点[6]。
1.5 收费站数据采集
南京禄口机场高速公路设置一处主线收费站,其产生的收费流水数据主要包括收费站编号、出入口时间、通行卡号、收费车道号、车型、流水号、收费金额等字段,如表4所示。可通过关联与相关性挖掘、分类与回归、聚类分析、离群点分析等方式对高速公路收费流水进行描述性和预测性挖掘,作为禄口机场客流分析的依据。
1.6 卫星定位数据采集
通过安装在公交车、出租车(含网约车)的卫星定位装置,获取车辆运行过程中的位置、速度、方向等信息,根据这些数据分析车辆到达或离开禄口机场的状态,进而估计旅客出行行为和数量。如表5所示,显示了公交车、出租车(含网约车)的卫星定位数据字段。
2 预测系统设计
2.1 数据质量优化提升
首先需要依据禄口机场覆盖区域确定数据采集范围,以便精确获取对预测有直接贡献的数据,进而提高算法模型精度;其次需要对采集的多源数据进行融合处理,剔除冗余数据,综合得到用于统计旅客数量的特征数据。对于同一个人拥有多部手机的情况,还需要结合位置与时间信息,通过关联时空轨迹判断真实的旅客信息,将多部手机的信令数据转化为同一条旅客出行数据。该研究提出的多源数据优化处理流程如图2所示。
2.2 预测框架与流程
禄口机场旅客吞吐量预测系统由数据采集与处理、预测输出等模块组成[7-8]。其中,数据采集与处理模块负责与旅客相关的数据采集及清洗处理,同时,引入酒店、气象、节假日等数据,作为控制因素,调节预测结果,以此提升预测模型的适应性;预测输出模块主要用于输出预测旅客吞吐量,为应用业务系统提供决策数据。预测系统的基本框架与流程如图3所示。
数据采集与处理:由于现场存在环境干扰、设备误差等客观因素,将会产生具有毛刺特征的异常数据,因此系统集成了中位值、算术平均、递推平均、加权平均、一阶滞后等数据滤波算法,对采集到的数据进行分析与处理,为后续预测工作提供可靠的数据源。
预测输出:基于机器学习算法对历史数据进行分析和建模,并对算法模型进行优化,预测机场旅客吞吐量,分析旅客吞吐量变化规律和趋势,通过可视化工具呈现预测与分析结果。
2.3 预测算法原理
时间序列预测算法是一种定量的回归预测方法,运用过去的时间序列数据统计分析,推测出事物的发展趋势。考虑由于偶然因素而产生的随机波动影响,需要对数据进行预处理,进而开展数据统计分析和未来趋势预测。该研究基于Prophet时间序列预测算法对禄口机场旅客流量进行预测分析。
y(t)=g(t)+s(t)+h(t)+εt (1)
式中,g(t)——趋势变化函数,用来分析时间序列中非周期性的变化;s(t)——季节周期项,一般以年或以周为单位;h(t)——节假日项,表示节假日因素造成的影响变化;εt——误差项,表示突发事件的影响,通常为高斯噪声。
由于该研究中以年为单位预测,故暂不考虑节假日项,并结合季节周期性影响模型,则Prophet模型为:
(2)
式中,P——时间序列周期长度,该研究中P取值为365,可对年度数据进行周期效应估计。原始数据经过格式转换、异常值处理之后得到标准化后的客流量数据,将其代入构建的Prophet模型进行训练,按非周期性变化的趋势项、季节周期项对模型进行分解和训练,根据训练结果进一步优化模型,以提升模型预测的精确度。
2.4 预测系统功能设计
预测系统的核心功能包括旅客吞吐量预测、预测决策、统计查询三部分。其中,旅客吞吐量预测主要是结合多源数据,依托上述预测框架和预测流程,自动生成吞吐量数据;预测决策是依据旅客吞吐量预测数据,制订辅助决策计划;统计查询是依据旅客吞吐量预测数据和预测决策数据,生成统计查询报表。预测系统功能如图4所示。
(1)旅客吞吐量预测:依据获取的多源出行数据,并结合气象、酒店住宿等数据,预测机场旅客吞吐量,其功能包括旅客年吞吐量、旅客月吞吐量、旅客日吞吐量、旅客节假日吞吐量、旅客特殊条件吞吐量。
(2)预测决策:依托旅客吞吐量预测,并结合禄口机场管理规则及约束条件,系统自动建模生成决策模型,输出预测决策数据,其功能包括生产计划决策、资金计划决策、安保计划决策、保养计划决策、地面交通决策。
(3)统计查询:依托旅客吞吐量预测和决策结果,并结合禄口机场生产管理业务需求,实现预测一张图、旅客吞吐量查询、预测决策查询、统计分析报表、打印输出等功能。
3 预测有效性验证
南京禄口机场旅客吞吐量预测系统的主要作用是为机场管理决策提供依据,因此,需要对预测系统的有效性进行验证,预测误差可作为评价预测系统有效性的重要指标。利用该研究提出的方法和系统,预测南京禄口机场最近五年的旅客吞吐量,并将预测结果与中国民用航空局每年发布的《全国民用运输机场生产统计公报》数据进行对比,以此分析预测值与真实值的误差。该文选取平均绝对误差(MAE)、相对百分比误差(MAPE)、对称平均绝对百分比误差(SMAPE)三个指标进行评价。预测结果的各项评价指标值如表6所示,从表中可以得出,禄口机场旅客吞吐量预测结果的评价指标MAPE与SMAPE均小于3%,各项误差值均在实际需求可接受的合理范围内,验证了该文方法的有效性。
4 结语
机场旅客吞吐量预测对于机场合理安排调度任务、提升机场管理与服务水平具有重要作用。该文分析了用于机场旅客吞吐量预测的多源数据构成与采集方法,提出了数据质量优化思路,通过研究旅客吞吐量预测架与流程,设计了南京禄口机场旅客吞吐量预测系统,并结合历史真实吞吐量数据,对预测结果进行验证,结果表明该文提出的预测方法与系统能够较好地预测机场旅客吞吐量。由于旅客出行行为受多种复杂因素的交叉影响,如飞机准点率、票价等因素,因此,在下一步的研究工作中,还将引入这些因素对模型进行完善,以期进一步提升预测模型的鲁棒性。
参考文献
[1]顾凯. 大数据技术在智慧机场领域的应用研究[J]. 软件工程, 2021(5): 59-62.
[2]关华, 王丽娟, 程宇, 等. 机场客源大数据应用研究与设计[J]. 电脑编程技巧与维护, 2020(9): 96-98.
[3]牛虎. 大数据时代下的机场旅客数据价值挖掘[J]. 综合运输, 2015(11): 90-93+133.
[4]杨飞, 徐平, 张卓剑, 等. 大数据时代下机场客户关系分析与实施模式研究[J]. 电子商务, 2014(9): 16-17.
[5]姚海芳, 刘云溪, 刘劲松. 基于手机信令大数据的机场腹地识别算法研究[J]. 地理与地理信息科学, 2021(2): 77-83.
[6]马美莲. 基于大数据视角的机场短时客流量时空分布研究[D]. 深圳:深圳大学, 2018.
[7]吉向东. 基于大数据技术的智慧机场管理平台的设计与研究[J]. 信息系统工程, 2020(7): 40-41.
[8]柏玉锋. 大数据技术在智慧机场中的典型应用场景研究[J]. 智能建筑, 2019(2): 67-70.