APP下载

NOSHOW行为分析算法研究

2020-08-04赵烜

数字技术与应用 2020年5期
关键词:预测模型

赵烜

摘要:民航领域存在由于旅客noshow而导致座位虚耗问题,从而直接影响航空公司的收益。准确提取旅客noshow规则、分析noshow行为,是航空公司提高市场竞争力的有效手段。本文研究并分析noshow规则提取算法相关研究成果,讨论此领域的各种数据挖掘算法,为航司实现noshow精细化管理提供辅助决策技术。

关键词:noshow;预测模型;算法研究

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2020)05-0119-02

0引言

在民航市场中,通常存在旅客订座后未能成行的现象,这种行为称为noshow,noshow行为的产生导致航班起飞时仍然存在空余座位,降低了航空公司的收入。目前国内航空公司一般采用超售的方式与noshow形成对冲,然而,这将大大提升拒载的可能性,增加航司的赔付风险。

因此准确预测旅客的noShow行为将有利于航司对航班进行精细化管控,提升座位利用率,增加公司的收入。本文总结了目前比较有效的几种noshow行为分析算法,为航司提供算法选择理论依据。

1时间序列预测算法

对航司收益管理而言,精准预测特定时刻特定航班可能存在的noshow行为至关重要。将航班成行的历史数据视为时间序列,提取与noshow相关的字段,通过时间序列预测算法进行预测,是一种较为普遍的方式。常用的算法包括两类,(1)传统算法:多元回归分析法、ARIMA、指数平滑法等。(2)机器学习算法:BP神经网络、CNN、LSTM等。

传统算法通常分为以下几步:

第二步:选择适当的时间序列预测算法,建立预测模型。

第三步:参数词优。通过历史数据,不断调整模型中涉及的超参数,选择最优的参数组合,使得拟合误差达到最低。

机器学习算法在处理长周期时间序列数据方面具有天然优势,建模之前需要采用留出法、交叉验证法等处理技术,将历史noshow数据划分为训练集、测试集。训练集进行模型的建立、参数调优,然后在测试集进行泛化性能验证。然而由于机器学习算法涉及诸多超参数的选择,导致训练阶段工作量较大,并且随着新增noShow数据的加入,通常需要重新训练模型得到当前数据集的最优超参数组合。正是由于此原因,导致机器学习算法在noshow分析领域具有一定局限性,普适性较低。

由于时间序列预测算法仅从航班维度出发建立拟合预测模型,评估潜在的noshow行为,不能充分利用单一旅客在整个订票过程中的其他行为数据,往往这些过程数据能够准确反映出旅客是否能够成行。因此,基于旅客订票全流程的预测方法受到各航司的青睐。

2基于旅客訂票行为的预测算法

2.1基于支持向量机的预测模型

支持向量机(SVM)是一种较为常用的机器学习算法,既可用于分类任务,也可用于回归任务,在各领域中具有较好的应用效果。黄文吲”采用支持向量机建立了旅客noshow预测系统,并通过实际案例,分别讨论了线性核、RBF核、多项式核的预测效果,并给出使用建议。在noshow行为预测领域,SVM算法的流程如下:

(1)建立历史拟合数据集{x1,y1}。其中x是向量,表示订票行为属性集,包含:订票日期、出票日期、修改日期、出发地、到达地、航班号、旅客性质(是否高端)、性别、年龄、舱位、是否团体、是否商务等;y;的取值为O或者1,1表示noshow,0表示正常成行。

(2)为避免过拟合,采用软间隔的支持向量机算法,即容许一部分样本分类错误。建立约束问题:

(3)采用SMO算法求解(2)中的优化问题,计算参数的取值,进而得到预测模型。

在使用支持向量机算法时,核函数K的选取直接影响算法的性能,常用的核函数分为:线性核、RBF核(高斯核)、多项式核、拉普拉斯核等。然而,如何准确选择合适的核函数仍然是一项未解决的问题,在使用支持向量机算法时可以考虑多核函数学习。noshow行为预测是典型的非线性问题,一般选择非线性核函数。

2.2基于决策树的预测模型

决策树是一种常用的机器学习分类技术,包含一个根节点、若干个叶子结点和内部节点。其基本思想是采用树的结构进行分类任务,每一条树的分支代表一个规则,常用的决策树算法包括:ID3、C4.5、c5.O等。决策树算法在noShow规则提取中具有重要应用,文献采用C4.5算法对noshow行为进行建模分析,得到较好的分析效果;曹卫东等利用C5.O构建决策树模型,再采用Apriori算法对因子进行关联规则分析,最终得到noshow预测准确率为99.75%的决策树模型。

使用决策树算法之前,依然需要构建noshow数据集{xi,yi},然后进行模型的训练与优化。其核心是如何准确地选择最优划分属性,并且尽量满足分支结点中包含的样本集合尽可能多的属于一个类别。常用的划分准则分为以下几类:

C4.5算法采用增益率作为属性划分准则,c5.0贝0是在C4.5基础上建立起来的,可处理大数据量的数据集。

在使用决策树算法进行noshow行为分析时,为避免过拟合现象出现,通常需要进行预剪枝或者后剪枝处理,以便的到泛化能力较强的决策树模型,这也就增加了建模过程的复杂度,并且经过剪枝处理后的决策树依然存在欠拟合、过拟合的风险。

3结语

noshow行为分析对于航空公司提高营业收入至关重要,准确的预测结果能够指导航班管控人员把握旅客数据。本文研究了几种noshow行为分析算法,并分析算法的优缺点,可以协助航空公司准确把握旅客动态,为精细化管控提供辅助决策技术。

猜你喜欢

预测模型
基于矩阵理论下的高校教师人员流动趋势预测
基于支持向量回归的台湾旅游短期客流量预测模型研究
基于神经网络的北京市房价预测研究