基于民航团队旅客销售的预测方法分析

2018-01-10徐月芳

复旦学报（自然科学版） 2017年6期

关键词：共线性旅客神经网络

徐月芳，黄奇

(南京航空航天大学民航学院，南京 211100)

基于民航团队旅客销售的预测方法分析

徐月芳，黄奇

(南京航空航天大学民航学院，南京 211100)

利用Matlab分别用后退的回归分析算法、BP神经网络算法、支持向量机算法和组合预测算法对民航团队销售数据进行预测和比较分析，为民航销售人员提供更加精准的预测信息，从而获得更高的航线收益.分析结果显示：后退的回归分析算法比常用的多元线性回归精准性提高，但是数据结果并不具有可靠性.神经网络算法、支持向量机算法和组合算法比常用的回归分析算法预测的精准度有了明显的提高.支持向量机算法预测精度相对神经网络算法稍低，但是却拥有更强的泛化能力.组合预测算法能避免单一预测方法的误差，更加适合航线销售人员的实际操作.

民航收益管理； BP神经网络；支持向量机；组合预测算法

中国民用航空局(Civil AviationAdministration of China, CCAC)规定，团队旅客是经过统一组织的，人数在10人以上，航程、乘机日期、航班相同的旅客群体.实际情况中团队旅客最少成团人数航空公司可以根据自己实际情况界定.团体旅客收益管理是收益管理的一个极为重要的问题.在整个航空市场中，团体旅客作为航空细分市场中的一个大类，占航空旅客的比重很大.比如，在中国至东南亚的航班中，通常团体旅客多达50%，有时甚至是100%[1].所以，团体旅客的管理对亚洲的航空公司具有特别重要的意义.

团队旅客收益管理就是要运用历史航班和现有航班的订座信息，采用合适的方法实现对未来航班的团队需求量等数据的准确预测.一个准确而及时的需求预测是一切收益管理的基础，但它不仅仅只是局限于回归预测方法，而是通过对历史数据的分析，探求起飞前不同时间的订座量与离港客座率之间的相互影响规律；依据现有的订座量，获得对未来航班离港之前的订座趋势预测.航线销售人员一般仅凭工作经验，对某航线未来客流量的增减进行主观预测，即通常所谓的定性预测方法，其特点是适合较长时间内的预测[2].通过团队收益管理系统销售人员按照精确的预测数据，对团体旅客的舱位进行控制，为团队市场提供适合的产品，制订合理的价格，真正体现收益管理的价值，使航空公司的整体收益得到进一步提升，实现收益最大化的愿望.

国内外针对航班数据预测往往采用团散一体化，利用因果分析法，探求不同变量间的相互关系及规律性联系，比如一元线性回归法、多元线性回归法、自回归、非线性回归等.在实际的销售过程中航线销售人员往往将团队销售过程分为预售期(起飞前20～30天)、比舱期(起飞前10～20天)和收舱期(起飞前0～10天)3个阶段.团队销售的时候，销售人员往往会先计算团队的散客置换价格，即指团体与散客的替代成本.散客置换价是接受团体后，可能会挤占散客的数量，航空公司从团体上获得的净收入最少要和被挤掉的散客票价之和一样，散客置换价是团体接受的最低价格.团队旅客受到很多因素的影响，团队旅客的需求量波动较大.另外，团队成行率是航线销售人员在控线过程中必须考虑的因素.旅客在确定一个行程之后，通常会向几家的旅行社询价，几家旅行社有可能同时向航空公司提交申请.假如航空公司对每单申请都给予确认，会造成重复订座，看上去座位售罄的航班，可能会由于团队虚耗订座而导致实际的乘机数没有满员.因此，团队销售的预售期和比舱期的订座数并不能较准确代表最后起飞时候的乘机数.

本文利用团队销售过程中预售期和比舱期的数据对起飞时客座率进行预测.分别采用后退的回归分析法、BP神经网络算法、最小二乘支持向量机算法和组合预测算法进行预测和分析，期望为航空公司细化收益管理方法，实现收益的最大化.

1 研究方法

航线的团队旅客需求受到各种各样因素的影响，任何一个条件的改变都会使得团队旅客改变出行的选择.如果只用一个线性模型进行预测势必会造成一定的误差，许多线性模型可以通过手动添加模型项(如二次项)来拟合非线性的趋势.然而，要进行这一步骤，还需要知道数据中非线性的特定性质.航空公司通常采用的多元线性回归方法因为存在严重的多重共线性导致结果并不可靠，因此，本文首先采用后退法来消除多重共线性的回归处理方法的弊端，并和航空公司采用的多元线性回归方法进行对比.

在实验建模中，由于神经网络已经被证明能够逼近任意非线性函数，因此是研究最广泛的一类建模方法，在网络或者一些软件上也包含了神经网络的建模工具.神经网络的学习一直处在理论研究方面，在实际应用的时候往往并不是很好[3].神经网络的实际应用受到限制的主要原因是由于始终不能解决其固有的缺陷：

1) 网络结构的确定没有一定的依据，隐层的数目只能人为地确定；

2) 神经网络的学习容易陷入局部极小点，得不到问题的最优解；

3) 神经网络会出现训练误差过小从而导致推广能力下降的问题，也就是学习问题.

因此本文采用了支持向量机算法，支持向量机是20世纪90年代发展起来的一种基于结构风险最小化的算法，最初应用于分类问题，后来被推广到函数回归问题.对于非线性问题，支持向量机算法输入空间映射到某一高维空间，从而把原空间中的非线性问题转化为特征空间的线性问题，由于在高维特征空间只需要作训练样本间的内积运算，因此计算的复杂度也大大降低.另外，由于支持向量机求解的最优化问题是凸优化问题，得到的解是全局最优解[4].同时支持向量机是基于结构最小化的原则，考虑了学习机器的推广能力，较神经网络有良好的泛化能力.

本文最后采用组合预测方法，Bates和Granger(1969)首次提出组合预测方法[5].组合预测是综合考虑各单项预测方法的特点，综合利用各单项预测模型的有用信息，准确地将不同的单项预测方法组合起来进行预测，即使一个预测误差较大的预测方法，如果它包含系统独立的信息，当它与一个预测误差较小的预测方法组合后，完全有可能增加系统的可预测性.

2 实例分析

2.1 回归分析算法

本文收集了国内某航空公司团队旅客收益管理的销售数据，并选择该公司团队份额占有率第一的浦东-曼谷航线104天的订座数据进行分析.根据实际的销售数据，只收集了团队旅客30天的销售数据.具体的数据结构如表1.假设团体旅客订票提前期最多是N天，Rx表示团体旅客提前x(x=0,1,2,…，n)天预定的累加订座数.比如表中a为起飞日期为2015年10月2日的航班起飞前3天团体旅客的订座数.本文期望利用预售期(起飞前20～30天)和比舱期(起飞前10～20天)团体旅客客座率预测最终的团体旅客订座数来给予销售人员更多的参考信息.

表1 实际销售数据结构Tab.1 Data structure of actual sales

图1 多元线性回归算法的标准化残差的P-P图Fig.1 The P-P diagram of standardized residuals of multiple linear regression algorithm

在使用多元线性回归算法预测团队旅客的销售情况时，将比舱期或预售期每天的团队订座数都作为影响因素，本文采用SPSS软件计算此多元线性回归方程.按照航空公司系统内的算法分别采用预售期和比舱期10天销售客座率数据为自变量，航班最后的团队客座率作为因变量.

首先利用SPSS对样本从比舱期进行预测分析，得到表2.结果说明建立的自变量和因变量之间的相关系数为0.624，模型和因变量之间的关联性一般.拟合的回归方程的确定性系数为0.389，调整后的确定性系数为0.320.

从表3中可以看出对应的F是5.664，显著性的值为0.000，因此建立的方程能被认为是有效的.在标准化残差的P-P图(见图1)中，所有标准化残差都在正态分布的基准线上[5].

从表4得出比舱期的多元线性回归的方程(含有非显著性变量)的系数，R11表示团体旅客提前11天预定的累加订座数，以此类推其他符号.以Y1表示航班起飞前团体旅客的累加订座数，则

Y1= 38.206+0.173R11-0.410R12+0.596R13+0.066R14+0.192R15+0.186R16- 0.183R17-0.161R18+0.407R19-0.315R20. 表2 模型拟合度分析Tab.2 Analysis of model fit

表3 显著性分析Tab.3 Significance analysis

表4 比舱期回归方程系数Tab.4 Ratio of regression equation on specific storehouse period

分别针对比舱期和预售期进行结果预测，得到表5.可以发现，多元线性回归在利用比舱期数据样本预测的时候效果不佳.预售期的预测精准度相对比舱期更好，可能因为团队旅客成团率导致在起飞前一部分团队旅客会取消行程.在实际生活中团队申请的启动期往往在起飞前30天，最终确定人数为起飞前10天，实际情况和预测数据相符合.

表5 预售期和比舱期的预测对比Tab.5 Comparison on pre-sale period and compartment on specific storehouse period

表2中比舱期的R2为0.389，拟合程度并不是很好，表明模型可以解释因变量中大约38.9%的变异.表4中，除了常数项的Sig显著性<0.5，其他项的显著性都很大，第4天的显著性甚至达到了0.891.说明除了常数项对最后的因变量有显著性影响，其他项都对因变量没有显著性影响，可能存在偶然发生的情况.

对于比舱期的共线性诊断，特征值中除了1，2，3，其他都小于0.01.根据Schendera的研究，小于0.01的特征值可以清楚地表明具有共线性.同时，条件指数大于10的情况下，通常会判定可能存在多重共线性.表6中模型6～11的条件指数甚至达到了大于100，从上述情况可以看出肯定存在多重共线性的现象，因此需要对多元线性回归进行后退法处理[6].

表6 比舱期的共线性诊断Tab.6 Collinear diagnosis of the compartment on specific storehouse period

针对预售期的数据用后退法来消除多重线性.对预售期的数据进行后退法处理，一直到第10个模型剩余的常数项和R23的显著性都小于0.05，可以认为这两项对因变量具有显著性影响.利用预售期的数据样本消除多重共线性后的多元回归方程为(Y为航班起飞前团体旅客的累加订座数)

Y=40.042+0.526R23.

同理，对比舱期数据采用后退法来消除多重共线性后对起飞时的团队客座率进行预测，后退到第8个模型的时候，常数项，R11，R13和R14的显著性都小于0.05，因此可以认为对因变量有显著性影响.

可以得到比舱期消除多重共线性后的多元回归方程为

Y2=32.966+0.614R11-1.199R13+1.136R14.

表7为去除多重共线性后的多元回归预测结果，和表5相比，可以发现相对误差有了明显的提升，去除多重共线性后的预测结果更好.没有去除多重共线性的比舱期的回归方程R2为0.389，而去除多重共线性后R2为0.458.所以在实际的预测中，应该考虑到去除数据的共线性.

但是去除数据多重共线性后，预售期对最后因变量有影响的只有1天，比舱期对最后因变量有影响的只有3天.也就是说，预售期的10天数据只有1天数据有效，比舱期只有3天数据有效.这样的结果对于最终数据预测并不能有很好的实际意义，并且容易因为偶然性造成最终的预测结果误差.因此下文先用两种具有推广性的机器学习算法进行学习预测，最后再通过组合预测算法增强预测的实际意义.

表7 去除多重共线性后的多元回归预测Tab.7 Multivariate regression prediction after multiple collinearity removal

2.2 BP神经网络算法

为了提高模型的泛化能力，先对数据进行归一化，下面为利用MatlabR2014b归一化后输出的部分结果，表8为预售期归一化的输入部分数据pp，表9为比舱期归一化的输出部分数据tt[7].

表8 预售期归一化的输入部分数据Tab.8 The normalized input part of the data on pre-sale period

表9 比舱期归一化的输出部分数据Tab.9 The output part data normalized over the period on specific storehouse period

Muller，Reinhard和Strickland(1995)[8]证明了对于任何的连续函数映射关系都可以用含有一个隐含层的BP网络来逼近.因而，一个3层的BP网络可以完成空间任意的n维到m维的映射，并且可以通过增加隐含层的个数来提高网络的精度.在本文中就采用的是单隐层的BP神经网络.隐层节点数数目过少，网络将不能建立复杂的判断界，从而网络训练不出来，或不能识别以前没有的样本，且容错性差；而节点数目过多，学习时间过长，使得网络的泛化能力降低.因此BP网络应用一个最佳隐层节点数.在具体设计时，首先根据经验公式初步确定隐含层的神经元个数，然后通过对不同神经元数的网络进行训练对比，再最终确定神经元数.下面提供两个隐含层神经元数的经验公式.

(1)

其中：n1为隐含层神经元数；m为输出层节点数；n为输入层节点数.

(2)

其中：n1为隐含层神经元数；m为输出层节点数，n为输入层节点数，a为1～10之间的常数.从上面两个公式可以看出，式(2)的a有一个较大的浮动范围，且输出层节点数为10，而式(1)则有比较确切的数值.本文分别对这两种经验公式的隐含层神经元数进行实验，式(1)有较好的效果.下文中的样本采用的就是经验公式(1)，输入层节点数为10，输出层节点数为1，隐含层神经元数为16.

训练样本加测试样本总共104个，其中最后4个用于测试，利用前100个样本数据进行学习，设置学习步数为1000，期望误差为10-5.分别针对预售期和比舱期进行BP神经网络预测，学习曲线如图2和图3，预测结果如表10.

图2 预售期BP神经网络学习曲线Fig.2 BP neural network learning curve on pre-sale period

图3 比舱期BP神经网络学习曲线Fig.3 BP neural network learning curve on specific storehouse period

日期实际值预售期预测预售期相对误差/%比舱期预测比舱期相对误差/%10.270.76900.73344.630.74173.5510.280.75530.70256.990.71195.7510.290.70010.72703.840.74406.2710.300.66980.754612.660.745211.26

为了便于上面的预测输出和其他预测方法进行比较分析，需要对归一化后的预测输出进行反归一化处理，从而得到表11.由于归一化的变换公式为：

则将预测输出进行反归一化的变换公式为：

表11 反归一化后的BP神经网络算法预测结果Tab.11 Prediction results of BP neural network algorithm after anti-normalization

图4 BP神经网络算法预测值对比Fig.4 Comparison of predictive value of neural network algorithm

因为民航团队旅客具有不确定性，且存在团队虚占舱位和临时退团的现象，所以团队旅客销售数据呈现出较强的非线性、波动特征.回归分析法对于线性数据具有较高的精准度，而对于非线性的团队旅客销售数据预测效果不好.

2.3 支持向量机算法

实验使用MatlabR2014b进行，使用最小二乘支持向量机(Least Squares-Support Vector Machines, LS-SVMs)工具箱，它采用等式约束代替支持向量机中的不等式约束，通过求解一组等式方程得到了参数的解析解，从而避免了SVM算法中的对偶二次规划问题.

表12 最小二乘支持向量机算法预测结果Tab.12 Prediction results of least squares-support vector machines algorithm

从表12中可以看出，对比BP神经网络算法和支持向量机算法，预售期的相对误差变化不大，比舱期的相对误差变大.但是BP神经网络算法会出现由于训练误差较小而出现推广能力比较差的情况，因此支持向量机针对比舱期的结果预测是可以接收的.

2.3 组合预测算法

本文采用的是常用的组合预测模型，下面为n种单一预测模型构成的组合预测模型：

其中：ft为t时刻组合预测的模型预测值；fit为t时刻第i(i=1,2,…,n)种预测模型的预测值；wi为第i个模型的权重，且满足：

由于利用一般的方法进行权重的确定可能出现负权重的现象，而对于负权重很难解释其含义，所以下面介绍的几种方法都是求正权重的[9].

1) 算数平均法

该法又叫做等权平均法，算数平均法的特点是对各模型同等看待，并赋予相同的权重，通常在对各模型重要性缺乏了解时使用.这种方法计算简单，且其加权系统自动满足非负条件，因此在目前各个领域的研究和应用中用得比较多[10].

2) 方差倒数法

其中Dj为第j个模型得误差平方和.该方法对误差平方和小的模型赋以高权重，即

本文经过实验最后选择了精准度较大的方差倒数法，方差倒数法给予了误差平方和较小的模型较高的权重.其中BP神经网络算法和支持向量机算法的权值为0.57和0.43.表13为组合预测算法的预测结果.

表13 组合预测算法的预测结果Tab.13 Prediction results of combination forecasting algorithm

2.4 预测方法比较分析

表14为4种预测方法的结果汇总，各种预测方法的平均相对误差见表15.

表14 收益管理预测方法预测汇总Tab.14 Forecast of revenue management forecast method

表15 收益管理预测平均相对误差表Tab.15 The average relative error table of revenue management prediction

通过对4种预测方法的定量比较分析，可以得出表16所示的4种团队收益管理预测方法的定性比较分析结果.

表16 各种预测方法定性比较表Tab.16 Qualitative comparison of various forecasting methods

3 结语

通过对4种团队旅客收益预测方法的实例分析，发现航空公司常用的回归分析方法精准度较低.在此基础上采用后退法的回归分析，发现虽然精度提高，但是泛化能力较弱.本文采用的BP神经网络算法、支持向量机算法和组合预测算法都相对回归分析方法来说精准度更好.组合预测算法能避免单一预测模型的误差，预测结果能对团队旅客销售人员提供一些建议.

现阶段民航团队旅客收益的研究还存在两方面不足之处，有待加强：

1) 单独针对团队旅客收益数据预测的方法有待丰富.目前民航收益管理方法都是针对团散一体化的，且只针对线性数据，但是对于波动性较强的航线并不适用，需要收益管理人员根据实际情况人为的调整参数.

2) 单独评估团队旅客方法有待完善.目前国内航空公司对于团队销售不够重视，只有厦门航空将散客销售和团队销售设立两个平行部门分开管理.航线员对团队旅客的评估和接受，不能仅凭可利用座位数来决定，也不是简单的看看有没有位子，而是需要综合评定团队旅客的申请，在此方面国内没有系统的研究方法.

[1] 王文卿.山航收益管理策略分析[D].济南：山东大学，2013.

[2] 谭斌.收益管理在航空公司价格管理中的应用研究[D].重庆：重庆大学，2003.

[3] 李霞.基于BP神经网络的销售预测研究[D].上海：上海交通大学，2013.

[4] 黄文强.基于支持向量机的航空旅客NOSHOW预测模型[J].计算机工程，2005(S1)： 15-16.

[5] 彭怀午,刘方锐,杨晓峰.基于组合预测方法的风电场短期风速预测[J].太阳能学报，2011(4)： 543-547.

[6] SCHENDARA CF. Datenqualitätmit SPSS [M]. Muchen Wien： R.OlenbourgVerlag., 2007.

[7] 周蔷,刘长有.基于博弈理论的航空机票动态定价模型[J].江苏大学学报(自然科学版)，2013(4)： 481-485.

[8] 李世琛.基于MATLAB的几类神经网络稳定性分析仿真系统设计[D].青岛：中国海洋大学，2013.

[9] 缪建洪.基于收益管理的组合预测研究[D].杭州：浙江大学，2006.

[10] 李永超.基于收益管理的复合预测研究[D].大连：大连理工大学，2013.

AnalysisonForecastingMethodofPassengerSalesinCivilAviation

XUYuefang,HUANGQi

(CollegeofCivilAviation,NanjingUniversityofAeronauticsandAstronautics,Nanjing211100,China)

The BP neural network algorithm, the support vector machine algorithm and the combination forecasting algorithm are used to predict and compare the sales data of the civil aviation team by using the regression algorithm.This article provides more accurate forecasting information for civil aviation sales people, resulting in higher route gains.The results of the analysis show that the regression algorithm is more accurate than the commonly used multiple linear regression, but the data is not reliable.Neural networks, support vector machine and combined prediction are often used to improve the predictive accuracy of commonly used regression analysis.Support vector machine prediction accuracy is slightly lower than that of neural network, but it has stronger generalization ability.Combination forecasting can avoid the error of single prediction method, and is more suitable for the actual operation of route sales staff.

civil aviation revenue management; BP neural network; support vector machine; combination forecasting algorithm

0427-7104(2017)06-0747-09

2017-07-02

徐月芳(1964—)，女，副教授，E-mail：xuyf@nuaa.edu.cn.