基于RFM模型的随机森林算法对民航客户的流失分析

2021-01-27寇勇刚

计算机与现代化 2021年1期

杨琳,白钊,寇勇刚

(1.中国民用航空飞行学院机场工程与运输管理学院,四川广汉 618307;2.深联公务航空有限公司,广东深圳 518000)

0 引言

从近几年民航局发布的数据来看，航空公司客户流失率每年都高达30%，而且还在持续增长，导致航空公司的市场占有率降低，收益也受到影响。航空公司为了保有其在市场中的占有率，过去采取的策略是通过打价格战的方式来吸引新客户,不仅耗费了企业的运营成本，还忽视了对存量客户必要的关怀及维护。以往研究表明，开发新客户的成本是维护现有客户成本的5～6倍[1]，另一方面，流失的成本对航空公司也构成了巨大的利益损失。因此，面对客户流失产生的负面影响，维系现有客户比开发新客户更有效。企业不能再仅仅是开发新客户，也要留意对现有客户的关心及维护，提升现有客户的忠诚度，这样才能持续提高企业的效益。由于航空行业存在特殊性，消费的终止不能够完全地定义航空公司客户的流失，航空客户流失的定义应该更广泛。因此，怎样将客户流失率降低成为航空公司管理的重中之重。应维云[2]将随机森林方法用于银行的客户流失预测中，证明算法比传统的预测算法的精度要高。丁君美等人[3]将改进的随机森林算法用于电信业的客户流失预测中，证明有更高的精度。崔亚琦[4]基于C5.0算法对航空客户进行流失分析，得到较好的准确性和预测性。但国内尚未有学者将随机森林算法应用于航空客户的流失预测中。本文将RFM模型与随机森林算法相结合，用于客户流失率预测，并将随机森林算法与其他算法进行比较，实验结果显示这一模型用于航空客户流失率的预测中是有效的。最后将流失的客户进行分类，得出客户流失的原因，为民航企业挽留客户提供可靠的依据。

1 民航企业RFM模型

RFM模型是在不同的客户行为的条件下，对客户价值评估所应用的模型中最广泛的一种。RFM模型通常定义的3个指标是消费时间(Recency)、消费频率(Frequency)、消费金额(Monetary)，并用这3项指标来量化客户价值[5-6]。以客户的行为为依据来判断该客户为企业所带来的实际价值，以动态的方式显示一个客户的全部轮廓[7]。该民航企业的RFM模型满足如下假设：近期购买过机票的客户再次为企业创造价值的概率大于近期没有购买过机票的客户，对企业提供即时的商品或是服务的反应程度也更灵敏；近期乘坐飞机次数高的客户为企业再次创造价值的概率高于近期乘坐飞机次数低的客户，消费频率高的客户忠诚度也更高，通过增加顾客的消费次数来降低竞争对手的市场占有率；由于消费金额在民航企业的直接体现为飞机总里程，所以飞机总里程数较高的客户再次为企业创造价值的可能性较高[8-9]。因为航空公司的票价受到飞行距离和舱位不同等级的影响，同样的票价对航空公司的价值有可能不同。再者，航空公司会员的入会时间长短也会在客户价值中产生一定的影响。由于航空客户的消费金额受飞机里程、促销活动等多种不同因素的影响，在同样的消费金额下不同的航空客户对航空公司的价值是不同的，因此传统RFM模型的消费金额这个指标用于航空公司客户价值分析并不适合[10]。本文基于传统意义上的RFM指标，将航空客户在观测窗口内的平均折扣系数C指标代替原有模型中的消费金额M，由于航空公司的会员机制，入会时间的长短也会在客户价值中产生一定的影响，所以在传统的RFM模型中增加了客户入会的时间长度L，作为客户分类的另一分类指标。最终，本文确定了民航企业的RFM模型的5大指标，分别为：L(旅客入会的时间长短/日)、R(客户最后一次的消费时间至截止统计数据的时间间隔/日)、F(特定时间内旅客的飞行次数/次)、M(一定时间内积累的飞行里程/km)、C(舱位所对应的平均折扣)，利用随机森林算法进行客户流失预测分析。

2 随机森林

随机森林是将多棵树集成的一种算法，决策树为随机森林的基本单元，而它的本质是集成学习的方法。集成学习方法属于机器学习的一大分支[11]，多应用在数据有缺失、空白或挖掘其他数据价值时，在预测或降低客户流失率中该算法的适用性及优越性都比一般的传统算法更好[12]。随机森林采用从N个样本中允许重复抽取N个样本生成的非剪枝的决策树模型的集合[13]。从所有属性(所有属性个数为p)中随机选择m(m可设为p，或用交叉验证选择m的大小)个属性生成每棵树的每个节点，划分信息增益最大的属性，从而得到非剪枝的CART决策树(分类回归决策树)[14-16]。按上述构建方法，构造k颗树，将决策树集中在一起生成随机森林，将随机森林的分类结果进行整合后输出客户流失概率。由于先用随机方法抽取训练样本，再随机选择m个分类属性，随机森林不会产生过拟合现象[17-18]。

随机森林bagging的算法过程如下：

1)采用bootstraping方法(自助法)在最初样本集中随机抽取n个训练样本，通过k轮抽取得到k个训练集。其中k个训练集之间的关系是相互独立的，元素可以有重复[19]。

2)在k个训练集中训练k个模型，一般这个模型为CART算法分类决策树。

3)k个模型产生的结果，得出最终可能的概率。

划分属性为s，划分值为v，划分后的节点为t，左节点s

(1)

采用不同属性划分信息增益得到的Gini值增益为：

(2)

其中，给定节点的Gini值为Gini(·)，与子女节点相关联的记录个数为父节点的记录总数，记为n，Gini值最大的划分为最好的划分[21]。式(2)计算增益时每个Gini(parent)值都一样，因此不予讨论，只对比求和项，用Δ表示如下：

(3)

将式(1)代入式(3)得：

根据计算得到的Δ作为划分子节点的依据，由此生成一颗决策树。

3 基于改进RFM模型随机森林实证分析

3.1 数据获取

本文从某航空公司的民航订票系统中提取了12110名会员从2019年1月1日至2019年6月30日半年间的订票记录，其中包含会员编号、性别、年龄、会员卡级别、起飞城市、到达城市、舱位等级、票价、折扣、入会时间等数据。

由于Excel对抽取量较大的数据处理起来较为困难，本文利用Spss数据处理软件对数据量较大的数据集进行预先处理，统计计算所需的指标数据,并按照常旅客的会员编号进行归类。整理所得的具体数据字段如表1所示。

表1 实证分析数据字段

3.2 数据预处理

本文的数据以2019年6月30日为结束时间，选取宽度为半年的时间段(2019年1月1日至2019年6月30日)，作为观测窗口，形成最终的数据集，数据集包含了抽取观测窗口内的所有常旅客的详细数据。数据清理主要包含丢弃票价为空的数据；丢弃票价为0、平均折扣率为0、总飞行公里数为0的数据。清理后的有效数据为10024条。对应改进的RFM模型中的5个指标L、R、F、M、C分别为：L=LODA_TIME-FPP_DATE(数据获取截止日期-客户入会日期)、R=LOAD_TIME-LAST_FLIGHT_DAY(数据获取截止日期-最后一次乘机时间)、F=FLIGHT_COUNT(观测窗口内的乘机次数)、M=SEG_KM_SUM(观测窗口的总飞行里程)、C=AVG_DISCOUNT(平均折扣率)。

其中已知已流失的客户数量为3276个，未流失的客户数量为6748个，该航空公司已流失的客户达到了32.7%。本次研究将处理好的数据随机拆分为2个部分，包括用于训练模型的数据为70%，用于验证模型的数据为30%。表2为部分处理后的数据。

表2 客户信息

3.3 随机森林方法的实现

本实验利用十折交叉验证法，其中指标选择为旅客乘机的平均折扣率、总飞行里程、半年内的乘机次数、入会的时间长、最后一次乘机时间距获取数据截止日期的时长。对有效数据进行预处理后，采用随机森林属性检测方法对数据进行分析，通过参数调试，确定mtry为2，Ntree为820为最优参数，使用ROC曲线以及AUC的值评估模型的性能。本实验结果的AUC值为0.920，同时得出MDA(Mean Decrease Accuracy)值和MDG(Mean Decrease Gini)值如表3所示，ROC_AUC曲线如图1所示。

表3 基于改进RFM模型随机森林重要性检测结果

图1 ROC_AUC曲线

对客户流失进行预测的其他方法也有很多，为了验证本文算法的有效性，本文将随机森林算法与逻辑回归、人工神经网络、CART决策树、ID3算法、C5.0算法等算法进行比较，结果如表4所示。

表4 不同算法模型表现

由表4可知，随机森林的ROC_AUC的得分最高，为0.92，相较于逻辑回归、人工神经网络算法、ID3算法以及C5.0算法都提升不少，并且准确率也达到6种方法中的最高值87.0%，模型的评价较好，可满足流失客户预测的要求。

3.4 客户流失的重要性分析

随机森林中的平均降低精度(Mean Decrease Accuracy)和基尼指数(Mean Decrease Gini)是衡量变量的2个最重要的指标[22-23]，若数值越大，变量越重要。对流失客户的5个指标进行重要性检测，得到的重要性可视化结果如图2所示。

图2 重要性可视化

从平均降低精度与基尼指数来看，在流失客户中，最重要的因素为飞行总里程数，其次为最后一次乘机时间距离观测窗口结束的时长、平均折扣率。平均降低精度中影响最低的因素为会员长度，其次为飞行次数；基尼指数中影响最低的因素为飞行次数，其次为会员的长度。

根据对平均降低精度与基尼指数进行分析后，得出影响客户流失较为重要的因素为飞行总里程数，最后一次乘机时间距离观测窗口结束的时长以及平均折扣率，影响较低的因素为飞行次数以及会员的长度。

3.5 结果分析及建议

将流失客户的数据进行归一化处理，并利用K-means算法对已流失客户的L、R、F、M、C这5个指标进行分析，通过肘部法确定了最佳的聚类个数为4个。客户分类的结果如表5所示。客户特征雷达图如图3所示。

表5 客户分类表

图3 客户特征雷达图

从分类结果可知，第2类流失客户群与第4类流失客户群所占的人数较多，从特征雷达图中可以看出，第2类流失客户群入会时间较短，最后一次乘机时间距离观测窗口结束时长较长，而飞行总里程、平均折扣率、与飞行次数都较少，说明这类客户属于冲动消费型客户，对于这类客户航空公司应该进一步了解客户的需求，推出一些折扣机票吸引这些客户回头进行多次消费。第4类流失客户群入会时间较长，但最后一次乘机时间距离观测窗口结束时长也较长，飞行次数、飞行总里程数及平均折扣率都较低，这些客户已经长时间没有选择过该航空公司的产品以及服务，对于这些有偏好基础的客户，可以向其提供折扣力度较大的机票，促使这类客户在本公司消费或在合作伙伴处消费，达到与合作伙伴互利共赢的目的，同时也能挽回已流失的客户。

4 结束语

本文利用某航空公司的客户数据实现流失客户的预测。将不同的客户流失预测模型表现进行对比与分析，提出了在RFM模型的基础上使用随机森林算法，与一般的随机森林模型对比，基于RFM模型的随机森林算法拥有数据处理耗时短，可筛选出有意义的评价指标，算法速度快、效率高、准确度高等优点，而民航客户数据往往具有变量多、噪声复杂且数据容易出现缺失与空白等特点，使用随机森林算法的预测模型，对民航客户流失预测的实际应用参考价值较大。对已流失的客户进行聚类分析，为航空公司挽回客户提供了相对应的策略。

本文的不足在于航空客户数据覆盖范围具有一定局限性，用于实证分析的数据相对于现在的民航客户数据还较少。并且，虽然在RFM模型的基础上使用随机森林算法的客户流失预测模型在预测效果上有一定提升，耗时也相对较短，但准确率以及精度还有待提升，可考虑将随机森林算法与其他不同模型进行融合，使模型得到更好的评价。