基于铁路货运价值分类的客户流失预测研究

2018-04-26张斌彭其渊

铁道科学与工程学报 2018年4期

张斌，彭其渊

(西南交通大学交通运输与物流学院，四川成都 610031)

随着国家供给侧结构性改革的推进和去产能政策的实施，以大宗货物运输为主的铁路运输行业受到了一定程度的影响，加上以公路、水路、航空等其他运输市场的激烈竞争，铁路货运行业面临了较大的挑战。保证企业核心竞争力的关键是抓住客户[1]，而获取一位新客户的成本是留住一位老客户的 5~6倍[2−3]，如何对客户的流失做出预测，并及时对管理部门进行预警，从而制定有针对性的营销策略去挽留客户是企业成功的关键[4]，也是铁路货运需要解决的问题。当前电信、金融和电子商务等行业在对客户流失管理方面做了比较多的研究[5]。国外学者针对客户流失问题建立了预测模型[6−7]，并获得了一定应用效果，但铁路行业在该领域研究相对较少。研究的方法主要包括统计分析法和人工智能方法[8]，统计分析法包括决策树[9]、Logistic回归(Logistic Regression)[10]、贝叶斯分类器(Naive Bayesian Classifiers)，聚类分析(Clustering)等，传统的统计分析法擅长对定类和连续性的客户数据进行处理，但是，在处理数据量大、维度高、含有非线性关系、非正态分布、有时间顺序的客户数据时，效果不够理想。人工智能方法包括人工神经网络、自组织映射和进化学习等，具有非线性映射能力和泛化能力，但该方法主要依靠经验风险最小化原则[11]，容易导致泛化能力下降，且模型结构难以确定。因此需要根据不同行业客户流失特点，进行针对行业特征的客户流失预测方法研究。本文结合铁路货运行业特征，定义了货运客户流失识别方法，针对货运客户价值，提出了基于RFM模型的KFA货运客户模型，并基于此模型给出了货运客户价值的计算方法。之后运用k-means聚类方法对货运客户进行价值分类，并且对各类客户建立基于支持向量机(SVM)的客户流失预测模型，运用仿真数据对预测模型进行训练、测试、评估，证明该方法具有较高的预测能力、准确度和泛化能力，并且能够预测不同货运价值的客户流失群体，有利于差异性货运营销的开展，具有较高的实际应用价值。

1 货运客户流失预测模型构建

1.1 货运客户流失的定义

本文针对铁路货运特征，从客户发货情况、客户服务质量和运输市场动态3方面建立货运客户流失识别方法。客户发货情况F主要指客户在观察窗口内的发货频率；客户服务质量S主要为客户的投诉情况；运输市场动态D指客户在其他运输市场的发货情况。考虑到货运客户流失的原因主要由两方面组成，一方面是客户将货运业务转移到其他运输市场，可以通过客户在其他运输市场发货次数的增加进行判断；另一方面是由于铁路货运服务质量导致货运客户流失，这部分客户可以通过投诉情况来判断。因此本文对货运客户流失识别方法做如下定义。

定义 1：本文阐述铁路货运流失客户是指具有流失倾向的客户，也就是即将流失的客户，对于长期未在铁路货运行业办理业务的、已经流失的客户，不作为本文的研究范畴。

定义2：客户在观察窗口内发货频率F呈降低趋势，且投诉率S呈增加趋势，则判断该客户为流失客户。

定义3：客户在观察窗口内发货频率F呈降低趋势，且其他运输市场发货频率D呈增加趋势，则判断该客户为流失客户。

本文以加权平均估值和算数平均估值为基础，对客户在观察窗口内的发货频率倾向、投诉率倾向、其他市场占有率倾向进行计算，公式如下。

式中：εi代表货运客户第i+1月的货运特征γi+1与第i月的货运特征γi之间的差值，即前后 2个月之间的特征变化幅度；γ为客户的货运特征(包括发货次数F，投诉次数S，其他运输市场发货次数D)，m为观察窗口内的总月份数；σε为客户货运特征因子，表示客户货运特征的变化幅度，如果σε值等于0，表示客户在观察窗口内的货运特征是平稳的，如果σε值大于0，表示客户的货运特征是呈现上升趋势，如果σε值小于0，表示客户的货运特征呈现下降趋势。如果客户在观察窗口内，满足式(2)，则表示客户流失，流失状态为0，否则不流失，流失状态为1。

1.2 货运客户价值分类

铁路货运信息化建设经过多年的发展已经积累了近 50万家客户，为了更加充分的利用既有资源，需要对货运客户按照货运价值进行分类，对各类货运客户进行有针对性的流失预测，从而制定个性化营销策略。由于铁路货运行业具有季节波动性强、客户流动量大、单笔运费差距较大、货运收益随运距波动性强等特征，本文对RFM[12]模型进行优化，提取了客户近期发货行为表现、客户发货频率、货运收入贡献度3方面信息作为客户的细分标准，得到KFA模型，并对模型进行加权计算，从而得到客户的货运价值。

1.2.1 KFA模型

RFM 模型有 3个参数，R(Recently)，M(Monetary)和F(Frequency)，R为最近购买时间和观察点之间相隔的天数，M为观察窗口内客户购买总金额，F表示客户在观察窗口内的购买次数。KFA模型结合铁路货运特征对 RFM模型进行优化，提出优化后的 3个参数，分别为 K(近期发货行为能力)，F(发货频率)和A(货运收入贡献度)。参数K的计算公式如式(3)所示。

铁路货运客户最近发货下单时间和观察点之间相隔的天数 R值无法准确反映出客户的发货行为，本文采用R值与客户平均发货下单时间间隔T的比值K作为R的替代，如图1所示。图中可见客户在观察窗口内共发货下单 6次，所以发货频率F=6，客户平均发货下单时间间隔T=(T1+T2+T3+T4+T5)/F，R值为观察窗口结束点与最近发货下单之间的时间间隔。

本文引入货运收入贡献度A作为参数M的替换参数，该参数表示客户对铁路货运行业收入的贡献程度，由于铁路货运具有运距越长，货运收益越高的特征，所以客户总发货周转量L(发货量与发货运距的乘积)越高，其对铁路货运行业收入的贡献度越高，同样客户总的发货金额越高，其贡献度越高。本文用总货运金额M与客户总发货周转量L之间的乘积再与客户发货频率F的比值作为货运收入贡献度A，式(4)所示。

KFA模型，K值越小，表明客户价值越高；F值越大，表明客户发货频率越高，价值越高；A值越大，客户对铁路货运收入贡献度越大，价值越高。

图1 观察窗口时间线描述Fig. 1 View window timeline description

1.2.2 基于 KFA模型的货运客户价值

本文结合铁路货运特征，采用AHP，并结合德尔菲法对 KFA模型的各项指标赋予权值[ωK, ωF,ωA]=[0.18, 0.26,0.56]。从而，得到基于KFA模型的货运客户价值，如下所示：

1.2.3 基于k-means算法的货运客户细分

k-means算法是解决聚类问题的经典算法之一，也是最常用于客户细分中的算法。对于包含 n个 t维的数据集 X = { x1, x2,···,xi, ···,xn} ， xi=(xi1,xi2, xi3,· · ·,xit)指定划分为k个簇C = { Ci, i= 1 ,2,···,k}，首先随机选定每个簇的中心 δi，k-means算法通过计算剩余对象与各簇中心δi的欧氏距离，将剩余对象划分到距离最近的簇中，然后重新计算每个簇内对象之间的平均距离值，得到新的簇中心，不断重复这个过程，直到平方误差准则函数稳定在最小值或小于规定的阈值。

平均误差准则函数为：

mi为第i个簇的对象数，δi为第i个簇的中心。k-means算法的具体操作步骤如下：

1)确定聚类数k，即k个簇；2)随机选取k个簇的初始聚类中心；3)计算数据集X中的各个对象与k个初始聚类中心的欧氏距离，并将其划分到距离最小的簇中；4)重新计算新各个簇的聚类中心；5)若新的聚类中心不再发生变化，或小于规定阈值，则聚类结束得到k个分类，否则重复步骤3)和4)。

利用k-means算法对KFA货运客户模型进行分类，得到货运客户的分类结果及对应的客户价值。

1.3 货运客户流失预测模型

本文针对基于 KFA模型得到的货运客户价值分类结果，对各分类建立基于支持向量机的流失客户预测模型，从而使得货运营销部门能够获取不同货运价值客户的流失群，提供差异性营销策略，实现精准营销。

1.3.1 支持向量机原理

支持向量机(Support Vector Machine, 简称SVM)是由Vapnik和Cortes在1995年提出的基于统计学习理论的通用学习算法[13]，它基于VC维理论和结构风险最小原理，在处理非线性识别和小样本学习方面具有良好的特性，且具有良好的推广性能、泛化能力和较高的分类精确度[14]。SVM 算法在线性可分情况下，通过寻找具有最大边缘距离的最优分类超平面作为分类决策面，对样本进行分类。对于二分类问题，设样本集为(xi, yi) ,xi为输入样本， yi∈{-1 ,1},i = 1 ,2,· ··,n ，能被分类超平面f( x)= ω ·xi+b = 0 划分为2类，则SVM的本质是求解一个最优问题，如式(7)所示。式中：ω为权重向量；ξ为松弛变量；C为惩罚因子；b为偏置系数。分类时要求集合间距最大，即ω最小。利用拉格朗日乘子法求出与原问题对应的对偶问题，如式(8)所示。

解式(8)得到最优分类函数为式(9)其中：k ( xi·x)为核函数，用于在线性不可分的情况下，将原始数据从低维空间转换到高维空间，从而使用限行决策边界分割正例和负例。

1.3.2 基于客户价值分类的SVM客户流失预测

根据2/8原则中20%的客户创造80%的效益，货运客户的管理及营销工作应该将主要的资源投入到高价值客户，通过对不同价值客户进行分类流失预警，既能提高运行效率，又能得到不同价值的流失客户，从而可以制定差异性的客户挽留及营销策略。基于客户价值分类的客户流失预测操作步骤如图2所示，具体步骤如下：

1) 在测试窗口内计算货运客户的货运特征因子σε，包括发货情况因子σF、货运服务质量因子σS和市场动态因子σD；2)按照定义1，定义2和定义3，判断货运客户是否流失；3)对于流失的货运客户标示为−1，未流失的货运客户标示为 1；4)对货运客户数据进行归一化处理；5)根据货运客户数据，建立客户KFA模型，并计算客户的货运价值；6)根据货运客户实际情况，结合铁路货运特征，确定分类数量，并运用k-means聚类方法对KFA模型进行价值分类；7)对各类货运客户建立基于 SVM 的客户流失预测模型。首先划分各类客户的训练集和测试集；8)运用各类货运客户的训练集建立 SVM 客户流失预测模型；9)运用各类货运客户的测试集对建立的SVM客户流失预测模型进行评估，确定预测能力和准确性。

图2 基于客户价值分类的客户流失预测操作步骤Fig. 2 Customers churn prediction steps based on the customer value segmentation

1.3.3 流失预测模型评估标准

混沌矩阵反映了模型的预测效果，是构建模型评估指标的基础[15]。客户流失模型预测结果的混淆矩阵如表1所示，其显示了在真实和预测2个维度上货运客户流失模型预测结果分类，本文在此基础上，引入模型预测准确率、命中率、覆盖率、提升系数作为评价标准，其定义如(10)~(13)所示。模型预测准确率为模型整体预测能力；命中率表示正确识别流失客户数占预测为流失客户总数的比例；覆盖率表示正确识别流失客户数占实际流失客户总数的比例；提升系数表示与不利用模型相比，模型预测能力的提升程度。

表1 客户流失模型预测结果混淆矩阵Table 1 Prediction of customer churn model confusion matrix

2 仿真求解及分析

2.1 仿真数据

本文随机抽取 2016年全国铁路货运数据、投诉建议系统数据作为仿真数据，并采用市场调研、问卷走访等方式，同时运用网络爬虫技术获取货运客户在其他运输市场的动态数据，共计 4 839 481条。通过对原始数据进行清洗，包括过滤无关数据、清除非法数据、删除重复及非法数据，同时为了使实验更具有针对性，本文剔除了观察窗口内发货次数少于3次，且单笔发货量小于20 t的零散客户，得到3 389 283条数据，其中包括铁路货运客户发货时间、发货次数、货运金额、发货周转量、投诉建议时间、投诉建议次数、铁路货运客户在其他运输市场的发货情况等信息，可以用于判定客户的流失状态，并建立客户的KFA模型，从而计算客户的货运价值信息。

2.2 模型实现

本文借助 Windows10操作系统，采用 Matlab R2014a平台，使用LibSVM3.22工具箱对铁路货运客户仿真数据进行客户价值分类及SVM客户流失预测建模。通过对仿真数据进行整合计算，并按照货运客户的流失定义对数据进行计算。为了分析不同的观察窗口期内数据及仿真实验的差异，本文采用 2016−01~2016−06(观察窗口 1)和 2016−07~2016−12(观察窗口 2)2个观察窗口进行对比，其中观察窗口1内获取8 873家货运客户，其中包括流失客户983家，非流失客户7 890家。观察窗口2内获取8 912家货运客户，其中包括流失客户922家，非流失客户7 990家。运用AHP和德尔菲法，确定货运客户价值分类中k-means算法的聚类数量为5 类，分别为黄金客户、大客户、高价值客户、可维护客户和低价值客户。SVM算法对仿真数据随机抽取70%作为训练数据，另外30%的仿真数据作为测试数据，选择径向基(RBF)作为SVM的核函数，由于惩罚因子C通过在确定的特征空间中调节模型的置信范围和经验风险比例来调节模型的推广能力[8]，RBF核函数参数gamma的取值直接影响模型的分类精度，所以通过多次试验和调整，对不同价值分类客户设置优化的惩罚因子C和参数gamma。

2.3 仿真结果及分析

通过对不同观察窗口的仿真数据进行基于KFA货运客户价值模型的k-means分类，得到货运客户价值分类结果，如表2和表3所示。

表2 货运客户价值分类结果(观察窗口1)Table 2 Freight customer value segmentation results (Watch window I)

表3 货运客户价值分类结果(观察窗口2)Table 3 Freight customer value segmentation results (Watch window II)

从分类结果可以看出在观察窗口内，黄金客户数量最少，分别为7.855 3%和8.000 4%，其具有最高的发货频率，最高的铁路货运收入贡献度，且客户流失率最低，分别为4.591 1%和4.908 8%，并且其客户价值也最高，是铁路货运的核心客户。

大客户在观察窗口内分别占比 16.589 7%和16.999 5%，其具有较高发货能力，发货频率也在所有货运客户中相对较高，但是对铁路的收入贡献度相对较低，客户流失率相对较低，分别为7.948 4%和8.118 8%。这类客户也属于对铁路货运依赖度较高的客户群体，对于这类流失客户，需要铁路货运部门投入主要精力寻找并分析客户流失原因，争取流失客户的回归。

高价值客户在观察窗口内分别占比30.992 9%和27.996 0%，其在KFA各项指标中都处在均衡的状态，客户流失率也处在中间位置。这类客户主要由铁路货运的长期客户组成，具有较强弹性，需要铁路货运部门投入更多的精力和资源，提供优质的服务，做好营销工作，建立通畅的沟通机制，并监控市场其他运输方式的动态，随时做好应对工作。

可维护客户在观察窗口内分别占比16.995 4%和 17.998 2%，客户流失率达到了 12.997 3%和12.531 1%，其表现为发货频率和发货倾向较低，但其对铁路货运收入贡献度较高，且面临较大的流失风险，部分客户需要铁路货运部门对其做好营销工作，找到客户流失的原因所在，努力争取客户的支持和信任。

低价值客户在观察窗口内分别占比27.566 7%和29.005 8%，客户流失率达到13.368 8%和13.075 4%，其在KFA各方面指标都很低，这类客户的价值和潜力都较低，且流失可能性最大，铁路货运部门可在货物受理等环节加强与客户的沟通和宣传力度，争取低价值客户的稳定性。

2个观察窗口的客户细分结果相近，说明模型泛化能力较好，观察窗口2中黄金客户、大客户和高价值客户3类客户KFA模型中K和F参数及客户价值P较观察窗口1种略高，说明这3类货运客户在 2016−07~2016−12 月份发货行为相对2016−01~ 2016−06 比较活跃。

各类货运客户数据分别设置优化过的SVM参数，包括惩罚因子C和RBF核函数参数gamma，通过对不同观察窗口的仿真数据进行训练和测试，得到SVM客户流失预测结果，如表4和表5所示。从预测结果可以看到SVM在客户流失的二分问题上具有较高的准确率，拟合精度高，不同观察窗口的实验数据比较接近，说明模型具有较强的泛化能力，并且通过提升系数可以证明SVM客户流失预测模型具有较强的预测能力。另外，对货运客户按照分类进行SVM预测，减少了样本数量，可以对不同分类进行SVM关键参数的调优，与整体进行SVM 预测相比准确率较高，且命中率也得到了提升，有利于对高价值流失客户进行精准定位。

表4 货运客户流失SVM预测结果(观察窗口1)Table 4 SVM prediction results of freight customer churn(Watch window I)

表5 货运客户流失SVM预测结果(观察窗口2)Table 5 SVM prediction results of freight customer churn(Watch window II)

3 结论

1) 本文结合铁路货运特征及当下运输市场整体情况，提出了货运客户流失识别方法，并充分考虑铁路收益与发货运距成正比的特点，引入发货周转量，对 RFM模型进行优化，建立基于货运客户价值的KFA模型，并采用k-means聚类算法对货运客户进行价值分类，从分类结果可以看出价值越高的客户，流失率越低，且客户数量也相对较少。

2) 在客户价值分类的基础上，对各类客户建立基于SVM的客户流失预测模型，对不同类的预测模型经过多次实验，设定优化的SVM关键参数，仿真结果证明采用SVM建立客户流失预测模型具有较好的预测能力，在准确性和提升能力等方面都相对整体客户样本预测有更好的效果。

3) 通过对不同观察窗口的数据进行仿真实验，发现不同实验窗口的数据差异性不大，说明货运客户价值模型KFA及基于SVM的客户流失预测模型具有较强的泛化能力。

4) 按照客户货运价值分类进行客户流失预测对货运部门更加有针对性，有利于铁路货运部门制定差异化流失客户挽留策略，完善营销策略，实现精准营销。

参考文献：

[1] 周新军. 客户关系管理引入铁路货运服务的理论与实践[J]. 铁道货运, 2008, 26(12): 25−28.ZHOU Xinjun. Theory and practice for using customer relation management in railway freight services[J].Railway Freight Transport, 2008, 26(12): 25−28.

[2] Athanassopoulos A D. Customer satisfaction cues to support market segmentation and explain switching behavior[J]. Journal of Business Research, 2000, 47(3):191−207.

[3] Bhattacharya C B. When customers are members:customer retention in paid membership contexts[J].Journal of the Academy of Marketing Science, 1998,26(1): 31−44.

[4] Jones T O, Sasser W E. Why satisfied customers defect[J].Harvard Business Review, 1995, 73(6): 88−99.

[5] 于小兵, 曹杰, 巩在武. 客户流失问题研究综述[J]. 计算机集成制造系统, 2012, 18(10): 2253−2263.YU Xiaobin, CAO Jie, GONG Zaiwu. Review on customer churn issue[J]. Computer Integrated Manufacturing Systems, 2012, 18(10): 2253−2263.

[6] Mozer M, Wolniewicz R H, Grimes D B, et al. Churn reduction in the wireless industry[J]. Advances in Neural Information Processing Systems, 1999, 117(12): 925−941.

[7] Lemmens A, Croux C. Bagging and boosting classification trees to predict churn[J]. Journal of Marketing Research, 2006, 43(2): 276−286.

[8] 夏国恩, 金炜东. 基于支持向量机的客户流失预测模型[J]. 系统工程理论与实践, 2008, 28(1): 71−77.XIA Guoen, JIN Weidong. Model of customer churn prediction on support vector machine[J]. System Engineering Theory and Practice, 2008, 28(1): 71−77.

[9] Chih P W, Chiu I T. Turning telecommunications call details to churn prediction: A data mining approach[J].Expert Systems with Application, 2002, 23(2): 103−112.[10] Kim H S, Yoon C H. Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market[J]. Telecommunications Policy, 2004, 28(9): 751−765.

[11] 叶良. 数据挖掘技术在证券客户关系中的应用[J]. 计算机仿真, 2009, 26(12): 270−273.YE Liang. Data mining technologies in the security customer relationships[J]. Computer Simulation, 2009,26(12): 270−273.

[12] Hughes A M. Strategic database marketing[M]. Chicago:Probus Publishing Company, 1994.

[13] Vapnik V N. The nature of statistical learning theory[M].New York: Springer Verlag, 1995.

[14] 赵宇, 李兵, 李秀, 等. 基于改进支持向量机的客户流失分析研究[J]. 计算机集成制造系统, 2007, 13(1):202−207.ZHAO Yu, LI Bing, LI Xiu, et al. Customer churn analysis based on improved support vector machine[J].Computer Integrated Manufacturing System, 2007, 13(1):202−207.

[15] 贺本岚. 支持向量机模型在银行客户流失预测中的应用研究[J]. 金融论坛, 2014, 225(9): 70−74.HE Benlan. A study of the application of SVM in prediction about decrease in bank’s customers[J]. Finance Forum, 2014, 225(9): 70−74.