APP下载

大数据背景下商业银行贵宾客户流失的组合预测研究

2019-09-10卢美琴吴传威

电子商务 2019年6期
关键词:大数据

卢美琴 吴传威

摘要:银行同业对高端客户的争夺日趋激烈,互联网金融凭借其高收益的优势也对高端客户形成分流,因此建立贵宾客户流失预警模型对于银行的生存发展意义重大。结合我国商业银行业务现状,综合运用决策树分析、支持向量机、贝叶斯网络等方法,分别创建流失预警子模型,再利用神经网络对三个预警子模型的结果进行组合,生成组合预测模型。实证表明,组合后的模型在准确率、覆盖率、命中率、提升度等指标上都有明显优化。

关键词:大数据;组合预测;贵宾客户;客户流失

引言

随着国内外经济环境出现重大变化,我国商业银行的经营形势发生着天翻地覆的变化。金融脱媒和互联网金融造成银行的风险和营运成本上升,利率市场化导致银行利差大幅缩窄,M2增速下降引发银行资产增速下降。信用风险、息差缩窄、资产增速下降对银行利润造成了重大影响。越来越多的商业银行将经营重心转向零售业务,高端个人客户成为竞争焦点。经济新常态和监管趋严背景下,大力发展零售业务成为众多银行的必然选择。

统计分析表明贵宾客户在银行业务中的作用符合帕累托定律,即20%的贵宾客户起到了个人客户总体80%的利润贡献度。贵宾客户具有综合维护成本低、贡献度大等特点,对银行的经营起到至关重要的作用,是银行业务发展和收入的重要来源。然而,随着供给侧改革升级,贵宾客户对金融服务的要求进一步提高,互联网金融企业的冲击等因素导致银行贵宾客户群体的粘性下降,流失倾向变强。客户流失在增加营销新客户费用的同时还会对企业形象造成负面影响。客户流失对银行业利润有着重大的影响,研究表明客户流失率减少百分之五,利润却可以增长三到八成。挽留老客户的难度是营销新客户的16倍,而代价却仅为1/5~1/7。因此,有效预测客户流失概率是防止客户流失的前提,对银行提升经济效益和实现可持续发展具有重要意义。

国内外学者对客户流失原因、流失预测和挽回措施等方面进行了大量的研究,研究方法包括统计学、机器学习和数据挖掘等模型,取得了较好的成果。如李洋[4]使用神经网络构建客户流失预测模型;王未卿等通过单因素分析和逐步判断分析来识别对客户流失的影响因子,并使用Cox模型来进行对客户流失的预测;Prasad和Madhavi[51分别用CART和C5.0算法对商业银行客户流失情况进行了研究;贺本岚[6]对logistic回归模型、线性SVM、径向基SVM在商业银行客户流失预测中的有效性进行了比较,结论认为线性SVM可以取得比较好的效果。

通过对现有研究的比较可知,各种方法均有其优点和缺点:贝叶斯方法有较强的数学理论支持,但是很难获取先验知识;神经网络预测准确率高,但其网络结构的黑箱性导致其难以提取业务规则;支持向量机SVM在解决小样本问题有明显优势,但在实际商业大数据的处理上所需资源较大;决策树分类算法容易提取业务规则,但预测精度往往不如神经网络。从已有银行客户分析研究可以看出,现有研究缺乏针对贵宾客户群体的流失研究,因此对贵宾客户群体流失问题进行研究具有现实意义,并且由于银行贵宾客户流失是一个受经济环境、文化和政府监管等多种因素影响的非线性问题,单一模型往往难以兼顾流失的各个方面,因此,针对贵宾客户建立流失组合预测模型,综合利用各种预测模型的优点,对提高银行客户流失预测准确率有显著作用。

综上所述,提高客户流失预测准确性、降低贵宾客户流失率对银行的稳定经营和可持续发展具有重要意义。本文探讨综合利用多种预测方法构造贵宾客户流失组合预测模型,提前定位可能流失的客户,帮助银行更好地进行贵宾客户关系管理,并对某商业银行某分行客户数据进行实证分析。

1、理论基础

1.1决策树

决策树是在已知事件发生概率的基础上,通过构造树对待分类样本进行评价的方法。算法如下:

设D为样本集合,|D|为样本数量,Ci,i∈{..n}为类别属性i的类别集合,使用属性A对D进行划分,则对应的信息熵由以下公式計算得出:

信息熵越小,表示属性A划分效果越好。

C5.0是决策树的商业版本,在运行效率和内存占用,上的优势使得其在现实商业环境中得到广泛应用。

1.2支持向量机

支持向量机(SVM)是Vapnik等人在90年代提出的,旨在寻找一个超平面对二分类进行划分,使得分类错误最小化的模型

定义数据集为(x;y),i=1...n,x;为输入,y;为输出。在高维特征空间中寻找分类函数:

w为权重,b为偏置。

求解最优分类面的问题可转化为:

求解其对偶问题,则可得线性最优分类决策函数:

1.3贝叶斯网络

贝叶斯网络又称为信度网络,是一种基于概率推理的图形化网络,是Bayes方法的扩展。贝叶斯网络由代表变量的节点、代表相互关系的边以及条件概率表示的关联强度构成的有向无环图。贝叶斯网络具有很强的不确定性问题处理能力,因此近年来在统计分析、数据挖掘等领域得到广泛使用。

1.4RBF神经网络

人工神经网络(ANN)以其强大的非线性映射能力、自适应和容错性得到了广泛的应用。Powell提出的径向基函数(RBF)网络是一种三层前向网络,有效避免了BP神经网络的局部极值问题,且学习收敛速度快,因此经常被应用于非线性函数的模拟中。

2、银行贵宾客户流失组合预测模型

商业银行的贵宾客户流失涉及的因素很多,并且数据来源多样,数据属性也很复杂,甚至一些属性间存在相关关系。因此,对于一个非线性、非对称、多属性的流失预测问题,采用单一的预测模型其效果难以达到要求。学术界针对此类问题通常使用组合模型的方法,即按照某些规则将多种预测模型进行组合,综合利用各种模型的优点,以提高预测的有效性。

通过对常用预测模型特性的评价对比,本文选择线性支持向量机LSVM、决策树C50及贝叶斯网络作为子分类器来进行组合预测模型的构建,如图1。

2.1模型构造

利用组合模型进行银行贵宾客户流失预测的步骤如下:

(1)数据预处理:对原始数据进行属性规约、转换等预处理,将数据集按1:1比例划分为模型训练数据集和模型验证数据集;

(2)构建各个子分类器模型:使用LSVM、决策树C50、贝叶斯网络等模型分别对模型训练数据集建模;

(3)利用各子分类器得出预测结果:整理训练数据集在三个子分类器的预测结果;

(4)构建组合预测模型:将三个子分类器的预测结果作为RBF神经网络的输入,实际流失结果作为输出,对RBF神经网络进行建模,由此得出基于LSVM、决策树、贝叶斯网络组合的RBF神经网络模型;

(5)利用组合预测模型计算客户流失结果:对模型验证数据集分别计算其LSVM、决策树、贝叶斯网络的预测结果,作为RBF神经网络模型的输入,最终得出组合模型计算出的预测结果。

2.2模型评价

为验证组合模型的有效性,使用如下指标对预测结果进行评价:

Tab.1Predictionevaluationindex

流失覆盖率=A/(A+B)

预测准确率=A/(A+C)

模型总体准确率=(A+D)/(A+B+C+D)

提升系数=预测准确率/实际客户流失率

流失覆盖率表示模型定位到实际流失客户的比例;预测准确率表示被模型标记为流失,其中实际为流失客户的比例;模型总体准确率反映的是模型对实际流失非流失客户的预测能力;提升系数反映了使用预测模型跟不使用预测模型的效果差异,本文将综合采用上述4个指标来评价预测模型的有效性。

3、实证分析

3.1数据来源

根据研究目的,本文对贵宾客户定义如下:年日均资产在10万以上的客户。

贵宾客户流失定义如下:贵宾客户在(T-2,T-1,T)期间的月日均资产在10万以上,并且在年日均资产50%以上,(T+1,T+2,T+3)三个月中日均资产流失达90%以上,且随后三个月未回复,确认为流失。

数据来源于某商业银行某分行数据仓库,经过数据清洗及处理,共得到275.83万条完整客户数据,按照以上贵宾客户流失定义,流失率为2.57%。将数据集按50%:50%比例切分成训练集和验证集,分别用于模型训练和模型有效性验证。

3.2预测指标筛选

影响银行贵宾客户流失的因素很多,但在实际中受限于数据来源,可获得的客户属性相对有限,不同属性对客户流失的相关性所有区别,且属性之间还可能存在重复信息需要进行约简。根据银行实际数据可获得性,并参考以往研究,本文选取了50个初始指标。进一步对这些指标影响客户流失的重要性进行检验,并排除指标间的信息重复,具体步骤如下:一,计算每个指标与客户流失的相关性,剔除相关性较弱的指标;二,对其余指标按相关性从大到小排序,并删除与当前指标相关性大的指标,以此消除重复信息。

本文使用Pearson系数来度量指标间的相关性。Pearson系数的取值为[一1,1],绝对值越大,表明相关性越强(负数表示负相关),值为零表示不相关。对初始指标进行Pearson计算及去除信息冗余后,最终得到15个特征变量用于构建预测模型,涉及客户自然属性、账户及产品签约属性、交易行为特征属性等方面。

3.3预测效果分析

使用数据挖掘软件SpssModeler18实现各子模型及组合模型。从组合模型对验证数据集的预测结果来看(见表3),从总体准确率、流失覆盖率、预测准确率、提升系数等指标可以看出,组合预测模型的性能均有不同程度的提高,显示出组合模型对于各子分类器来说有明显优势。由此可知,本研究设计的多算法组合模型可以有效识别客户流失倾向,满足银行业关于贵宾客户流失预警的需求。

4、结束语

随着经济形势及行业竞争状况的变化,维系贵宾客户,防止贵宾客户流失已经成为商业银行的工作重点。本文对贵宾客户的流失影响因素进行识别,并以此为基础构建贵宾客户流失预测模型对潜在流失客户进行识别;针对银行贵宾客户流失问題复杂非线性,使用单一模型难以取得较好效果的特点,通过使用RBF神经网络对LSVM、决策树、贝叶斯网络预测结果进行组合,明显提高了预测的效果;通过对实际客户流失数据的验证,表明本文提出的思路可以成为银行进行客户关系管理的有效选择。

参考文献:

[1]贺本岚.支持向量机模型在银行客户流失预测中的应用研究[J].金融论坛,2014(9):70-74.

[2]王未卿,姚娆,刘澄,等.商业银行客户流失的影响因素[J].金融论坛,2014(1):73-79.

[3]肖进,刘敦虎,贺昌政.基于GMDH的“一步式”客户流失测集成建模[J].系统工程理论与实践,2012,32(4):808-813.

[4]李洋.基于神经元网络的客户流失数据挖掘预测模型[J].计算机应用,2013,33(S1):48-51.

[5] PRASAD D,MADHAVI S. Prediction of churn behaviorof bank customer customers using data mining tools[J].Business Intelligence Journal, 2012,5(1):96-101.

[6]贺本岚.支持向量机模型在银行客户流失预测中的应用研究[J].金融论坛,2014(9):70-74.

[7]洪丽平,覃锡忠,贾振红.基于后验概率支持向量机在客户流失中的预测[J].计算机工程与设计,2016,37(2):430-432.

[8]罗彬,邵培基,罗尽尧,刘独玉,夏国恩.基于粗糙集理论-神经网络-蜂群算法集成的客户流失研究[J].管理学报,2011(2):265:272.

[9]卢美琴,吴传威.商业银行贵宾客户流失预测研究[J].福建商学院学报,2018(02):31-36.

[10]王红武,朱绍涛,蔡海博.基于决策树算法的上市公司股东行为研究[J].数理统计与管理,2017,36(1):139-150.

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索