基于贝叶斯分类的客户分层体系

2015-01-20牛晓霞

金融经济 2014年5期

牛晓霞

摘要：本文分析了商业银行客户信息数据的基本规律，结合了贝叶斯分类的理论知识进行了数据挖掘，实现了对客户信息数据的有效利用，提出了分层营销，分层服务的理念，实现了商业银行利益最大化的营销策略。

关键词：商业银行；营销策略；贝叶斯分类；数据挖掘

一、商业银行现状

随着国内商业银行战略转型的不断深入，银行服务方面的竞争已经进入了白热化的竞争阶段。由以往规律可知，银行80%的业务主要集中在20%的客户上。高效率的利用客户资源数据、关注高价值的客户，保证这些客户可以获得特殊的服务和待遇，使这类客户成为商业银行的忠实顾客是赢得竞争的关键。目前，商业银行拥有大量的个人客户交易数据、个人客户服务数据和个人客户基本资料数据，这些海量数据，普遍只被商业银行用于统计各项指标、任务的完成情况，没有做到充分利用客户信息数据的目的，造成了数据资源的浪费。所以，在商业银行竞争白热化的今天，如何利用庞大的客户信息数据，建立合理的客户分层模式以确定营销战略是一个重要的竞争手段。

例如，某商业银行（以兰州银行为例），会不定期推出“百合理财”产品（目标人群是自有资金达到5万元以上的客户），但是“百合理财”产品有两类，其中有一类是适用于“保本型”客户，另一类是适用于“非保本型”客户。通常，商业银行对有意向购买“百合理财”产品的客户采用填写问卷的方式进行区分，分数达到21分以上的客户建议购买“非保本”的理财产品，分数不够的客户建议购买“保本型”理财产品。可以看出，这种答卷方式是机械的，不仅浪费时间，而且划分也不准确。

现在，商业银行可以结合以往经验数据，运用数据挖掘中的聚类分析技术可以从这些数据集中提取客户的属性知识。聚类分析技术可以将性质、特征近似的数据对象归属在相同的群集中。这样，会分析得出不同种类人群购买产品的特点，归纳出“保本型”和“非保本型”客户的规律，将此规律运用到以后的客户，为目标客户提供更为个性化的服务，达到提高效益的目的。由此可见，制定合理的分层营销策略对商业银行的长久发展意义重大，它关系到一个商业银行能否在极短的时间内吞吐资金，回笼客户以及银行的效益。

二、贝叶斯分类的思想

所谓分层营销就是有差别的营销，对不同的客户的投入和服务不同。通常，分层营销的基本模式为：

（1）优质系统大户、特大户——由高层营销班子负责营销（高档次特殊服务）；

（2）中等客户（含个人大客户）、区域性大户——中层营销精英负责（高层次金融服务）；

（3）小客户（含个人中小客户）——由基层营销人员负责（优质柜员服务、引导自助服务）。

从上面的分析可以，如何将大批量的客户数据划分为不同层次是进行营销的关键。通过分析客户资料数据的特点，利用贝叶斯分类的相关知识进行分类，其主要原理是通过对某对象的先验概率，利用贝叶斯公式计算出后验概率，即该对象属于某一类的概率。选择具有最大后验概率的类作为该对象所属的类。

下图1是贝叶斯分类的工作流程图：

图1 贝叶斯分类的流程图

从上图1可知，需要先构造数据、归纳属性。通过对大量的客户信息的归纳统计，商业银行的客户信息主要记录了一个客户的年龄、出生地点、性别、教育水平、健康状况、婚姻状况、职业状况、工作级别、工作年限、月薪等属性。

下表1统计了10000名购买“百合理财”客户的相关信息（以兰州银行为例），如下表1所示：

表1 客户信息数据表统计

客户号性别年龄受教育程度婚否工资水平购买类型

X1男25大专已婚4000-5000非保本型

X2女30高中未婚2000-3000保本型

X3男37本科未婚3500-4500保本型

X4女38本科已婚4000-5000非保本型

X5男49本科已婚3000-4000非保本型

……………………………………

X10000女76高中未婚2000-3000保本型

在分类的过程中，主要用到了下面4个公式，计算概率。公式信息如下所示：

先验概率

p（w1），p（w2）（公式1）

类条件概率

P（x/wi）=12πδexp（-（x-u）22δ2）（公式2）

后验概率p（wt/x）的计算，通过贝叶斯公式：

p（wi/x）=p（x/wi）p（wi）∑2i=1p（x/wi）p（wi）

（公式3）

似然比的计算：

r（x）=e-（y-u1）22 δ21

e-（y-u2）22 δ22

ω1>

<ω2

（（pw1/pw2）*sqrt（δ1/δ2））

（公式4）

利用贝叶斯的相关知识，将客户属性抽象化为不同数据，通过计算概率的方式，将不同客户进行分类，达到分层营销，分层管理，利益最大化的目标。

三、贝叶斯分类的算法实现

通常，贝叶斯分类的主要过程归纳为：第一步，数据标准化，将相应属性值转化为数字；第二步，构造贝叶斯分类模型；第三步，计算概率——聚类；第四步，根据不同的聚类结果对客户进行分层营销。本文选择10000个样本数据进行统计分析，为简单起见，选取一个属性（年龄）作为分类的特征，统计后的属性转化为相应数字如下所示：

u1=30；u2=50； %设定实验数据均值

covar=25； %设定实验数据协方差 covar（：，2）=25；

p_c=[1 1]；%两类样本数据比例

N_c=10000； %样本总数

M=length（p_c）；%高斯数据的类别数

p_c=round（p_c/sum（p_c）*N_c）； % 每一类高斯数据的样本个数

N = sum（ p_c ）；% 总共的样本个数

数据设定完毕，本文利用matlab绘制两类数据的类条件概率曲线图，如下图2所示：

图2 类条件概率图

从上图2可知，两条曲线与x轴所围区域是分类错误的数据，即上图的阴影部分。利用如下公式，计算可得10000个样本分类正确的概率。

location1=length（find（（X1-40）>0））；%统计第一类划分错误的样本数据个数

location2=length（find（（X2-40）<0））； %统计第二类划分错误的样本数据个数

total_error=location1+location2；

correct=（N-total_error）/N；%正确率计算

计算得正确率：correct=0977，分类的正确率达到了9770%，可见利用贝叶斯进行客户分类，达到了目标效果。

用公式（1-3），绘制的后验概率如下图3所示：

图3 贝叶斯分类结果

利用公式（4）计算得似然比为40，在横轴为40的地方绘制一条垂直于x轴的曲线，从上图4可知，小于40岁的客户分类为购买“非保本型”理财产品的客户，大于40岁的客户分类为购买“保本型”理财产品的客户。

四、结论

从以上探讨可以发现，随着该技术自身的不断发展，利用贝叶斯分类的数据挖掘技术在营销中的应用，正逐步成熟起来。如今，中国的商业银行竞争出入白热化的阶段，留住一个客户比发展一个客户更重要，利用数据挖掘技术提高企业的客户服务质量、发现市场、不断推出新的产品，以便将产品和服务快捷地送到客户手中，使客户感到所提供的产品和服务具有可接受性、便捷性，从而达到维持现有客户、增加新型客户和提高效益的目的，使本企业的产品严格区别于其他企业，建立适合本行发展的品牌形象，吸引和留住高价值的客户，对银行的长远发展至关重要。

参考文献：

[1] 姚木健建立分层次营销体系实施客户分层营销[J]南方金融， 2004 （11）： 43-45

[2] 谢晓林中国农业银行连云港分行客户关系管理研究[D]西安：西北大学， 2006

[3] 方安儒，叶强，鲁奇，等基于数据挖掘的客户细分框架模型[J]计算机工程， 2009， 35（19）： 251-253

[4] 林士敏，田凤占用于数据采掘的贝叶斯分类器研究[J]计算机科学， 2000， 27（10）： 73-76