基于聚类算法的金融客户购买行为

2015-01-02滕毅陈丽君朱和胜

环球市场信息导报 2015年35期

文|滕毅陈丽君朱和胜

基于聚类算法的金融客户购买行为

文|滕毅1陈丽君2朱和胜3

为了提高邮政金融网点的营销能力，为营销经理提供精准营销的依据，本文采用数据挖掘的方法针对金融客户的购买行为进行分析，找出购买各类金融产品的客户群体特征。本文对广东邮政某金融网点的客户数据进行了采集并建立起统一视图，然后采用K-means聚类算法对客户数据进行聚类分析，所选用聚类属性是按照当前客户的各类金融产品的百分比进行分析，并且将算法的结果结合客户的基本属性对所有金融客户进行细分，并针对某些共性的客户进行精准的产品推荐。

入世之后，银行业内的竞争越来越激烈，如今银行的核心竞争力已经转化为对优质客户的竞争和抢夺。在新经济的规模和特征下，银行业对数据中心及客户分析的需求已经形成。

兴业银行已经通过对还款数据的分析比较区分优质客户，根据客户还款数额的差别，提供差异化的金融产品和服务方式。以兴业证券为例，通过盈利率数据分析对客户进行分类，分析出适合开发或营销的目标客户群，市场团队根据分析结果采取针对性策略拓展客户，成功率提高30% 以上。

2012 年，平安旗下各专业公司将陆续正式加入央行征信系统。征信系统的核心在于数据采集，数据样本越大，规律性更强，价值也更大。平安集团有7400 万客户，这些个人信息数据累积起来，对于平安创新互联网金融，将起到关键的作用。

当前邮政代理金融客户中，3.6%的客户占了80.5%的资产，7.6%的客户占用了17%的资产，88.8%的客户占用了2.5%的总资产。如果忽略不同资产类型带来的收益率的不同，3.6%的客户为邮政代理金融收入的80.5%。然而，我们目前针对这80.5%的客户只有两个细分群体，就是金卡客户和钻石客户，且该细分群体除了资产级别之外，不带有任何关于客户个人喜好、行为等的分群，这显然对于我们维护客户关系是存在很大弊病的。

客户细分是了解客户进行市场细分和目标市场营销的前提。准确的细分市场和差异化营销策略是目前企业市场营销所必须面临的难题。数据挖掘的分类和聚类的方法都可应用于客户分群。本项目采用聚类方法指导客户分群，为邮政金融市场营销的客户分群提供完整的解决方案，并以实际案例验证其可行性。

问题定义。本文某市某金融网点的客户数据，根据客户的基础信息以及客户金融产品购买情况进行分析、聚类，并按照以网点为单位输出当前网点的营销客户列表并带有客户的偏好的属性标签。

数据选择。本文以当前邮政广州市某代理金融网点数据为例，进行说明。根据所定义的问题，该问题涉及到客户基础表、产品表以及客户产品关联表。其中，客户基础表主要用来记录客户15个基础属性，分别为：客户姓名、客户号、身份证号、性别、年龄、籍贯、就业状态、月收入、行业、岗位、学历、单位性质、客户登记、客户分类、累计积分。产品表主要包含产品的种类、名称、明细、客户收益以及企业收益等信息。客户产品关联数据表，主要是将客户与其所购买的代理金融产品相关联，主要包含以下属性：月份、客户号、客户姓名、类型、产品名称、月末余额、月均余额。

聚类算法的实现。通过抽取的特征利用已有的数据聚类算法（K-means）对数据进行分析，计算每个客户之间的相似情况（距离），根据距离的大小将特征属性相近的客户划分为一个群体，而将特征属性相差较大的客户划分为不同的群体，从而得到不同目标客户群。这些目标客户群（簇）具有共同的特征属性，而不同群间特征差异较大，通过客户群的划分后再结合客户群的共性特征进行数据分析，得到相应客户群体共性特征的数字化描述。K-means算法是一种典型的分割聚类算法，由于其算法的简单性以及算法实现的简便性，因此在数据挖掘中应用最为广泛。

本文采用聚类算法针对客户数据进行聚类分析，主要是针对客户按照选定的聚类属性进行聚类。聚类算法的实现过程如下：1）选取K的取值（本文取值：12）;2) 选取初始质心点，做为聚类的簇心;3）读取第每条记录，计算第二条记录到簇心的距离，并将其归于距离质心最近的簇，然后再重新更新簇心。然后重复计算第三条记录到最后一条记录；4）然后重复步骤2，直至质心不再变化。

聚类结果。分析聚类后的客户分类，将具有相似属性的簇进行合并，最终归并为7个簇，其中：

针对簇1的客户，营销人员可以重点进行保险、理财产品的销售，这部分属于高端客户，且年龄在54岁左右，注重自身的报账且具有一定的理财意识，是当前该网点基金理财产品的购买主力。

簇2属于老龄客户，相对于其他的老龄客户来说，这部分属于高端老龄客户。他们的资产相对较多，营销人员如果有意想要引导他们购买理财的话，建议分红型的保险是最合适的。

簇3属于理性的高端客户，一般储户，可以引导的购买一些理财和保险，但难度相对来说较大。

簇4属于当前该网点保险产品的主要购买力，但从数据上分析，购买保险具有一定随机性，即营销人员“逮一个算一个”，且从年龄结构上看，属于偏年轻，主要分布在40～44岁。

簇5属于50岁以上老人群体，主要偏向于储蓄，但可以适当的推荐保险。

簇6属于资产在2w以下，主要集中于储蓄，可引导的进行理财，例如基金定投。

簇7主要是流失客户。

针对以上七类客户，本文统计其客户区间分布，88.3%客户主要分布在簇3, 4, 5, 6。高端人数较少（簇1,2），对网点日常营销来说，建议网点针对簇3,4,5,6推出特定的营销策略。在注重高端客户的同时，重点开展对网点主力客户的针对性营销。

广东省邮政目前正在针对客户大数据进行初步分析，已经针对客户购买的代理金融产品进行数据预处理，根据客户购买的产品的差别以及客户为网点利润的贡献额度进行综合考虑，对邮政代理金融客户进行客户细分，同时为客户提供差异化的金融产品和服务方式。为了进一步应用大数据，我省邮件计划将银联刷卡的数据与客户进行匹配，掌握客户日常的消费行为，同时挖掘潜在的大客户。将客户匹配到网点，将数据进行下发，网点的营销团队在分析数据的基础上采取针对性的策略拓展客户。

1.中国邮政集团公司广东省信息技术局;2.湖北中医药大学信息工程学院;3.中山大学移动信息工程学院）