基于客户行为数据构建客户分群模型的分析与探讨

2015-09-14杨欣

中国管理信息化 2015年21期

关键词：分群数据挖掘规范化

杨欣

（北京农业职业学院，北京 100012）

基于客户行为数据构建客户分群模型的分析与探讨

杨欣

（北京农业职业学院，北京 100012）

客户分群是企业从大众营销向差异化营销过渡的必由之路，也是未来保持竞争优势的基础。随着社会经济的发展和用户需求的多元化，企业需要把识别客户特征作为一项核心的市场分析活动，关注如何保持和拓展现有的客户价值。文章从移动通信运营商的角度，阐述了建立客户分群模型的理论基础和技术手段，根据客户行为数据采用聚类的数据挖掘方法构建总体模型，并对数据规范性、聚类算法以及模型分析方法等进行说明，提高客户分群的有效性及应用价值。

客户分群；模型；聚类；算法

在当前移动通信领域竞争日益激烈的情况下，企业必须认识到客户才是运营商最重要的资产，运营商必须关注如何保持、拓展现有的客户价值。识别客户特征是一项核心分析活动，通过了解客户的概貌可以指导运营商如何制定合理有效的营销策略。

使用数据挖掘技术对客户进行细分就可以识别具有相似特征的客户群，这样就可以了解各种不同的、具有各自特征的客户情况，从而基于客户分群工作进行进一步的客户分析和市场策略制订。因此客户分群模型建立的意义主要就是通过对客户进行分群，分析各种客户群的特征来为企业管理层提供决策支持。

1　客户分群的理论阐述

就市场营销的理论来说，营销手段可以分为几个层次：首先是大众营销，对所有客户进行不考虑特性差异的宣传；然后是基于市场细分的营销，把客户分为几个群体，对每个群体进行针对性宣传，也就是所说的一对一精确营销。

客户细分的基本依据是每个客户作为消费者对同一产品的具体功能需求和关注点是不同的。作为服务提供者的运营商必须尽可能地考虑这些差异，发现存在于客户中的具有不同特征或消费习惯的客户群体，在此基础之上面向不同群体执行更具针对性的管理或营销策略。

客户分群总的来说有两大类方法，一类是手工方法，一类是自动方法。手工方法就是人为地进行客户划分，即业务人员根据自己的业务知识以及对客户的了解程度，出于某种管理或者营销上的目的把客户分为几个群。这种分群的划分原则是预先已知的，比如按照客户消费额划分成 “高价值客户”、“低价值客户”；按照是否大客户划分为“普通用户”、“大客户用户”。这种手工进行客户细分的方法通常只能考虑少数几个变量，如果想多考虑一些变量，尤其是大部分连续型的行为变量，就必须使用自动分群方法了。

自动分群是通过使用数据挖掘提供的聚类算法，确定自己认为会有价值的输入变量，通常数量较多，通过挖掘算法根据数据的特点决定把客户分为不同群体，分出来的群与群之间差异尽可能大，群内差异尽可能小。

客户分群的关键在于根据什么变量来进行细分。在移动通信行业，商家可以获得的数据很多，主要有客户行为数据、人口统计数据以及一些附加数据。其中客户行为数据包括客户通话清单数据、客户账务数据以及客户拨打客服电话的记录等，这些都是通过计算机采集到的，具有很好的数据质量，同时也是最有价值的客户信息，是了解客户特征的最重要的数据。因此，根据客户行为数据进行客户分群会具有更高的可用性。

2　客户分群的技术分析

客户分群模型的建立需要依靠数据挖掘技术。通过客户分群挖掘，企业能发现过去所不知道的客户类型，对自己的客户有更科学、更全面的了解，这无疑会使客户管理工作和营销工作能够更容易地进行。比如，通过客户分群了解不同客户群的详细的、特有的需求，这样就能够发现新的营销机会；通过客户分群了解不同客户群的特点，这样就能有针对性地开展差异化客户服务，增加客户满意度；还可以基于客户分群进行有针对性的营销宣传活动，这样的宣传会比无目标的大众宣传更加有效；等等。

数据挖掘技术可以分为两种类型：预测型数据挖掘和描述型数据挖掘。

预测型数据挖掘是要从一系列数据中找出特定变量（称为“目标变量”）与其他变量（称为“预测变量”）之间的关系，也就是掌握预测变量是如何影响目标变量的。

描述型数据挖掘是要在一系列预先不知道有任何关系的数据中查找关系的技术。描述型数据挖掘常用的技术有聚类和关联分析。

聚类是要把整个数据库分成不同的群组。它的目的是要使群与群之间差别很明显，而同一个群内的数据尽量相似。与预测型挖掘不同的是，聚类是无指导的学习，体现在方法上就是不用指定目标变量。聚类算法有两种：划分聚类法和层次聚类法。其中划分聚类法可以指定聚为几类，层次聚类法由算法根据数据情况自动确定聚为几类。神经元网络和K-Means是比较常用的聚类算法。聚集之后最主要的是对分群的结果给出商业角度的解释，这样才有实际意义。

客户分群就很适合使用聚类的方法。首先，通过聚类的数据挖掘把所有客户按照特征分成几群，建立客户分群模型；其次，分析各群客户的特征，主要是行为特征；再次，分析每一群客户特征体现出来的信息有什么商业价值，为管理和营销人员提供制定管理或营销计划的依据；最后，建立完善的分群模型维护流程以适应市场的变化。还可以从客户发展的角度考虑，根据客户产生的收益、客户通话行为特征、客户信用度风险等数据进一步建立客户价值评估模型，对客户群进行更深入的挖掘与分析。

3　客户分群模型的构建与探讨

3.1总体框架

（1）基于客户行为数据，使用各种聚类算法生成客户分群模型；

（2）分析不同算法得到的分群结果，选取最好的模型，好模型的标准是群与群之间差异尽量大而群内差异尽量小；（3）使用挖掘工具提供的数据探索工具分析各客户群特征；（4）建立客户信用度风险评估模型，给出每个客户的信用度风险指标；

（5）建立客户价值评估模型，根据客户所产生的消费额、客户通话行为以及客户信用度风险指标建立一个全面评估客户价值的客户价值函数，更合理地评估每个客户的价值。

3.2数据规范性

K-Means聚类算法是采用计算距离来度量记录之间的差异大小。这种方法决定了聚类所输入的数值大小不同对结果的影响是不一样的。取值比较大的变量，比如通话时长，变量单位通常是秒，值都非常大，这样在计算对象差异性的时候，这个变量的影响就会很大；然而对于一些取值比较小的变量，比如通话次数，取值就不会很大，这样计算差异的时候该变量的影响度就会减小。

在进行聚类之前应该对数据进行规范化处理，这样可以大大提高聚类的效果。常用的规范化方法有最大-最小规范化和Z-SCORE规范化。其中最大-最小规范化是把数据在指定的区间内进行等比缩放；Z-SCORE规范化是计算每一个变量与平均值之间的差异大小和平均差异（使用标准差或者平均绝对偏差）的比值。本文采用的是Z-SCORE规范化方法，具体过程如下：

（1）计算平均绝对偏差（mean absolute deviation）Sf

式（1）中，x1f，…，xnf是变量f的n个度量值，mf是f的平均值，即：

（3）计算斜率

以上三步都是通过SQL在数据库中进行的，这样经过规范化后的数据就可以用来进行聚类了。

3.3建立聚类模型

K-Means聚类算法对于处理大数据集情况的效率是很高的，因此选择使用K-Means算法进行聚类。K-Means算法工作流程如下：

（1）任意选择K个对象作为初始的簇中心（K预先指定）；

（2）Repeat；

（3）根据簇中对象的平均值，将每个对象重新赋给最类似的簇；

（4）更新簇中的平均值，即计算每个簇中对象的平均值；

（5）Until不再发生变化，直到达到某个阈值。

在实际的模型建立过程中，通过聚类共获取到12个客户群，这里不再进行详述。

3.4模型分析

分析方法是把模型提供的各变量组内均值做最大-最小规范化后，划分出各类的优势特征和弱势特征，从而给各组一个描述性的名字。给出的名字反映的是该组最大特征，但并不是唯一特征。分析过程中把各变量规范化为0～10的公式如下：

V_N=（（V-MIN_V）/（MAX_V-MIN_V））×10（4）

式（4）中，V是被规范化的值、V_N是被规范化后的值、MIN_V 是V值所在变量的最小值、MAX_N是V值所在变量的最大值。

这样变量的所有值将会被规范化为从0到10的区间，原值被等比缩放。这样一个值在同一个变量中比其他值大还是小就很明显了。各值只和同一个变量的其他值有可比性。在分析过程中，规范化后的值被标上了不同颜色，这样对各类进行分析的时候对其优势字段、弱势字段就能一目了然。

分析过程中判断一个变量是否优势字段，不光看某类中这个变量大还是小，还要看其他类在该变量上的取值情况。例如，如果某类中一个变量取值很大，但是其它类在该变量上的取值同样也很大，那么这个变量就不是优势变量。

4　结论与思考

以上仅是对客户分群模型构建的初步分析，通过模型可以得到各群用户的显著特性，并针对各客户群的特性给出一定的市场建议。可能有些建议并不是很可行，但客户分群的思想以及所获取的客户分群模型还是极有效的，未来基于该模型可以做很多事情，达到目标明确、事半功倍的效果。

例如，通过了解各客户群的优势特征和弱势特征可以识别新的营销机会，从而有针对性地进行差异化套餐设计；客服部门可以参考客户分群的结果对不同类型的客户进行有针对性的差异化客户服务；市场部门再设计促销活动的时候，可以参考客户分群情况来选择正确的宣传目标和途径；客户分群还可以与离网预测模型相结合，在进行客户挽留的时候了解挽留目标的特征无疑是很有帮助的。

10.3969/j.issn.1673-0194.2015.21.036

TP315

1673-0194（2015）21-0074-02

2015-07-27

杨欣（1981-），女，山西太原人，北京农业职业学院讲师，硕士，主要研究方向：企业管理、信息化管理。