基于 SOM和 PSO聚类组合算法的客户细分研究
2011-12-20廉琪,苏屹
廉 琪,苏 屹
(哈尔滨工程大学 经济管理学院,黑龙江 哈尔滨 150001)
●营销管理
基于 SOM和 PSO聚类组合算法的客户细分研究
廉 琪,苏 屹
(哈尔滨工程大学 经济管理学院,黑龙江 哈尔滨 150001)
文章在对 RFM指标体系进行分析的基础上,应用自组织特征映射 (SOM)神经网络和粒子群优化(PSO)的聚类组合算法,通过客户关系的特征衡量分析客户的内在价值和忠诚度,对客户数据进行了科学、客观、深层次的挖掘分析,为企业有针对性的制定营销策略提供了依据。
客户细分;SOM算法;PSO算法;RFM指标体系
当代企业间的竞争已经从市场份额的争夺转向客户群体的争夺,事实证明,许多在客户数据挖掘方面做的出色的企业都已取得了斐然的销售业绩。例如,宝洁公司在分析客户数据时发现大量客户都为头屑问题所困扰,于是宝洁公司立刻研发生产去屑洗发水,该洗发水投入市场后获得了无数客户的认可和好评,为宝洁公司带来了巨大的收益。可见,企业通过客户数据信息挖掘出客户需求的潜在性和多样性,已经成为企业提升核心竞争力的重要前提与基础。因此,如何高效率并准确的挖掘、利用客户信息,细分不同的客户群体和客户需求,进而增加企业销量、降低营销成本、推动企业发展,将成为现代企业间无形的竞争。虽然,我国大部分企业都已非常重视客户数据挖掘工作,但是由于目前有些数据挖掘算法本身的不精确性和评价体系构建的不当,致使企业无法满足客户多样化的需求并保持客户忠诚度,有时甚至因此流失大量的潜在客户。
本文提出的以客户关系特征为指标来细分客户能重点表达出客户与企业之间的多元化的关系结构,即通过一系列定量的指标分析得到最准确的衡量结果。同时采用客户关系特征分类法中的 RFM模型来细分客户的行为特征,通过 SOM和 PSO的算法组合来对客户的这些行为特征进行分类,进而识别不同的客户群体,为企业营销策略的制定提供依据、为核心竞争力的提升奠定基础。
一、SOM-PSO聚类组和算法
自组织特征映射神经网络 (SOM)算法是一种经典的聚类算法。SOM网络是一个由全连接的神经元阵列组成的无教师自组织、自学习网络。它根据大脑神经对信号处理的过程模拟而来,当一个神经网络接受外界输入模式时,将会分为不同的反应区域,各区域对输入模式具有不同的响应特性[1]。因此,SOM网络的典型特性就是可以在一维和二维的处理单元阵列上,形成输入信号的特征拓扑分布,具有抽取输入信号模式特征的能力。SOM网络由输入层和竞争层 (输出层)组成,输入层中的每个神经元通过权与输出层中的每一个神经元项连[2],其结构如图 1所示。
图1 SOM神经网络结构图
SOM算法的具体过程如下[3]:
(1)初始化,将权值Wij赋予较小的随机初始值;设置一个较大的邻域半径Nc;设置学习次数 T;
(2)采样,随机输入一组训练矢量 Xk:Xk={X1k+X2k+…+Xnk};
(3)竞争,计算训练矢量 Xk和所有的输出神经元的距离 djk,并选择和 Xk距离最小的神经元 c,则 c即为获胜的神经元;
(4)自适应,更新结点 c的邻域,调整输出节点的连接权值向量;
(5)输入训练矢量集中的下一个矢量 Xk+1;
(6)令 t=t+1,更新学习率并选取另一组训练矢量输入网络,返回步骤 (3);
(7)结束,当 t=T时,结束算法。
粒子群优化 (PSO)算法是一种进化的计算算法。PSO算法是模拟鸟群觅食过程中的迁移和群集的模拟。假设在一群鸟搜索食物的空间中只有一块食物,所有鸟都不知道这块食物的具体位置,但是它们知道自身离这块食物的还有多远[5]。那么找到食物的方法就是搜索当前离食物最近的鸟的周围区域。在 PSO中,每个鸟都是一个 “粒子”,粒子群在空间搜索,每个粒子的位置都表示问题的一个解,并通过位置的不断调整来搜索优化的新解[4]。粒子本身的最优解设为Pid,粒子群的最优解设为 Pgd。粒子自身的调整公式为[3]:
在 SOM算法中,需要对输入的矢量数据进行大量的网络训练才能得到最终收敛的效果,并且在网络训练时有些结点始终无法胜出而形成死神经元,最终导致形成局部优化的现象[2]。PSO算法是 1995年新提出来的聚类算法,虽然该种算法能有效结局极值陷入局部最优解的问题,但在单独使用对数据进行聚类分析时由于其初始化权值的随机性,大大降低了 PSO算法的聚类效果[3]。因此,本文通过两种算法的结合,即通过 SOM算法先得到较优的权值,然后用得到的权值来初始化 PSO算法,显著的提高了单独使用这两种算法的聚类效果。
二、基于 SOM和 PSO聚类组合算法的客户细分研究
RFM指标体系由美国直接营销学家Bobstone基于许多数据库营销的经验提出的。R(Recency),表示最近一次消费;F(Frequency),表示消费频率;M (Monetary),表示消费金额[6]。RFM指标体系是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况[7]。同时,RFM指标体系也较为动态地表示了一个客户的全部轮廓,这对个性化的沟通和服务提供了依据,此外,如果与该客户打交道的时间足够长,也能够较为精确地判断该客户的长期价值 (甚至是终身价值),通过改善三项指标的状况,从而为更多的营销决策提供支持[8]。得到精准的数据分类是客户细分的重要一步,但仅凭借数据分类而没有具体的客户价值评价体系则无法识别、挖掘客户的价值[6],因此本文构建 RFM指标体系来对不同类别客户的价值进行评价。
(一)RFM指标体系构建
本文以电信业客户细分为例,建立 RFM指标体系。由于电信行业中客户消费频率很高,几乎每天甚至每时都在消费,因此基于传统的 RFM指标 (R:消费近度;F:消费频率;M:消费金额)中的 R几乎为零而 F则非常高,这在指标体系的建立中毫无意义[8]。综合考虑电信业客户的消费特点,即交费时间间隔较大,交费次数相对较少,交费额度等于消费额度,本文提出以客户交费的近度、频率和金额来替代消费的近度、频率和金额。构建指标体系见表 1。
表1 电信业客户细分的 RFM指标体系及各指标含义
(二)基于 SOM-PSO聚类组合算法的客户细分步骤
第一步,从客户资料中提取客户的详细资料,以设计好的指标体系作为标准,分解客户指标;
第二步,经验显示,当所有的输入和输出值介于 0和 1之间时,SOM神经网络的计算效果最好[9]。因此在输入客户的指标前,将客户指标做归一化处理。其具体方法如下:
调整后的标准值 =(初始值 -min)/(max-min),其中,min和max为选择客户样本数据各指标中的的最小和最大值;
第三步,随机选取各指标的权重作为 SOM神经网络中各神经元的初始连接权值,将客户的数据输入到 SOM神经网络中得到多个客户簇,并通过不断的训练使模型达到满意的精度;
第四步,将 SOM神经网络中得到的优化了的权值作为初始聚类中心,对粒子群进行初始化,执行改进后的 PSO聚类算法进行聚类;
第五步,本文为了证明 SOM-PSO聚类组合算法的优化性,特将运用组合算法得到的客户细分结果的 F-measure值与单纯运用 SOM算法得到的 F-measure[10]值比较,来证明SOM-PSO组合算法更好的客户细分效果;
第六步,在通过 SOM-PSO组合聚类算法得到较为精确的客户群后,对每类客户的 RFM平均值和总 RFM平均值作比较,每次对比中会得到两个结果:大于等于平均值和小于平均值,通过对比得到每类客户的 RFM的变动情况;
第七步,根据每类客户的 RFM的变动情况分析该客户的类别,如该客户是有价值客户还是潜在客户等,针对不同的客户类别采取 “一对一”的营销策略;
第八步,对每类客户标准化后的每个指标取平均值,再将平均值加权求和,得到每类客户的终身价值总得分,分析各类客户终身价值的差别,具体情况如图 2所示。
(三)SOM-PSO聚类组合算法的客户细分实例分析
本文从某市通信公司 2008年的所有的电信客户记录中随机抽取了 50名客户的数据信息进行分析,由于篇幅有限,本文仅列出十组经过归一化处理的客户数据信息 (见表 2)。
本例所构建的 SOM网络模型的输入层几点为 3个,竞争层设计为一个 3*4的二维平面;由于本例竞争层的二维平面结点相对于所要训练的客户数据来说较小,因此 SOM网络的初始邻域值设为整个竞争层;初始的学习速率η0=0.2,并随着时间 t而递减;训练次数分别设为 10、50、100次。
图2 基于 SOM-PSO聚类组合算法的客户细分流程图
表2 归一化处理的客户信息
使用MATLAB软件编程,对 SOM神经网络中输入的数据训练进行训练时发现,当训练 10次时分类较为粗糙,训练 50次时分类效果较好,随着训练次数的增加,到 100次时客户分类过于细化几乎没有意义。因此,本例中选取训练 50次时得到的分类结果作为初步优化的分类结果。
用 SOM网络得到的权值初始化 PSO算法,得到通过SOM-PSO聚类分析后产生的客户类别。算法的输出同时为了比较使用 SOM-PSO聚类组合方较单纯使用 SOM神经网络对客户分类的结果的优化性,特通过 F-measure平均 (它组合了信息检索中查准率 (precision)与查全率 (recall)的思想来进行聚类评价,因此该值越大聚类效果越好[10])来比较 SOM-PSO组合算法和 SOM算法,结果如表 3所示。从表中我们不难发现,SOM-PSO算法的 F-measure平均值比 SOM算法要高出接近 10个百分点,这充分的说明了使用SOM-PSO算法对客户数据进行分类的效果要 SOM算法。
表3 两种算法的比较结果
通过 RFM指标体系对经过聚类后的客户分成了六个级别,分别是重要保持客户、重要发展客户、重要挽留客户、一般重要客户、一般客户、无价值客户,如表 4所示。由每一级别的客户人数我们也可以看出组合算法对客户分类的实际情况也符合“20/80”法则,即企业百分之八十的利润来源于百分之二十的客户。
虽然通过上述分类确定了客户的等级,但却没有各类客户间量化了的价值比较,而且有些不同客户类别属于一个级别,无法区分其价值差异。因此,本文利用通过 SOM-PSO组合算法得到的最优权值来对每类客户进行打分,根据最终的总分 C总j对每类客户排序。C总j的计算方法如下:
其中 C总j表示第 j类客户的 R,F,M个指标加权后的总得分;j=1,…,m表示聚类后的类别,;ωRj,ωFj,ωMj分别表示第 j类的客户的 R,F,M各指标的权值,CRj,CFj,CMj分别表示第 j类客户的 R,F,M各指标归一化处理的平均值。经计算后的出结果,如表 5。通过比较各类的总得分,可以量化的比较出各类客户的价值,如类 2是类 3的0.4367/0.3812=1.1456倍。
三、结 论
针对以上客户的分类情况,企业可以进行有针对性的营销,例如对于重要保持型客户,即 R值低、F值高、M值高。此类客户的缴费时间间隔短,缴费较为频繁且缴费额度大。此类客户一般为社会工作稳定且收入较高的人群,消费能力强如销售经理、业务员等,这类客户对价格敏感度低,为该电信公司的长期稳定客户。针对此类客户,该电信公司可向其进行的多种营销活动刺激其一次性多缴话费,如预交话费 3000元增 3G手机等高附加值的业务。此外,还要努力为其提供个性化、亲情化的移动业务和延伸服务,如将单纯的通话业务延伸至话费每月满 300元增手机上网流量等。或者,对于一般重要客户,即 R值低、F值高、M值低。此类客户缴费时间间隔短、频率高,但是费用少,这类客户是典型的学生群体。他们的消费能力偏弱,所以通常会在优惠时段打电话,而且更多使用的是较为便宜的短消息业务。这部分客户的利润率仅为 8.4%,低于平均水平,且客户人数比例也仅为 8%。但是,如果对该类客户采取适当的营销手段,提高他们对短信、上网业务的使用量,就有可能提高这一群体的利润水平;此外,该类用户群体在不久后都将走出校园,他们的消费能力将整体增强。鉴于以上原因,该电信公司可以为他们订做一个短消息包月和上网流量包月,而且校园网内通话低于预付资费水平的服务套餐,从而提高他们的消息类业务和上网业务的使用量。
表4 通过 SOM-PSO聚类分析后产生的客户类别
表5 各类客户的加权总得分
本文提出了一种基于 SOM-PSO聚类组合算法的客户细分方法,并通过实证研究,以电信行业的部分客户数据资料验证了该组合算法的可行性。同时,通过 F-measure平均值与单纯使用 SOM算法比较,证明了该组合算法在客户信息挖掘和分类方面的优化性。由于时间和篇幅的限制,本文也存在一些不足之处,例如样本索取量比较小。在未来研究过程中,作者将进一步完善这一算法的应用。
[1]郭伟业,赵晓丹,庞英智,等.数据挖掘中 SOM神经网络的聚类方法研究 [J].情报科学,2009,(6):874-876.
[2]杨占华,杨燕.SOM神经网络算法的研究与进展 [J].计算机工程,2006,(8):201-202.
[3]刘春晓,张翠芳.基于 SOM和 PSO的聚类组合算法[J].通信技术,2010,(1):208-212.
[4]刘靖明,韩丽川,侯立文.一种新的聚类算法——粒子群聚类算法 [J].计算机工程与应用,2005,(2):183-185.
[5]陈永刚,杨凤杰,孙吉贵.新的粒子群优化算法 [J].吉林大学学报,2006,(3):181-184.
[6]BartBaesens,GeertVerstraeten,Dirk Van Den Poel,et al.Bayesian network classifiers for identifying the slope of the customer lifecycle of long-life customers[J]. European Journal of Operational Research. Tourism Management,2004,25:429.
[7]赵晓煜,黄小原,孙福权.基于 RFM分析的促销组合策略优化模型 [J].中国管理科学,2005, (2):60-63.
[8]林盛,肖旭.基于 RFM的电信客户市场细分方法 [J].哈尔滨工业大学学报,2006,(5):758-760.
[9]田玲.电子商务中客户关系管理的研究 [M].知识产权出版社,2009.
[10]杨燕,靳蕃.聚类评价有效性综述 [J].计算机应用研究,2008,(6):1630-1638.
Investigating the Consumers Segmentation Based on SOM and PSO Algorithm
L IAN Qi,SU Yi
(School of Econom ics and M anagem ent,Harbin Engineering University,Harbin150001,China)
In this paper,a combination algorithm of self-organizing feature map(SOM)neural network and particle swarm optimization(PSO)clustering are applied to mining the consumers’data based on the RFM index system.This combination algorithm can measure consumers’intrinsic value and loyalty quantitatively and offer enterprises a better decision basis formarketing strategies.
consumers segmentation;SOM algorithm;PSO algorithm;RFM index system
F274
A
1007—5097(2011)01—0118—04
10.3969/j.issn.1007-5097.2011.01.028
2010—03—29
黑龙江省科技攻关项目 (GZ09D204)
廉 琪 (1988—),女 (满族),黑龙江哈尔滨人,本科生,研究方向:数据挖掘;
苏 屹 (1983—),男,黑龙江哈尔滨人,博士研究生,研究方向:科技管理与创新管理,数据挖掘。
[责任编辑:张 青 ]