改进模糊聚类算法在客户关系管理软件中的应用
2014-12-09李克威
李克威
摘 要:本文考虑到现有CRM的局限性,引入了模糊数学相关算法,给数据对象的隶属度加上一个权值,以及在算法中用有效性函数来自动确定聚类数目C,理论分析与实验结果表明,在CRM环境下所引入的改进模糊聚类算法比传统模糊聚类算法有更好的聚类效果,更快的聚类速度。
关键词:聚类;CRM;模糊
目前,很多企业都认识到客户和市场在竞争中的重要性,越来越多的企业正在提高客户对企业的中邀请。逐步建立以客户和市场为方向的经营模式。随着计算机计算的快速发展,很多科研机构把CRM作为重点研究对象,CRM系统和一定服务系统的结合,提高客户满意度和忠诚度,能给企业带来长久发展的一种理念。
1 CRM简介
客户关系管理(CRM)就是为企业提供全方位的管理视角,给企业完善的客户交流能力,最大化客户的收益。对CRM我们可以这样理解。一方面,从经营管理观念方面考虑,CRM是一种以客户为中心的理念,通过信息化,重新规划各个功能模块达到缩减销售成本,开拓新的市场。另一方面,CRM对以客户为中心的商业模型提供支持的一套软件系统,包含多种与客户交流的方式,如见面谈或者电话谈,这样企业可以根据客户的喜欢采用合适的方法与他们沟通。
2 模糊聚类算法
通常见到的聚类是硬聚类,具有非此即彼的特点。Dunn把硬聚类算法推广到了模糊的情况下,Bezdk给模糊聚类的隶属度引入了权重m这个概念[1-2]。模糊聚类通过让最小化目标函数从而得到最优聚类结果,模糊聚类是根据样本之间的特征、亲疏程度和相似性,通过建立类别之间的模糊分类,作为数理统计中的一种多元分析方法[3],已广泛应用于诸多领域。
对于数据的类别划分,定义一个硬划分矩阵U,V={V,V2,…VC}是特征空间的矢量集合,Vi表示第i类的聚类中心,dik表示第i类中样本Xk到第i类聚类中心的距离,硬聚类的目标函数为
J1(U,V)是各个数据与其聚类中心的误差平方和,(U,V)表示聚类准则的最佳配对,通过迭代求J的近似最小值使得J1满足最小。
FCM聚类算法基本步骤如下[4]:
⑴设定划分类别数c(2≤c≤n,n是数据个数);设置算法计算停止阈值为0.01;给聚类中心P(0)设置初值;
⑵计算划分矩阵U(b)的结果;
⑶求中心矩阵P(b+1);
⑷若 ,则算法数据划分类别阵和聚类的中心,否则让迭代计数器加1。
3 改进模糊聚类算法
传统的模糊聚类算法也存在一些问题:(1)难以判断离群点的归属(2)提前确定划分类别数目和权重因子(3)因为FCM算法的收敛性,很容易陷入局部极小点或者鞍点,从而得不到全局最小值。
3.1 减少离群点的作用
为了减小离群点对聚类中心的干扰,给隶属矩阵添加一个权重因子,让隶属度低的点对聚类中心起的作用比较小,把隶属度调整为为 。
3.2 对划分类别书的确定
人为确定划分类别不太准确,有可能让聚类过程很缓慢。我们把聚类的有效性函数添加到FCM算法中,利用有效性函数来决定划分类别数的值。改进的模糊聚类算法如下所示:
初始化:设定迭代的计算阈值ε,聚类原型P(0),迭代次数为b=0;
步骤1:计算划分矩阵U(b);
对于 ,k,若 >0, ,r,使得 =0,则有 =1,且对 , =0。
得到改进的隶属度:
步骤2:重新计算聚类原型P(b+1);
步骤3:若 ,则算法计算完毕,得到划分矩阵U和聚类原型P,否则,算法跳转到1继续执行。
步骤4:求聚类有效性函数的结果,若已经达到最小值,则得到数据聚类类别数目,否则跳转到1重新执行程序。
4 实验
数据是采用随机抽取的50个样本信息,由于客户的数据有17个参数:公司年龄、行业、规模、公司性质、盈利情况、员工数量、信誉度、年销售量、产品市场定位、新产品数量、流动资金、平均订购规模、年采购量、购买渠道、主要客户、对待产品的态度、对待服务的态度,各个数据的量纲不同,或者量纲相同,但是数量级不同,直接用原始数据计算会出现“大数吃小数”的现象,所以,在实验之前,对数据进行标准化处理[4]。应用改进模糊聚类算法,设定加权参数为2,停止阈值为0.0001,差异度采用欧几里得距离公式计算。下表列出了聚类中心阵和聚类结果的检测指标。
表1 聚类结果
Tab.1 The Result of Clustering
聚类结果中心阵 测试指标
分类结果系数 平均模糊熵
0.05286 0.2200 0.25967
0.11245 0.1538 0.18617
0.09971 0.1185 0.11290
0.15048 0.1362 0.17140
0.19056 0.0392 0.03571 0.942751 0.071643
实验得到的划分矩阵表明用户对各个类别的隶属程度,对其中两组用户数据分析:
用户1:0.0013,0.9263,0.0722,0.0002,0.0000
用户2:0.1475,0.8451,0.0001,0.0056,0.0017
隶属度矩阵的每列数据表示该客户对一个类别的隶属程度,每一列之和为1,表示该客户对所有类别的隶属度之和为1。根据样本判定的选择原理,该客户数据对某个类别的隶属度大,我们就认为该客户属于这个类别。从上面数据可以看出。用户1对类别2的隶属度为0.9263,我们认为用户1属于第2类,样本2对类别2的隶属度为0.8451。我们认为用户2属于第2类,同时样本2对类别1有0.1475的隶属度,所以用户2还具有类别1的特征。
本实验把企业的客户划分成不同的种类,区别出不用种类的特点。下表对5类用户进行了的特征进行了总结:
表2 用户特征分析
Tab.2 The Analysis of Customer Feature
分类 个数 特点
1 9 交往比较多,交易量比较大,
2 27 购买金额大,但接触次数较少
3 6 于企业接触时间较近,接触次数少
4 5 可能是流失危险的有价值用户
5 3 长时间和企业不打交道,估计会流失
对于表2的分析结果,我们可以看到采用近度、频率和金额度作为客户分类的参数,从划分出的类别能看出不同客户类别对企业的忠诚度,对企业利润的贡献大小和客户估计要流失的可能性。这次实验是根据客户的消费记录进行聚类的,客户最近的消费记录对结果的影响很大。企业通过CRM,能挖掘出对企业利润贡献大的客户,对不同的客户类别,实施不同的经营策略,提高客户对企业的满意度,吸引能给企业带来巨大利润的客户,留住现有的客户,避免客户的流失,提高企业的经济效益。本文改进的模糊聚类算法能够实现初始化聚类类别参数自动生成,减少了人工干预初始化聚类数目的影响,有比较好的聚类结果和收敛速度。
[参考文献]
[1]张跃.模糊数学方法及其应用[M].北京:煤炭工业出版社.1992.
[2]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社.2004.
[3]何清.模糊聚类分析理论与应用研究进展[J],模糊系统与数学.1998,12(2):89-94.
[4]林辉.改进模糊聚类在数据流中的应用.河南科学.2012.9.