基于改进聚类算法的客户分类系统的设计与研究

2014-02-24渭南师范学院信息与教育技术中心陕西渭南714000

电子测试 2014年23期

林辉（渭南师范学院信息与教育技术中心，陕西渭南，714000）

林辉
（渭南师范学院信息与教育技术中心，陕西渭南，714000）

考虑到现有客户关系关系存在的一些问题，本文引入了模糊数学的相关算法，给数据对象的隶属度加上一个权值，以及在算法中采用有效性函数来自动确定聚类的初始数目,理论分析与实验结果表明，在客户关系管理环境下所引入的改进模糊聚类算法比传统模糊聚类算法有更好的聚类效果，更快的聚类速度，为企业对不同客户采用不同营销策略提供了依据。

模糊；聚类；客户分类

0 引言

越来越多的企业都认识到到客户和市场在对企业的重要性，越来越多的企业正在提高客户对企业的忠诚度。逐步建立以客户和市场为方向的的经营模式。随着计算机计算的快速发展，很多科研机构把CRM作为重点研究对象，CRM系统和一定服务系统的结合，提高客户满意度和忠诚度，能给企业带来长久发展的一种理念。

1 CRM简介

客户关系管理（Customer Relationship Management，简称CRM）就是为企业提供全方位的管理视角，给企业提供完善的和客户进行交流能力，给公司带来最大的收益。对CRM我们可以这样理解。一方面，从经营管理的方面考虑，CRM是一种以客户为中心的思想，采用信息化技术，重新规划各个和客户交流的模块以减少单位支出，开拓新的业务。在另一方面， CRM也为以客户为中心的商业模型提供支持的一套软件系统，包含多种员工与客户交流的方式。

2 个人客户关系管理系统的详细设计

我们依据“高内聚，低耦合”的软件设计理念，本文采用三层架构，对三层架构各层划分如下任务：

数据访问层-数据源打交道，也就是负责数据的增删查改，它不了解数据的逻辑性和正确性。

业务逻辑层-负责系统逻辑性数据的处理和转换。对输入的数据的正确性进行检查。

表示层-负责检查数据的正确性和逻辑性，发现数据的错误。系统构架如下：

图1-1系统结构图

2.1 数据库设计

把需求分析得到的具体要求抽象为信息结构即概念模型的过程就是概念结构的设计。概念结构设计的方式有：自顶向下、自底向上、逐步扩张、混合策略、混合策略，本文下面表：客户信息表，联系信息表，账户信息、业务信息、客户投诉/服务信息、信息用户信息

2.2 逻辑结构设计

根据系统需求，本系统建立如下视图让信息统计模块使用：账号，业务编号，业务流水号，投诉编号，交易流水号。

2.3 数据仓库创建

数据仓库是不断变化的数据的集合，是对单位业务数据的整合、处理的过程。本系统采用星型构架建设数据仓库。

2.4 数据访问层接口实现

首先对各层的功能进行明确划分，本文中，数据访问层负责数据的增删查改，由于它对业务不了解，不负责业务逻辑的解释

2.5 业务逻辑接口的实现

业务逻辑负责完成与系统领域相关的业务逻辑，通过调用数据访问层来实现，对业务相关的数据有效性解释，不同的领域的业务逻辑差别很大，在实际中，业务逻辑的设计要业务专家结合。

3 模糊聚类算法

一般见到的聚类是硬聚类，具有非此即彼的特性。Dunn把模糊数学的思想引入到硬聚类算法中，Bezdk给模糊聚类的隶属度引入了权重m这个概念。模糊聚类通过使目标函数最小化从而得到最优聚类的结果，模糊聚类是根据样本之间的特征、亲疏程度和相似性，通过建立类别之间的模糊划分，作为数理统计中的一种多元分析方法，现在已经用于到很多应用中。

4 改进模糊聚类算法

模糊聚类算法也有下面问题：（1）离群点属于哪一类很难决定（2）必须在算法执行前设置划分类别数目和权重因子(3)很容易陷入局部极小点或者鞍点，从而得不到全局最小值。

4.1 减少离群点的干扰

为了减小离群点对聚类中心的影响，在隶属度矩阵中加上一个权重因子，让隶属度低的点对聚类中心起的作用比较小，把隶属度调整为为

4.2 对划分为多少个类的数目的确定

提前确定划分类别不很不科学，会影响聚类的执行时间。将聚类的有效性函数添加到FCM算法中，采用有效性函数来决定划分类别数的值。具体算法如下：

步骤4：求聚类有效性函数的结果，若已经达到最小值，则得到数据聚类类别数目，否则跳转到1重新执行程序。

5 实验

数据是采用随机抽取的100个样本信息，由于客户的数据有5个参数：年龄、总资产、现金、公司交易量、盈利情况，各个数据的量纲不同，或者量纲相同，但是数量级不同，直接用原始数据计算会出现“大数吃小数”的现象，所以，在实验之前，对数据进行标准化处理。应用改进模糊聚类算法，设定加权参数为2，停止阈值为0.0001，差异度采用欧几里得距离公式计算。下表列出了聚类中心阵和聚类结果的检测指标。

表1 聚类结果Tab.1 The Result of Clustering

得到的划分矩阵表明用户对各个类别的隶属程度，对其中的两组用户数据分析：

客户1：0.0065，0.9550，0.0386

客户2：0.1575，0.0001，0.8451

隶属度矩阵的每列数据表示该客户对一个特定的类别的隶属程度，每一列数据总和为1，表示该客户对所有分类类别的隶属度之和为1。根据样本判定的选择原理，该客户数据对某个类别的隶属度越大，认为该客户应该属于这个类别。从上面数据可以看出。用户1对类别2的隶属度为0.9550，我们认为用户1属于第2类，样本2对类别3的隶属度为0.8451。我们认为用户2应该属于第2类，同时样本2隶属于类别1有的数值为0.1575，表明客户2还具有类别1的特征。

本实验把企业的客户划分成不同的种类，区别出不用种类的特点。下表对3类客户的特性进行了小结：

表2 用户特征分析Tab.2 The Analysis of Customer Feature

对于表2的分析结果，我们可以看到采用年龄、总资产、现金、公司交易量、盈利作为客户分类的参数，从划分出的类别可以看出不同客户类别对企业的忠诚度，发现潜在客户，对企业利润的贡献大小和客户估计要流失的可能性。

6 结论

这次实验是根据客户的以前的交易数据进行聚类的，客户最近的交易记录对聚类结果的影响很大。企业通过CRM，能发现对企业利润贡献大的客户，对不同的客户类别，实施不同的策略，提高客户对企业的忠诚度，吸引大客户，留住现有的客户，避免客户的流失，提高企业的利润。本文改进的模糊聚类算法能够自动产生聚类类别数目，降低了人工干预初始化聚类数目的影响，有比较好的收敛速度和聚类结果。

[1] 吕延杰、尹涛、王琦，客户关系管理与主题分析[M],北京：人民邮电出版社，2002.

[2] 何荣勤，CRM原理、设计、实施[M],北京：电子工业出版社.2003.

[3] 张跃．模糊数学方法及其应用[M]．北京：煤炭工业出版社.1992

[4] 高新波.模糊聚类分析及其应用[M].西安：西安电子科技大学出版社.2004

[5] 何清.模糊聚类分析理论与应用研究进展[J]，模糊系统与数学，1998，12（2）：89-94.

Design and Research on customer classification system based on improved clustering algorithm

Lin Hui
（Weinan Normal University Information and Educational Technology Center，Shaanxi weinan，714000）

In order to overcome the shortrage of CRM,the paper introduces the related algorithm of fuzzy mathematics.degree of membership of the data is added weighted value and the choice for parameter of number of clusters based on cluster validity function.Experiments also show that the modified FCM has a better cluster result and has faster clustering rate，provide the basis for the enterprise to the customer classification

fuzzy clustering；customer classification

TP393

林辉（1982-），男，陕西西安人，工程师，硕士，研究方向为网络安全。

渭南师范学院科研重点项目——14ykf005 网络及信息安全及其应用关键技术