APP下载

基于流形学习的客户价值分析研究

2018-03-10吴兴蛟吴晟周海河刘光榕

软件导刊 2018年2期
关键词:客户关系管理

吴兴蛟+吴晟+周海河+刘光榕

摘 要:为了解决数据高维、海量导致聚类算法处理效果不佳的问题,提出将流形学习理论引入客户关系管理进行聚类研究。为了较好的分析客户价值,在Kmeans聚类的基础上引入流形学习理论。客户价值分析一般包含数据的抽取、探索以及预处理、模型建立几个步骤。在模型建立过程中一般采用Kmeans聚类实现。使用流形学习的谱聚类来替代Kmeans聚类。使用泰迪杯数据挖掘大赛中的数据进行试验,通过实验的雷达图可以看出,谱聚类与Kmeans聚类具有相似的分类构成。同时对于分类后的数据进行规约并绘制散点图,比较后发现,谱聚类后的数据类间相似度比Kmeans高,表明将流形学习方法引入客户价值分析,对于聚类稳定性有一定改善。

关键词:客户关系管理;流形学习;Kmeans聚类;雷达图;客户价值分析

DOIDOI:10.11907/rjdk.172314

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2018)002-0136-04

0 引言

客户管理通常通过构建客户关系管理系统进行维护[1]。客户关系管理一般用来进行客户与企业的关系维持,企业与客户的供需推广。使用客户关系管理可以预防用户流失,也是一种衡量用户服务程度的科学有效方式。在大数据背景下,随着数据挖掘技术的成熟,使用有效的挖掘手段,从有价值的客户中寻找高价值客户群成为一种降低企业成本,实现高效益的有效手段。数據挖掘关键技术是聚类算法,一般采用kmeans算法进行客户群聚类,但现行的kmeans聚类对于高维、海量数据聚类有一定缺陷。

为了改善这一缺点,本文将流形学习引入,替代之前的Kmeans聚类,从而实现在高维海量数据下对客户进行聚类。聚类算法研究有基于层次、基于分割、基于密度、基于网格和基于模型五个方面[2-4]。引入流形学习不仅解决了高维数据处理的难题,也极大简化了非线性数据的处理。

引入流形学习对客户关系进行分析与研究,是一种新的改善聚类算法的尝试,也是一种运用流形学习算法的新方式。

1 相关理论

1.1 客户群体聚类分析

企业用户数据源或数据库中存有的那些用户消费数据是一种无形财富,按用户的不同属性(年龄、性别、收入、交易特点)细分为不同群体的过程就是所谓的客户群体聚类。一般来说,对那些业务产品以及业务需求相似的一类群体,会分为同一个群组用户。换言之,不同的群体之间具有不同的特点,通过客户细分,企业就能将繁杂的人员进行汇总,将用户群体分为固定的几类。公司决策层就能制定不同的营销策略以实现高回报的营销推广。相关研究如陈凤洁[5]运用聚类技术建立了客户细分模型,对电信行业客户细分进行了实例验证及研究。一种多因素分析(MFA)的多准则聚类技术被Abascal等[6]运用于某电信公司的客户细分模型构建。

使用Clementine[7]、SPSS等数据挖掘软件进行管理较多。根据产生的模型或数据建立合理的用户细分预测模型[8],利用数据挖掘聚类技术进行应用推广[9]。

1.2 流形学习

流形聚类是解决高维大数据问题的算法,近几年不断被优化,已日渐完善,算法有ISOMAP、LLE[10]、拉普拉斯算子特征映射(Laplacian eigenmaps)[11]、最大方差展开(MVU)[12-14]、局部切空间分析(LTSA)[15-16]等。其中比较典型的是谱聚类算法,谱聚类就是使用样本间的相似度进行样本分组的一种方式。

谱聚类[17-18]步骤:①计算每个数据节点与其余数据节点的相关系数,构建相似度矩阵;②将相似度矩阵进行拉普拉斯矩阵构建,然后将构建的矩阵归一化;③生成最大的k个特征值和对应的特征向量;④将特征向量使用Kmeans方法聚类。

2 模型建立

对客户关系进行聚类分析的步骤如图1所示。

2.1 数据抽取

抽取一定时间段内的数据作为分析观测窗口。

2.2 数据探索及预处理

对抽取数据的缺失值分析与异常值分析,得出数据规律及数据异常值的过程称为数据探索。数据清洗、数据规约、数据变换为其主要过程。

对不符合逻辑的值、空值或者异常值进行清除,是数据清洗的必须步骤。对于不相干数据、冗余数据乃至弱相关数据的筛选属于属性规约工作。不同的数据有不同的问题,使用数据变换将数据转变为需要的数据样式才能作为挖掘模型的数据源。一般采用的变换方式是在指标范围内进行数据标准化,那些跨越数量级较大的数据容易出现峰值误差,难以用图示描述,为消除取值范围内的数据差异则采用数据标准化。假设一组长度为N的数据x,其平均值为u,使用式(1)进行数据标准化:

2.3 模型建立

模型采用谱聚类算法替代kmeans算法对数据集进行聚类。

谱聚类算法必须先进行相似矩阵构建,将不同维数或不同构型的数据进行处理,得到新的n阶方阵。在此一般采用矩阵的特征值或结合矩阵的使用特性构建新的方阵。

谱图理论作为谱聚类方法的基础方法[19],其基本思想是构建一个样本作为定点,样本间相似度作为带权边的图,从而将样本的聚类问题巧妙转化为图的分割问题,将问题变成寻找组成边权重较低,同时组内边权重较高的图分割的一种方法。与传统的聚类相比,该方法不受聚类形状的约束,能在任何几何形状上进行聚类,同时能收敛于全局,得到全局最优解[20]。可根据式(2)构造聚类相似矩阵。

(5)计算矩阵L的归一化矩阵E的k个最大特征值及对应的特征向量,形成一个N×K的特征矩阵,记为Q。

(6)使用Kmeans聚类处理特征矩阵Q,处理后就会获得一个N维向量C。这个向量对应的举证W就是最终的聚类结果。endprint

3 实例验证

采用泰迪杯数据挖掘大赛航空公司客户数据,实验数据量为6 000条。使用识别客户价值的RFM模型[21],指标是最近消费时间间隔、消费频率、消费金额。采用张良均MATLAB数据分析与挖掘实战[22]一书中的LRFMC模型,并与书中的Kmeans聚类结果作对比。在原文基础上增加日期差转化为月份方法,以及绘制雷达图方法。其中日期差转化为月份得到:

3.1 数据抽取

抽取的数据包含会员卡号、入会时间、性别、年龄、会员卡等级、工作城市、工作省份、工作国家、观测窗口结束时间、观测窗口乘机积分、飞行公里数、飞行次数、飞行时间、乘机时间间隔、平均折扣等44个属性。

3.2 数据探索分析

主要是数据缺失值及异常值的探索,分析数据的空值及个别数量为0的无效值。

3.3 数据预处理

探索后的数据主要出现两个不合格记录,一个是票价为空的记录,另一个是飞行公里数大于0而票价为0的记录。

根据LRFMC模型规定,使用会员入会时间距离观测窗口结束月份L,客户最后一次乘坐飞机距离观测窗口月份R,在观测窗口内乘坐飞机次数F,在观测窗口内累计飞行里程M,在观测窗口内对应折扣系数平均值C进行分析。由此取其中6列作为原始数据。其中除L为式(6)计算所得,其余均为数据给出。

得到的数据由于最大值与最小值相差甚远,所以采用式(1)进行规约,得到ZL,ZR,ZF,ZM,ZC。

3.4 模型構建

基于规约后,对数据进行Kmeans聚类以及谱聚类。

3.5 模型对比

聚类中心结果见表1。

将以上聚类中心在雷达图上描绘,得到如图2的直观图例。

可以得到表2的Kmeans聚类雷达图极值。

从图3可以得到表3、表4。

4 实验结果与分析

将聚类后的聚类标签代入原数据,得到一组带聚类标签的数据。使用式(7)进行数据的归一化,求和后得到一个表征数,根据表征数进行绘图。

采用Excel绘图,每次类别结束后插入一个固定值-12作为聚类区分值。分别绘制Kmeans聚类散点图(见图4)及谱聚类散点图(见图5),从绘制出的散点图可以看出聚类的稳定性。

Kmeans聚类结果第1类为1-1 808;第2类为1 810-2 496;第3类为2 498-3 669;第4类为3 671-3 980;第5类为3 982-6 000。

谱聚类结果第1类为1-1 638;第2类为1 640-2 299;第3类为2 301-4 967;第4类为4 969-5 755;第5类为5 757-6 000。

对比两个聚类散点图可以看出,谱聚类得出的聚类结果单独的点比较少,类间关系较为紧密,类间间隔较为明显。

5 结语

海量、高维数据的处理成为难点。海量数据的产生对传统的处理算法提出了新要求。改进算法可从算法替换以及改进设备两方面入手。

将流形学习理论引入客户关系管理,从聚类的雷达图得到评判依据,聚类效果无太大差别。从相同类别间的关系来看,谱聚类形成的聚类类别之间的差异性更低,这样能得到较好结果,说明将流形学习运用到客户关系管理可行。

参考文献:

[1] 吕廷杰,尹涛,王琦.客户关系管理与主题分析[M].北京:人民邮电出版社,2002.

[2] 张伟,刘勇国,彭军,等.数据挖掘发展研究[J].计算机科学,2001(7):79-94.

[3] 张红云,刘向东,段晓东,等.数据挖掘中聚类算法比较研究[J].计算机应用与软件,2003(2):5-77.

[4] 杨小兵.聚类分析中若干关键技术的研究[D].杭州:浙江大学,2005.

[5] 陈凤洁.电信客户细分方法及应用[J].科技和产业,2005,5(11):10-12.

[6] E ABASCAL, I GARCIA LAUTRE, F MANOR.Data mining in a bicriteria clustering problem[J]. European Journal of Operational Research,2005(3):1-12.

[7] XIANG M, SHI WR, JIANG CJ, et al. Energy efficient clustering algorithm for maximizing lifetime of wireless sensor networks[J]. AEU-Intl Journal of Electronic and Communication,2010,64(4):289-298.

[8] O YOUNIS, S FAHMY. HEED: a hybrid_id, energy-efficient distributed clustering approach for ad hoc sensor networks[J]. IEEE Transaction on Mobile Computing,2004,3(4):366-379.

[9] DUHAM M H. Data mining introductory and advanced topics[M].Pearson Education,2003.

[10] L K SAUL, S T ROWEIS.Think globally, fit locally: unsupervised learning of low dimensional manifold [J]. Journal of Machine Learning Research,2003(4):119-155.endprint

[11] M BELKIN, P NIYOGI. Laplacian eigenmaps for dimensionality reduction and data representation [J]. Neural Computation,2003,15(6):1373-1396.

[12] K Q WEINBERGER, L K SAUL. Unsupervised learning of image manifolds by semidefinite programming[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR-04), vol.2, Washington D.C.,2004:988-995.

[13] K Q WEINBERGER, L K SAUL. An introduction to nonlinear dimensionality reduction by maximum variance unfolding[C]. In Proceedings of the Twenty First National Conference on Artificial Intelligence (AAAI-06), Boston,MA,2006.

[14] K Q WEINBERGER, L K SAUL. Unsupervised learning of image manifolds by semidefinite programming [J]. International Journal of Computer Vision,2006,70(1):77-90.

[15] Z Y ZHANG, H Y ZHA.Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. SIAM Journal of Scientific Computing,2004,26(1):313-338.

[16] 张振跃,查宏远.线性低秩逼近與非线性降维[J].中国科学:A辑数学,2005,35(3):372-285.

[17] R VIDAL. Subspace clustering[J]. IEEE Signal Processing Magazine,2011,28(2):52-68.

[18] J SHI, J MALIK.Normalized cuts and image segmentation[J]. IEEE Transactions Pattern Analysis Machine Intelligence,2000,22(8):888-905.

[19] 王勇.基于流形学习的聚类与聚类方法及其应用研究[D].长沙:国防科学技术大学,2011.

[20] Y WANG, Y JIANG, Y WU, et al. Spectral clustering on multiple manifolds[J]. IEEE Transactions on Neural Networks,2012,2(7):1149-1161.

[21] 罗亮生,张文欣.基于常旅客数据库的航空公司客户细分方法研究[J].现代商业,2008(23):54-55.

[22] 张良均,杨坦,肖刚,等.MATLAB数据分析与挖掘实战[M].北京:机械工业出版社,2015:167-168.endprint

猜你喜欢

客户关系管理
浅谈烟草商业企业的“客户关系管理”