基于WEKA平台聚类分析的检测客户消费分析

2022-07-19吴臻

信息记录材料 2022年5期

吴臻

（上海木材工业研究所有限公司上海 200051）

0 引言

随着检测技术的精细化、智能化，检测行业发展迅速，竞争环境日趋恶劣，检测服务不仅需要技术的提升，服务质量也需要达到更高的标准，这样才能使客户的消费更具有弹性和粘性。据粗略统计，每年一个检测站中产生的检测相关数据多达3万条，仅仅委托信息产生的数据就有1万多条，针对这些数据进行分析与挖掘，可以让数据变得鲜活。利用数据挖掘技术，在这些海量数据后面发现有价值的线索和规律，精确满足客户需求，实现精细化营销。

随着社会从信息化进入到数字化，大数据技术得到较快发展，而这又促使机器学习高速发展。在众多机器学习算法中，聚类分析方法具有实用性、简单化和高效性的特点，这些优点使聚类分析方法广泛应用于许多领域[1]。

1 数据挖掘

1.1 数据挖掘原理

数据挖掘是一门将人工智能、机器学习、模式识别、数据库、可视化技术等技术进行交叉综合的学科。本质上，数据挖掘是通过分析每个数据，并使用技术在大量数据中查找其规律模式的过程。换言之，数据挖掘是从未知的数据库中揭露隐含的、之前未知的并有潜在价值的数据的过程。数据挖掘的过程一般难度系数大，且是一个多层次的过程，它包含了数据准备、数据挖掘、结果表达和解释3个主要阶段，见图1[2]。

1.2 聚类分析与K-means

在数据挖掘技术中有一种非常常用且重要的技术，叫作聚类分析技术，在机器学习中，它属于无监督学习方法。在对数据不作任何假设的条件下，聚类分析使用数学方法研究数据集对象，并将所给对象进行分类，然后分析各类之间的亲疏程度。聚类分析的目标是将数据分类到不同的类或簇，相同类别内的数据有很大的相似性，而不同类别之间的差异则较大[3]。从本质上可以将这种技术定义为尝试将对象按相关特征进行分组，使同一组的对象处于同一聚类中的过程。按照数据是否划分层次，聚类分析算法可以分为两大类：即层次聚类算法和划分聚类算法。层次聚类算法是通过某种相似性规律将各节点进行排序，由此形成一个具有高层次结构的聚类树，按照各节点排序方式将聚类树分成两种类型：一种是以自下向上的方式构建树结构，叫做凝聚型层次聚类；另一种是以自上向下的方式构建树结构，叫做分裂型层次聚类。划分聚类算法则是根据预先指定聚类数目和聚类中心，将数据集分成若干个没有交集的簇，在这一过程中会优化一些损失函数[4]。需要注意的是，聚类分析只能分析连续性的数据值，而不能分析离散化的数据。

K-Means算法是聚类分析算法中最为普遍使用的算法，它具有聚类效果良好、原理简单易懂等优点，在1967年，Mac Queen就首次使用K-Means算法对数据进行了聚类分析。K-Means算法是以数据对象间的距离即欧式距离作为衡量数据对象间相似度的指标，而数据的相似度与数据间的距离呈反比关系，这意味着数据间相似度越高，则数据之间的距离越小，通过按照数据间距离将数据对象进行分类，可以得到不同的聚类分布。K-Means算法的前提是需要预先给出初始聚类簇数k值，通过k值可以得到不同的聚类中心，然后再根据数据对象与聚类中心之间的相似度，不断调整聚类中心的位置，在这过程中类簇的误差平方和（Sum of Squared Error，SSE）也在不断降低，当SSE不再变化或目标函数收敛时，此时聚类分析结束，并得到最终结果。

K-Means算法的准则函数定义为：

其中SSE是数据库所有对象的平方误差和，x是空间中的点，表示给定的数据对象，是簇Ci的平均值。

1.3 WEKA工具

在进行聚类分析时，一般使用怀卡托智能分析环境（Waikato Environment for Knowledge Analysis，缩写为“WEKA”），这是一种用Java语言编写的用于数据挖掘机器学习软件，集合了大量能承担数据挖掘任务的机器学习算法[3]，软件中包含如分类、聚类、回归、关联等处理标准数据挖掘问题的大量算法，并可通过软件进行可视化处理。WEKA的一大特点是其为开放源代码，无需编写任何程序代码，只要新编写的算法符合其接口规范，就可以嵌入其中，而使其原有算法可以得到扩充。更为便利的是，WEKA不仅提供了大量学习算法进行数据集分析，它还能提供一系列用于转换数据集的工具，例如用于排序和采样的算法。因此，在对客户的消费行为进行聚类分析时，选用WEKA工具能够得到很有效的结果。

2 数据预处理

2.1 客户消费数据处理

检测委托平台中导出的2021年检测客户消费信息1500份，这些委托信息由委托时间、消费金额、检测周期、委托项目等构成。现将客户消费项分为金额（money）、时间（time）、月份（month）及频次（frequecy）4部分，本文将围绕这4个维度进行聚类分析，分析客户的消费行为，从而对不同的客户类型进行分类评价，针对不同类型的客户指定不同的服务方针和检测制度，从而提升检测服务质量。

2.2 k值的确定

在传统K-Means算法中，一般要求初始聚类簇数k值预先指定的，否则无法进行聚类分析，但在实际操作过程中，由于需要计算的数据量过大或操作人员缺乏经验，无法准确确定k值，k值的确定也是K-Means算法的难点和缺陷。如果k值选取得过小，则会导致同一簇内数据对象差异性很大，不同簇的聚类之间互相交集过多；如果k值选取得过大，则会导致不同簇间差异过小，可能会分类出过多特征及其相似的簇，失去了聚类的意义。另一方面，k值选取不当也会使最终的聚类结果无法实现所有数据的最优化。因此，在实际操作中一般运用肘部法确定初始聚类簇数k值，其原理是基于初始聚类簇数k值与误差平方和SSE的关系，取不同k值，并得到对应的SSE的变化趋势，见图2，选择肘点，即误差平方和SSE的变化程度最大时所对应的k值作为最优簇数[5]。

在进行客户消费行为分析时，通过运用肘部法，将k值从1设置到8，然后计算出其对应的误差平方和SSE。根据图2所示，当k为4时，误差平方和SSE的变化程度最大，此时为肘点，由此得到最优簇数为4。

3 数据分析

3.1 WEKA平台设置

在WEKA平台进行聚类分析，首先将数据文件由CSV格式转换成为WEKA能识别的ARFF文件。WEKA 平台分为4种界面：Explorer（探索者）、Exper-imenter（实验者）、Knowledge Flow（知识流）、Simple CLI（命令行）。本文使用Explorer用户界面对数据集进行聚类分析实验。其操作步骤为：首先，进入Explorer界面，打开ARFF文件；然后，通过选择Cluster选项卡，在下拉菜单中选择打开Simple K-Means界面；接着，按照表1的参数值对Simple K-Means的参数进行设置；最后，点击聚类分析Cluster中的Start按钮，即可对数据进行K-Means聚类分析，WEKA平台输出聚类分析结果，并可进行可视化呈现[6]。

表1 Simple K-Means参数设置

3.2 数据聚类分析

通过WEKA平台对客户消费数据集进行K-Means聚类分析，得到如下结果。

右击左下方“Result list”列出的结果，在下拉菜单中选择“Visualize cluster assignments”，弹出的窗口呈现了各数据的散点图。散点图中X轴代表实例号（Instance number）、Y轴代表金额（money），而不同的颜色代表不同的簇（Cluster）。通过散点图不同簇实例的散点分布可以比较直观地看出各实例的聚类分布情况，见图4。

由图3及图4的分析结果可知，在4个Cluster簇中，簇数为0的客户有215人，占14%，簇数为1的客户有629人，占42%，簇数为3的客户有256人，占17%，簇数为4的客户有391人，占26%。通过分析可以发现客户的不同消费习惯和消费水平，簇数为0的客户消费金额最多，达到近4 000元的金额，超过其他簇金额的2倍，委托试验周期最长，可达21天，是其他簇客户委托时间的3～4倍。但这类客户委托频率不高，这些客户可以定义为高消费客户，分析这类客户需要进行产品全项目检测，并且委托了多个产品进行检测，一般包含委托周期为21天的甲醛气候箱法检测项目。这类客户一般以工程验收为主，针对这些客户提出的相关产品检测，可以签订合同给予价格优惠增加客户委托频率，特别是针对委托金额较高且时间较长的甲醛气候箱法检测项目，提高客户粘度，也可扩展检测能力，尽量接受更多类型检测项目，也能提高其服务体验，这类客户一般6月—7月前来委托，夏季为此类客户前来消费的高峰期。

另外，工程验收类型的客户对检测时间的要求比较严格，需要检测机构格外重视客户这方面的用户体验；簇数为2的客户消费金额较少，委托金额平均值为1 500元左右，而这类客户一般消费1 000元，低于平均值，周期也短，一般为5天，但委托频率最高，一年可达到50次，是高消费客户委托频率的8倍，说明其对实验室检测能力充满信任，客户来源比较稳定，可以定义为高频客户，这类客户一般7月—8月前来委托，委托时间太集中且与高消费客户的委托相重合，会给实验室实验进度带来压力，可以与其进行沟通协商，约定每月固定委托数量，将委托数量均衡分布，既满足客户整体委托需求又可以保证实验室日常检测能力；簇数为1和3的客户消费金额尚可，一般在1 200～1 300元左右，略低于平均值，委托频率一般，一年可以来消费7～8次，委托时间也较短，一般为5～6天，可以定义为普通客户，但簇数为1和3的客户数量占整体客户数量的70%，大部分客户都属于这一类，其中簇数为1的客户一般9月—10月来委托，簇数为3的客户一般4月—5月来委托，分别分布在下半年与上半年，且与高消费客户、高频客户的委托高峰避开，这类客户需要正常维护好客户关系，保持固定频率的委托业务，同时通过不断与客户进行业务沟通，针对不同客户的委托特点，可以将常规客户发展为高消费客户或高频客户。另一方面，由于7月—8月为高消费客户与高频客户前来委托的高峰期，检测任务比较集中且繁重，且正值夏日，实验室检测压力较大，有可能需要加班，可以适当给予实验室加班或高温补贴，提高工作积极性，也有利于提高检测服务质量。同时，综合以上情况，每年的11月至次年的3月，客户委托量较少，分析原因为由于正值过年前后，相关企业受生产产能影响，需要进行的检测量也相应减少，检测机构可以在这段时间进行体系文件改进或检测能力的提升，或者开发新的业务领域，增加整体委托量。

通过将客户的消费进行聚类分析，能够比较方便地反映客户消费存在的差异，通过不同客户委托金额、时间、频率、月份的不同，促进检测机构对客户进行分类评价，并进一步指导检测部门在进行检测服务过程中改进与客户沟通方法，有针对性地改进客户服务方法与实验室运营模式，从而提升检测服务质量。