基于数据挖掘技术的超市顾客忠诚度评价模型的构建

2015-09-30郐淑娥

中国管理信息化 2015年19期

关键词：数据挖掘均值购物

郐淑娥

（东北财经大学职业技术学院，辽宁大连 116023）

基于数据挖掘技术的超市顾客忠诚度评价模型的构建

郐淑娥

（东北财经大学职业技术学院，辽宁大连 116023）

随着计算机技术、网络技术等的迅速发展，顾客忠诚度系统对数据存储、查找、统计、报表等能力有了很大的提高，随着数据不断累积，这些数据背后隐藏着怎样的信息钥能否通过对数据的多角度分析为企业提供更加丰富和有利的决策支持呢钥文章通过数据挖掘技术，构建了超市顾客忠诚度评价模型，以期对企业的管理者提供借鉴。

数据挖掘；顾客忠诚度；评价模型；构建

0 引言

顾客忠诚度是指顾客忠诚的程度，是一个量化概念。它是指由于质量、价格、服务等诸多因素的影响，使顾客对某一企业的产品或服务产生感情，形成偏爱并长期重复购买该企业产品或服务的程度。

顾客忠诚度的数据系统中蕴藏着大量的信息资源，企业虽然可以针对明确的信息，利用查询等工具直接获取，但隐藏在大量数据中的关系、趋势等信息却无法从数据表层获得。需要有新的、更有效的技术对大量的数据进行挖掘以发挥其潜能，从中迅速萃取有用的信息以帮助企业提高顾客忠诚度。因此，有必要在研究顾客忠诚度的评价体系中引入数据挖掘技术，以提高企业的顾客忠诚度和竞争能力。数据挖掘是解决数据丰富而知识贫乏的有效途径，其实质是从数据库中提取隐含的、未知的和潜在有用信息的过程，被公认为是数据库研究中的一个极具应用前景的新领域。数据挖掘技术包括聚类分析、分类与预测以及关联分析等功能，它们可以从评价数据中找出大量真正有价值的信息和知识，能够更好地对顾客忠诚做出定量的分析和预测，进而有效的提高顾客忠诚度，更好的为企业和社会服务。

1 利用数据挖掘建立评价体系的方法

数据挖掘涉及的学科领域和方法很多，有人工智能、数据统计、可视化、并行计算等。根据挖掘任务可将数据挖掘分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等类型。

（1）分类：其旨在生成一个分类函数或分类模型，该模型能把数据库中的数据项映射到给定类别中的某一个。既可以用此模型分析已有的数据，也可以用它来预测未来的数据。

（2）聚集：聚集是对记录分组，把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。

（3）数据可视化：数据可视化严格地讲不是一个单独的数据挖掘任务，它被用来支持其他挖掘任务。可视化是采用图形、图表等易于理解的方式表达数据挖掘结果。

（4）关联规则：关联规则是寻找数据库中值得相关性，主要是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。

（5）序列分析：序列模式分析同样也是试图找出数据之间的联系。但它的侧重点在于分析数据之间前后关系，因此对数据往往要求引入时间属性。序列模式分析非常适于寻找事物的发生趋势或重复性模式。

（6）偏差分析：偏差分析是用来发现与正常情况不同的异常和变化，并进一步分析这种变化是否有意的诈骗行为，还是正常的变化。如果是异常行为，则提示预防措施：如果是正常的变化，那么就需要更新数据库记录。

2 顾客忠诚度模型的构建

2.1 超市顾客数据准备和数据选择处理

2.1.1 数据准备

数据挖掘的对象是数据，只有对数据充分了解之后才能进行数据挖掘工作。结合超市企业的商业目标，理解、熟悉顾客信息，能将商业目标转化为对数据的理解，从而准确地进行数据挖掘。在超市数据库中可获得如下数据：持会员卡的会员此次消费商品的品牌、型号、价格、数量、消费时间等。建立的度量指标为：

（1）超市顾客忠诚度的衡量。超市销售的商品大部分为生活日用品。会员卡购物多以家庭为单位，家庭购物存储期一般不超过6周，故以周为平均计算单位。建立超市顾客忠诚度系数的衡量指标计算方式为：每周购物次数标准差比上平均每周购物次数再加上每周购物金额标准差比上平均每周购物金额，式中，两项之比都表示重要性权重，用层次分析法确定。认为在超市购物中，忠诚顾客是那些在一段时间内购物次数和购物金额相对稳定的顾客，即具备较稳定的购物习惯的顾客。结果的数值越大，表明该顾客购物行为波动越大，越不忠诚；结果的数值越小，则相反。

（2）超市客户盈利性的衡量。基于数据的可获得性和可实现性的考虑，认为购物金额高的客户为企业带来的利润也高，即近似用购物金额的高低来衡量客户盈利性的高低。

2.1.2 数据选择处理

数据选择：通过确定数据挖掘目标和进行数据理解，从XXX市某超市数据库中抽取顾客数据，其中一部分数据用于建立模型、获取规律，最后剩余数据用于模型检验。

数据预处理：数据预处理技术可改进数据的质量，从而有助于提高其挖掘过程的精度和性能。主要为：

（1）缺失的值处理。本研究存在两种类型的缺失的值：一是正常缺失，表现为当周的购物次数和购物金额同时表现为缺失。这种缺失是由于顾客在当周并没有发生购买引起的，缺失用数字“0”填充。二是非正常缺失，表现为当周购物次数和购物金额任意一者缺失。这种缺失是由于人为的疏忽和错误引起的，可采用各属性均值填充。SPSS能很方便地对缺失的值进行处理，可替换满足特定条件的属性值，也可用这个节点来替换、填补空缺值。

（2）极值处理。少数顾客的个别行为可能引起聚类中心的偏移，从而影响聚类分群的准确性。在研究各属性值的图形分布后，去掉部分极值。利用SPSS可产生各属性值的分布图，能直观地看出少数极值分布的区域。

（3）数据规范化。对基于距离的聚类算法，规范化可帮助防止具有较大或较小初始值域的属性权重过大引起聚类中心偏移而影响聚类的准确度。由于顾客的月消费额对顾客价值存在正相关影响，即M值越大，顾客价值越大。

2.2 超市顾客群模型的建立和评估

2.2.1 聚类分析模型

根据商业目标，建立盈利性、忠诚度系数模型，运用聚类算法对超市顾客进行聚类分析。本模型中的顾客分类是将每个顾客的类别聚类中心盈利值和忠诚度值分别与当月的总盈利值和总忠诚度的平均值进行比较来决定的。而单个指标的比较只能有两种情况，即大于、等于或小于平均值，因此可能有4种类别。选定顾客细分数目的值为4，将SPSS中聚类节点中的值设为4。在SPSS中建立聚类模型的流程，分别对数据库中的客户数据进行聚类分析。在聚类过程中，聚类算法结束后自动产生类别标号如“cluster-n”，其中n代表第n类，且类别标号是按照各类数据出现的先后顺序依次标记的。因此，为了方便分析比较各个月的顾客细分群的变化，在聚类前将类别标号进行统一：A表示盈利值的簇均值小于当月盈利值的总均值，忠诚度的簇均值大于总均值的簇；B表示盈利值和忠诚度的簇均值大于当月的总均值的簇；C表示盈利值的簇均值大于当月盈利值的总均值，忠诚度的簇均值小于总均值的簇；D表示盈利值和忠诚度的簇均值小于当月的总均值的簇。结果分析：根据以上聚类模型，可得到A，B，C，D四类顾客：

（1）A类顾客具有很高的消费能力，但是忠诚度很低，这类顾客是企业应该着重争取的顾客，是推销的重点顾客。对这类顾客进行详细分析，并针对这类顾客的特点和需求制定有针对性的服务和推销策略，将他们从竞争对手中争取过来变为自己的忠诚顾客。

（2）B类顾客是产生利润最高和忠诚度最高的顾客。这部分顾客是企业的“黄金顾客”，是企业最有价值的顾客，也是企业应重点保持的顾客。

（3）C类顾客的忠诚度很高，但购物水平相对较低。这样的顾客可能更倾向于物美价廉的产品，他们可能更注重性价比而不是品牌。对于这类顾客应向其推销一些价格较低、性价比适中的产品。

（4）D类顾客的忠诚度较低，消费额也相对较低，他们是竞争对手的忠诚客户，对他们推销存在很大的风险，应适当放弃。2.2.2序列分析模型

SPSS中的序列节点用来建立序列分析模型，序列节点是基于CARMA关联的规则演算法，此外由序列节点创建生成的模型节点可插入到流程中生成预测。从数据库中抽取数据，在SPSS中建立序列模型的流程。其中，序列节点参数过大或者过小，都会导致信息的丢失或产生无用信息，从而影响模型的准确性。因此，参数的设定应该反复调试、谨慎进行。最小规则支持度可设定限定标准，规则支持度是指数据的集中包括完整序列的ID比例，规则支持度数值越大，序列越普遍。本研究中的序列分析对象是超市顾客群的忠诚度。通过统计客户聚类数据发现，数据中A、B、C和D平均每个月的顾客人数占总的顾客人数的百分比分别为17%、24%、20%和39%。为了不丢失有用的信息，将设为最小规则支持度6.0，最小置信度是指在所有做预测的ID中预测正确的ID百分数。置信度的计算方法是用序列中包含完整序列的ID数目除以仅含有前提条件的ID数目。由于此参数表示预测的准确率，故本研究将其设为50.0。最大序列规模可指定序列中项的最大个数。如果有用序列相对较短，可降低该项值。本研究的最大序列为4，因此将次参数设为4。加入流程的预测数指定添加到最终生成模型节点流中的预测数。由于最终生成的预测结果是按照置信度由高到低排列的，即第一个预测的置信度是最高的，对研究也是最有意义的，因此本研究将此参数设为1。

运行序列分析流程，生成的序列模型结果的每一行都代表一个满足模型参数的规律，该规律是按照置信度的降序排列的。前项规律的“if”部分，结果规律的“then”部分，例子包含整个序列的ID数，支持度的记录只包含前项ID的百分比，置信度的显示所有作为预测的ID中正确预测的ID百分数；规则支持度与支持度不同，规则支持记录包含整个序列的ID百分数，即同时包含前项和结果的ID百分数。如果顾客有2个月属于B，接下来有89.7%的可能性仍然属于B。这说明忠诚的高价值顾客保持两个阶段将很可能成为企业的长期忠诚高价值客户，这种客户的流失率较小，是企业的重要利润源。C是相对较稳定的顾客群。C类顾客忠诚程度高，但是消费水平较低，如果超市考虑为这类顾客提供价格较低、性价比较好的商品，这类顾客是很容易保持的。在两个阶段都属于D的顾客，有82.2%的可能仍属于D。顾客在某一阶段表现为D类顾客，接下来的阶段有53.5%的可能仍然表现为D。这就说明，当顾客表现出低忠诚低消费的特征之后将很难被挽回。A类顾客如果在2个阶段内，超市对其提供的顾客挽留策略没有使其成为忠诚顾客，则这类顾客在以后阶段将很难再挽回，可能出现永久性流失。C类顾客通过实施相应的策略，如为他们提供符合其消费特点的商品，使其成为超市企业的高忠诚、高价值顾客后，很可能在下阶段成为企业永久性的高忠诚、高价值顾客。仔细分析A类顾客的消费倾向，将其转变为B类顾客，很可能成为企业永久性的高忠诚、高盈利顾客。