APP下载

基于客户资产离群数据分析的客户分类

2018-10-16孙晓琳

统计与信息论坛 2018年10期
关键词:离群数据挖掘年龄

孙晓琳,姚 波,陈 瑜

(1.西安财经学院a.商学院,b.统计学院,陕西 西安 710100;2.西安交通大学 人文社会科学学院, 陕西 西安 710049)

一、引言

大数据时代已经到来,就营销领域而言,大数据已形成一定的规模,其多样性、低价值密度以及实时性的复杂特征对于营销既是挑战也是机遇。在营销管理中,对客户实行分类管理是企业运作的核心问题之一。识别并拥有优良客户,进而有针对性地开发以及维持客户,既避免了企业由于分散精力造成的资源浪费,导致成本上升,也降低了企业盲目营销带来的巨大风险。通过收集客户与企业在接触端产生的数据进行有效的客户分类,既过滤了市场上与企业不存在交易关系客户的数据干扰,也避免了侵犯客户隐私带来的法律风险。在客户数据挖掘过程中,经常会碰到离群数据,它们与整体数据表象层面所体现出的规律不一致,游离在大部分所处的区间之外,通常被认为是噪声数据或者异常数据而被剔除,但其作为客观存在的数据,该处理的方式显然是不恰当的。

因此,如何在海量数据中筛选数据,选取哪些数据,运用怎样的数据挖掘算法完成客户数据的价值“提纯”并寻找重要客户,成为目前大数据背景下营销领域亟待解决的问题。本文在相关研究的基础上,构建了基于客户资产离群数据分析的客户分类模型,并针对不同的客户分类提出相应营销策略。通过梳理客户资产、客户分类和离群数据挖掘等相关文献,在传统客户分类模型RFM的基础上,在交易频率、交易的产品或服务的种类、交易金额3个维度上,增加了年龄维度,构建了基于客户资产离群数据分析的客户分类模型,提出了从离群数据的角度深入挖掘客户信息,开展客户分类,并针对不同分类的客户提出了不同的营销策略。最后,运用该模型对某公司客户数据进行了分析,提供了供参考的实例。

二、文献综述

(一)客户资产

客户资产(Customer Asset)是客户关系管理最终目标,“客户资产”最早出现于1996年哈佛商业评论刊出的《用客户资产进行营销管理》中[1]。许多外文文献将客户资产视为客户终身价值的折现。Blattberg 和Deighton认为每个客户在其整个预期生命周期中用以抵消企业固定成本的预期贡献就是客户资产,也就是收入减去成本的折现值。他们主张,企业应视客户资产为金融资产,对其进行测量和管理以图价值最大化[1]。Dwyer等人则提出 “客户特许资产”的概念,强调企业应当抛弃以产品为导向的、离散的交易理念,转而致力于能够使客户感到满意的产品以及服务,以确保客户的重复购买[2]。Rust等人(2004)认为,客户资产是多个营销研究领域的重叠部分,并非是简单的独立领域,但是其与客户关系管理最为密切,所有组织可能客户的终身价值折现后的总和就是客户资产。Keith A.Richards和Eli Jones(2008)等人认为客户资产的定义必定与企业的当前客户以及潜在客户的终身价值分不开,从这个角度出发,他们认同客户资产即每个客户终身价值折现后的总和。Bemd等基于Rust等人关于客户资产的定义,探寻了如何以客户资产作为评估企业未来导向的新标准[3]。

国内相关研究通常是从银行等金融部门出发,简单地将客户资产视为客户的金融资产总额。主要体现在客户的银行存款方面,而不是客户的终身价值层面。因而,深入研究客户资产的文章并不是很多。刘英姿等从折现值的角度出发,表示客户资产计算所需要的大量指标都无法表示在当时的财务报表中,计算所得结果与实际情况有差距[4]。马少辉等提出对客户资产的客户保持模型和维持模型进行优化,同时表明,客户不同,风险不同,加上客户资产又是长期价值体现,所以模型的风险差异性研究稍显不足[5]。彭虎峰基于数据挖掘和统计方法对客户资产进行测量,提出从客户分类出发,寻找客户消费行为规律,总结平均群毛利润变化规律并计算各群毛利润,最终计算得到客户资产[6]。这种统计和数据挖掘结合的方法不易掌握,只是提供了一个新的测量客户资产的思路。也有相关研究从企业客户资产价值进行评估。胡姝哲采用多期超额收益法及其评估模型,对某一企业进行了案例分析,运用该模型对企业的客户资产价值进行了评估[7]。综上所述,客户资产即是企业所面对的客户的终身价值的贴现之和,是客户终身价值的体现。

本文研究客户资产,并不关注精确的测量方法,试图通过对具有不同客户资产的客户进行分类,在实际层面优化企业资源分配,保留企业有价值客户,扩大企业客户规模,进而提升企业的市场营销管理能力,使得营销行为与企业利益真正联系在一起。

(二)客户分类模型

客户分类模型中价值模型主要两种,即RFM模型和Marcus 模型。RFM模型是一种借助于分析客户与企业之间的交易行为来衡量客户价值,进而进行客户分类的模型。其测算的三个细分变量是R(Recency),F(Frequency)和M(Monetary),分别代表客户与企业交易的时间、交易的频率以及交易的金额。RFM模型的不足之处在于交易时间、交易频率以及交易金额方面无法避免的多种共线性。Marcus模型是对RFM模型进行改进,采用客户平均交易金额A(Average Monetary)替代传统模型中的细分变量——交易金额M。同时,为了简化传统模型的客户分类结果,Marcus应用聚类的思想,根据客户与企业之间的交易频率以及平均交易金额进一步将客户划分为4种类别,分别是消费客户、优质客户、不确定客户以及经常客户[8]。本研究中客户分类在RFM模型3个分类基础上,增加了年龄变量,使客户分类的划分更加细致。

(三)离散数据挖掘

实际数据挖掘的过程中,经常会碰到一类数据,它们与整个数据集合的表现不符,与整体数据表象层面所体现出的规律不一致,游离在大部分所处的区间之外,所特有模式使得其经常被误判为噪声数据或者异常数据,从而在数据清洗之初就被过滤掉,不予考虑,这样的数据就是离群数据。在数据集合中,检测异常数据并对其加以归纳、分析、解释的过程称为离群数据挖掘。近年来,已有越来越多的学者对离群数据挖掘表示出极大的兴趣。

国外学者早于20世纪90年代初开始探索离群数据的检测算法。Rosner(1991)提出,可以考虑应用单样本多个离群检测法,即ESD(Generalized Extreme Studentized Deviate)算法检测离群数据。Aggarwal和Yu(1997)等人提出基于高维的数据异常检测方法。Knor和Ng(1998)提出,基于距离检测离群数据具有一定的合理性。Breunig 等人提出,基于局部离群因子进行离群数据检测可行性较高。LOF、Struyf和Rousseeuw提出基于深度的离群检测算法。

较之国外,国内的离群数据研究比较分散,但已逐步形成一系列有意义的研究成果。史东辉(2000)分析大量医学流行病数据,针对性地提出基于规则进行挖掘,并取得了良好的效果。郑斌祥(2004)等人所提出基于离群指数的时序数据进行数据挖掘,能够更好地应对数据逐渐呈现出的时序性,同时也能够进一步考量在时序维度层面上,数据所体现出的离群特性。曾学友(2006)提出了基于快速贪心算法,进行离群数据挖掘,提高了海量数据挖掘的效率。唐志刚(2010)所提出的基于马尔可夫链的离群点检测方法,有效提高离群数据挖掘的效率以及数据维数处理的效能。彭小奇(2010)提出基于支持向量机进行离群挖掘,在很大程度上改善了高维数据的检测效率。

大数据背景下,数据存在的形式多种多样,分布的规律性有待考量,数据结构也呈多元化发展,且数据的维度不断增多而价值密度降低,对数据内蕴含的信息进行挖掘显得尤为必要。简单的数据分类与聚类已经无法满足数据挖掘的需求,离群数据挖掘将日益成为一种重要且有效的挖掘方式。

三、基于客户资产离群数据分析的客户分类模型

就离群数据而言,市场营销的离群数据满足普通离群数据的特征,它们游离在大部分普通数据的活动区域之外,却能反映客户某方面重要的特征信息。例如,“交易金额极其大”的信息属于离群信息,但是反映了客户超强的购买实力,忽略这样的客户绝非明智之举。

就客户资产而言,其旨在帮助企业更加深刻理解客户,掌握客户需求,并意图通过管理客户,以影响客户的行为,促使客户对企业做出更大的价值贡献。这需要经历客户识别、客户分类、客户管理的过程。离散数据分析通过从所得数据中提取信息来解释隐含的客户资产,可以帮助企业实现客户资产挖掘。

(一)客户分类指标

本研究拟构建基于客户资产离群数据分析的客户分类模型,采用4个维度的指标对客户进行分类,分别是交易金额、交易的产品或服务的种类、交易频率和客户年龄。但介于客户信息的3个维度更具可操作性,故选择交易金额、交易的产品或服务的种类、交易频率作为变量进入模型。选择客户年龄作为第4维度是因为客户资产代表了客户终身购买价值的总和,可以衡量客户处于“终身”的哪个阶段,进而分析客户的当前消费状态以及消费成长性。另外,虽然简单的人口统计变量远不及社会经济变量以及心理学变量在划分客户层面那么准确,但介于社会经济变量以及心理学变量在收集、整理、处理方面的复杂与繁琐容易引起结果不准确,在此采用客户年龄作为第4个客户分类指标,并假定客户的年龄总体分布呈现正态分布规律。客户信息4个维度的数据可以很容易地在终端接触点通过整理获得。尤其在电子商务环境下,交易金额、交易的产品或服务的种类、交易频率以及客户年龄可以通过后台操作获得。通过对4个维度指标的离群数据进行分析,可以发现重要客户的相关特征。

(二)建模思路

首先,获取企业所有客户的交易金额、交易的产品或服务的种类、交易频率3类数据,进行无量纲化处理,使数据在[0,1]之间,应用MATLAB编程,确定3个变量的取值合理区间[a,b],其中a、b的满足条件为0

其次,对第4维度年龄进行分类。理想状况下,企业应该参考当时当地经济发展水平,进行消费能力调查,借助专家分析,合理判断企业客户的消费年龄结构。客户年龄结构满足正态分布模型,因此变量介于μ-3σ与μ+3σ之间的概率高达99.7%,基本包括企业所有的客户。在此基础上,对年龄分布在99.7%以内的客户进行年龄分段。对年龄无量纲化到[0,1]之间,确定首段年龄的区间为[0,P(X<μ-σ)],中段年龄的区间为[P(X<μ-σ),1-P(X<μ-σ)],尾段年龄的区间为[1-P(X<μ-σ),1]。

在此,对建模思路中的客户分类划分具体如下:

1.离散客户的确定。合理客户与离散客户共同构成了企业所面对的总体客户。由图1可知,企业总体客户分布于边长为1的正方体内部,该正方体的长、宽、高三条边分别表示交易的产品或服务的种类、交易金额以及交易频率。同时,每条边取0.5作为中间值,区分出“多与少”、“大与小”,“高与低”不同属性。图中以(b-a)为边长的阴影正方体就是合理客户存在区域,小实心正方体以外的区域就是离散客户区域。表1所划分的24类离散客户,不考虑年龄维度的情况下,就分布在此离散区域内,考虑年龄维度的情况下,就是特定年龄段(首段、中段与尾段)的此区域。

图1 企业客户区域图

2.合理客户的存在意义。本研究脱离了合理客户,将无法顺利完成,究其原因,主要有以下3个方面原因:一是合理客户客观存在,直接忽略将破坏总体数据分布规律,为后续研究带来极大困扰;二是合理客户属于常规意义上数据表现良好的客户,是以往研究的重点部分,直接忽略将减少模型科学性;三是合理客户数量一般在总体客户中占比较大,属于帕累托法则“二八法则”中80%的范畴,直接忽略则无法寻找最佳合理区间。按照交易金额、交易的产品或服务种类、交易频率和客户年龄4个维度,可将客户分为 25 类,并根据其交易金额和年龄进一步划分为4大类型,如表1所示。

表1 客户分类表

(三)4大类客户的管理策略

根据客户关系管理的相关研究,客户关系管理包含以下内容:客户关系管理是企业战略的内容之一;信息技术是客户关系管理的方法;客户关系管理始于对顾客行为和特性的深入分析,也意味着与客户之间的互动接触;客户关系管理的目的是实现顾客价值最大化和企业收益最大化之间的平衡;不同的顾客具有不同的关系价值,企业必须将精力放在最有价值的顾客身上[9]。因此,基于客户关系管理的相关理论,针对四大类客户提出如下管理策略:

1.第一大类客户管理策略。第一大类客户主要包括交易金额大的年龄分布于首段以及中段的客户。对第一大类客户必须坚持“重点开发”的原则。第一大类客户的交易金额大,一般来说很可能是企业型大客户,是最重要的客户,企业应采取重点开发的策略,为客户提供额外优惠和特别服务。其中第一大类客户又因年龄分布不同,需求也不同,企业可配备相应管理人员重点监管,了解客户需求,为客户主动推荐商品,重视售后服务,提高客户的忠诚度和美誉度。同时,可以加大对这些客户的公关,为客户提供更加周到和满意的服务,处理好与客户的关系,甚至结成联盟。

2.第二大类客户管理策略。第二大类客户主要包括交易金额大的年龄分布于尾段的客户。对第二大类客户的管理可以采用“关键维持”的原则。第二大类客户的交易金额大,很大可能是企业现在重要的一部分客户来源,但介于第二大类客户的年龄属于尾段,其交易的产品或者服务的种类不论多少,交易的频率不论高低,都将在未来一段时间内呈下降趋势运行。甚至很多现有客户享受的是企业提供的最后一件产品或者最后一项服务。因此,对这部分客户应采用“关键维持”的策略,做好产品相关的各项附加服务,争取美誉度,以期客户的影响力为企业带来新的优良客户资产。

3.第三大类客户管理策略。第三大类客户主要包括交易金额小且年龄分布于首段以及中段的客户。对第三大类客户的管理可以采用“培养有度”的原则。第三大类的交易金额小,一般来说不是企业型大客户,短期内无法成为企业的重要客户来源,但企业也不能就此放弃。其中第三大类客户中,相对年龄较轻,并具有一定的购买能力,具有良好的可塑价值。维持客户关系,进而挖掘需求,重点培养第三大类客户的忠诚度,促进他们向第一大类客户的转变。但是,第三大类客户忠诚度较低,如果在一定时期内对企业的培养没有积极地反馈,企业可考虑不再浪费过多的资源和精力开发此类客户。

4.第四大类客户管理策略。第四大类客户主要包括交易金额小且年龄分布于尾段的客户以及其他合理客户。对第四大类客户的管理可以采用“适度放弃”的原则。第四大类客户的忠诚度低,由其特点可知,他们在现阶段没有为企业创造客观的价值,预期在未来其价值贡献也不高。对客户资产属于第四大类的客户进行管理,最好的策略就是“适度放弃”原则,与其争取第四大类客户的终身购买价值,不如为其提供合理的服务,将企业更多资源用于更加高效的配置,进而保证企业营销的可持续,降低企业的市场风险。

四、构建客户分类模型

根据管理学中的帕累托“二八法则”对客户进行划分,即企业 80%的收入来自20%的客户,80%的客户为企业创造的利润不高。因此,确立客户分类模型的基本分类规则为,第四大类客户数量占比为80%。具体建模过程如下:

(一)数据集合

整理客户信息表单,内容包括交易金额,交易的产品及服务种类,交易频率以及年龄分段,形成总体客户数集合和单客户数据集合。总体客户数集合为X={x1,x2,…,xn},其中,N为客户总数量。单客户数据集合为xi=[e1,e2,e3,e4]T,分别表示第i名客户的交易金额,交易的产品及服务种类,交易频率以及年龄分段。

(二)无量纲化处理

应用极值法对单客户数据进行无量钢化处理,公式如下:

(三)寻找合理区间

分别定义第四大类中的客户21、客户22、客户23、客户24、客户25为C21、C22、C23、C24、C25。按照集合运算的法则求得第四大类客户的集合为C,具体的集合如下:

C25=a≤eij≤b,0≤ei4≤1,j=1,2,3,C=C21∪C22∪C23∪C24∪C25

另外,利用梯度下降的方法,给定初始值a=b=0.5,c=0.158 7,d=0.841 3(其中c为正态分布P(x<(-1))的概率,d=1-c),采用MATLAB编程,求解得到合理区间为:

其中,length(C)为C的维度,n为客户总数。

(四)确定客户的类型

首先,界定以下3类集合。

第一类集合——范围初判集合为:

A1=i|eij≤0.5,j=1

A2=i|eij≥0.5,j=1

A3=i|eij≤0.5,j=2

A4=i|eij≥0.5,j=2

A5=i|eij≤0.5,j=3

A6=i|eij≥0.5,j=3

第二类集合——离散判断集合为:

B1=i|eij≤a,j=1

B2=i|a≤eij≤b,j=1

B3=i|eij≥b,j=1

B4=i|eij≤a,j=2

B5=i|a≤eij≤b,j=2

B6=i|eij≥b,j=2

B7=i|eij≤a,j=3

B8=i|a≤eij≤b,j=3

B9=i|eij≥b,j=3

第三类集合——年龄分段集合为:

Y1=i|eij≤c,j=4

Y2=i|c≤eij≤d,j=4

Y3=i|eij≥d,j=4

其次,运用3种集合综合描述25种客户。

第一大类客户:

C1=(B3∪B6∪B9)∩(A2∩A4∩A6)∩Y1

C2=(B3∪B6∪B7)∩(A2∩A4∩A5)∩Y1

C3=(B3∪B4∪B9)∩(A2∩A3∩A6)∩Y1

C4=(B3∪B4∪B7)∩(A2∩A3∩A5)∩Y1

C5=(B3∪B6∪B9)∩(A2∩A4∩A6)∩Y2

C6=(B3∪B6∪B7)∩(A2∩A4∩A5)∩Y2

C7=(B3∪B4∪B9)∩(A2∩A3∩A6)∩Y2

C8=(B3∪B4∪B7)∩(A2∩A3∩A5)∩Y2

第二大类客户:

C9=(B3∪B6∪B9)∩(A2∩A4∩A6)∩Y3

C10=(B3∪B6∪B7)∩(A2∩A4∩A5)∩Y3

C11=(B3∪B4∪B9)∩(A2∩A3∩A6)∩Y3

C12=(B3∪B4∪B7)∩(A2∩A3∩A5)∩Y3

第三大类客户:

C13=(B1∪B6∪B9)∩(A1∩A4∩A6)∩Y1

C14=(B1∪B6∪B7)∩(A1∩A4∩A5)∩Y1

C15=(B1∪B4∪B9)∩(A1∩A3∩A6)∩Y1

C16=(B1∪B4∪B7)∩(A1∩A3∩A5)∩Y1

C17=(B1∪B6∪B9)∩(A1∩A4∩A6)∩Y2

C18=(B1∪B6∪B7)∩(A1∩A4∩A5)∩Y2

C19=(B1∪B4∪B9)∩(A1∩A3∩A6)∩Y2

C20=(B1∪B4∪B7)∩(A1∩A3∩A5)∩Y2

第四大类客户:

C21=(B1∪B6∪B9)∩(A1∩A4∩A6)∩Y3

C22=(B1∪B6∪B7)∩(A1∩A4∩A5)∩Y3

C23=(B1∪B4∪B9)∩(A1∩A3∩A6)∩Y3

C24=(B1∪B4∪B7)∩(A1∩A3∩A5)∩Y3

C25=B2∩B5∩B8

五、实证研究

为了验证上述理论分析与模型构建的科学性和可行性,这里进行实证研究。西安XJ公司是一家专门为西安地区客户提供高端消费品的企业,其提供2016年1月22日至2017年1月22日,共计187份客户消费信息数据用于分析。用编号代表客户,年龄段分为: 0~22岁为首段,23~55岁为中段,55岁及以上为尾段。将客户消费数据经过9次迭代接近最优值,基本上找到了理想的合理区间,总耗时0.026秒,最优化算法寻优速度较快,合理区间为(0.012,0.988),该公司的客户分类情况见表2:

表2 西安XJ公司各分类客户数量表

4类客户的具体信息如下:

1.第一类客户。XJ公司共有4位第一大类客户,详见表3。该类客户购物金额普遍较高且年龄较小,是公司的高端客户,具体情况见表3。

表3 西安XJ公司第一大类客户表

2.第二类客户。XJ公司共有两位第二大类客户,详见表4。该类客户的交易金额较大且年龄较大。

表4 西安XJ公司第二大类客户表

3.第三类客户。XJ公司共有5位第三大类客户,详见表5。该类客户交易金额较小,年龄较小,对企业的忠诚度不高,消费特点基本表现为频率高、种类少;种类多、频率低。

表5 西安XJ公司第三大类客户表

4.第四类客户。XJ公司共有第四大类客户176位。该类客户的特征不明显,当前创造的价值不高,预期未来的价值也不高,对他们的投入往往是“成本大于收益”的行为。

六、结论与建议

针对4类客户的划分,每类客户的管理策略如下。

第一类客户购买金额高而年龄小,公司可将客户定义为高端客户。对该类客户可直接进行接触,例如邀请客户参加公司高端客户见面会,定制客户专属服务,高端产品不定期推送等。切记“过多打扰”和“侵犯隐私”,以免降低高端客户的自我感知价值。

第二类客户的交易金额大而年龄也较大。对该类客户公司可以考虑过节时拜访,生日时中高档样品赞助,先赢得顾客的好感和其对产品的信赖。然后,进入顾客的朋友圈,通过自我开发或者顾客有偿推介的方式,获取其周边的潜在新客户。

第三类客户交易金额较小且年龄较小。对该类客户公司应当维持当前关系,逐步挖掘需求,提高交易达成率。例如,可以提供优惠券,开展买多返多,会员积分送好礼等活动。同时,注重反馈,为其提供免费送货等便利服务,及时解决售后问题,提高客户满意度。

第四类客户的特征不明显,对他们的投入往往是“成本大于收益”的行为。对该类客户公司只要维持正常的交易态度,提供合理的服务水平即可。

客户关系管理的最终目标是实现客户资产管理。本文提供一种离群分析的方法,旨在提供模块帮助企业按照客户资产对客户进行分类,以识别拥有优良客户资产的客户,进而有针对性地开发以及维持客户,既避免了企业由于分散精力造成的资源浪费导致成本上升,也降低了企业盲目营销带来的巨大风险。当然,客户作为企业成长的动力,以及服务的最终购买者,企业的最佳策略始终是持之以恒地为其提供日臻完善的服务。

猜你喜欢

离群数据挖掘年龄
变小的年龄
一种基于邻域粒度熵的离群点检测算法
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于自然邻居邻域图的无参数离群检测算法
一种相似度剪枝的离群点检测算法
年龄歧视
候鸟
算年龄
高级数据挖掘与应用国际学术会议