基于客户资产离群数据分析的客户分类
2018-10-16孙晓琳
孙晓琳,姚 波,陈 瑜
(1.西安财经学院a.商学院,b.统计学院,陕西 西安 710100;2.西安交通大学 人文社会科学学院, 陕西 西安 710049)
一、引言
大数据时代已经到来,就营销领域而言,大数据已形成一定的规模,其多样性、低价值密度以及实时性的复杂特征对于营销既是挑战也是机遇。在营销管理中,对客户实行分类管理是企业运作的核心问题之一。识别并拥有优良客户,进而有针对性地开发以及维持客户,既避免了企业由于分散精力造成的资源浪费,导致成本上升,也降低了企业盲目营销带来的巨大风险。通过收集客户与企业在接触端产生的数据进行有效的客户分类,既过滤了市场上与企业不存在交易关系客户的数据干扰,也避免了侵犯客户隐私带来的法律风险。在客户数据挖掘过程中,经常会碰到离群数据,它们与整体数据表象层面所体现出的规律不一致,游离在大部分所处的区间之外,通常被认为是噪声数据或者异常数据而被剔除,但其作为客观存在的数据,该处理的方式显然是不恰当的。
因此,如何在海量数据中筛选数据,选取哪些数据,运用怎样的数据挖掘算法完成客户数据的价值“提纯”并寻找重要客户,成为目前大数据背景下营销领域亟待解决的问题。本文在相关研究的基础上,构建了基于客户资产离群数据分析的客户分类模型,并针对不同的客户分类提出相应营销策略。通过梳理客户资产、客户分类和离群数据挖掘等相关文献,在传统客户分类模型RFM的基础上,在交易频率、交易的产品或服务的种类、交易金额3个维度上,增加了年龄维度,构建了基于客户资产离群数据分析的客户分类模型,提出了从离群数据的角度深入挖掘客户信息,开展客户分类,并针对不同分类的客户提出了不同的营销策略。最后,运用该模型对某公司客户数据进行了分析,提供了供参考的实例。
二、文献综述
(一)客户资产
客户资产(Customer Asset)是客户关系管理最终目标,“客户资产”最早出现于1996年哈佛商业评论刊出的《用客户资产进行营销管理》中[1]。许多外文文献将客户资产视为客户终身价值的折现。Blattberg 和Deighton认为每个客户在其整个预期生命周期中用以抵消企业固定成本的预期贡献就是客户资产,也就是收入减去成本的折现值。他们主张,企业应视客户资产为金融资产,对其进行测量和管理以图价值最大化[1]。Dwyer等人则提出 “客户特许资产”的概念,强调企业应当抛弃以产品为导向的、离散的交易理念,转而致力于能够使客户感到满意的产品以及服务,以确保客户的重复购买[2]。Rust等人(2004)认为,客户资产是多个营销研究领域的重叠部分,并非是简单的独立领域,但是其与客户关系管理最为密切,所有组织可能客户的终身价值折现后的总和就是客户资产。Keith A.Richards和Eli Jones(2008)等人认为客户资产的定义必定与企业的当前客户以及潜在客户的终身价值分不开,从这个角度出发,他们认同客户资产即每个客户终身价值折现后的总和。Bemd等基于Rust等人关于客户资产的定义,探寻了如何以客户资产作为评估企业未来导向的新标准[3]。
国内相关研究通常是从银行等金融部门出发,简单地将客户资产视为客户的金融资产总额。主要体现在客户的银行存款方面,而不是客户的终身价值层面。因而,深入研究客户资产的文章并不是很多。刘英姿等从折现值的角度出发,表示客户资产计算所需要的大量指标都无法表示在当时的财务报表中,计算所得结果与实际情况有差距[4]。马少辉等提出对客户资产的客户保持模型和维持模型进行优化,同时表明,客户不同,风险不同,加上客户资产又是长期价值体现,所以模型的风险差异性研究稍显不足[5]。彭虎峰基于数据挖掘和统计方法对客户资产进行测量,提出从客户分类出发,寻找客户消费行为规律,总结平均群毛利润变化规律并计算各群毛利润,最终计算得到客户资产[6]。这种统计和数据挖掘结合的方法不易掌握,只是提供了一个新的测量客户资产的思路。也有相关研究从企业客户资产价值进行评估。胡姝哲采用多期超额收益法及其评估模型,对某一企业进行了案例分析,运用该模型对企业的客户资产价值进行了评估[7]。综上所述,客户资产即是企业所面对的客户的终身价值的贴现之和,是客户终身价值的体现。
本文研究客户资产,并不关注精确的测量方法,试图通过对具有不同客户资产的客户进行分类,在实际层面优化企业资源分配,保留企业有价值客户,扩大企业客户规模,进而提升企业的市场营销管理能力,使得营销行为与企业利益真正联系在一起。
(二)客户分类模型
客户分类模型中价值模型主要两种,即RFM模型和Marcus 模型。RFM模型是一种借助于分析客户与企业之间的交易行为来衡量客户价值,进而进行客户分类的模型。其测算的三个细分变量是R(Recency),F(Frequency)和M(Monetary),分别代表客户与企业交易的时间、交易的频率以及交易的金额。RFM模型的不足之处在于交易时间、交易频率以及交易金额方面无法避免的多种共线性。Marcus模型是对RFM模型进行改进,采用客户平均交易金额A(Average Monetary)替代传统模型中的细分变量——交易金额M。同时,为了简化传统模型的客户分类结果,Marcus应用聚类的思想,根据客户与企业之间的交易频率以及平均交易金额进一步将客户划分为4种类别,分别是消费客户、优质客户、不确定客户以及经常客户[8]。本研究中客户分类在RFM模型3个分类基础上,增加了年龄变量,使客户分类的划分更加细致。
(三)离散数据挖掘
实际数据挖掘的过程中,经常会碰到一类数据,它们与整个数据集合的表现不符,与整体数据表象层面所体现出的规律不一致,游离在大部分所处的区间之外,所特有模式使得其经常被误判为噪声数据或者异常数据,从而在数据清洗之初就被过滤掉,不予考虑,这样的数据就是离群数据。在数据集合中,检测异常数据并对其加以归纳、分析、解释的过程称为离群数据挖掘。近年来,已有越来越多的学者对离群数据挖掘表示出极大的兴趣。
国外学者早于20世纪90年代初开始探索离群数据的检测算法。Rosner(1991)提出,可以考虑应用单样本多个离群检测法,即ESD(Generalized Extreme Studentized Deviate)算法检测离群数据。Aggarwal和Yu(1997)等人提出基于高维的数据异常检测方法。Knor和Ng(1998)提出,基于距离检测离群数据具有一定的合理性。Breunig 等人提出,基于局部离群因子进行离群数据检测可行性较高。LOF、Struyf和Rousseeuw提出基于深度的离群检测算法。
较之国外,国内的离群数据研究比较分散,但已逐步形成一系列有意义的研究成果。史东辉(2000)分析大量医学流行病数据,针对性地提出基于规则进行挖掘,并取得了良好的效果。郑斌祥(2004)等人所提出基于离群指数的时序数据进行数据挖掘,能够更好地应对数据逐渐呈现出的时序性,同时也能够进一步考量在时序维度层面上,数据所体现出的离群特性。曾学友(2006)提出了基于快速贪心算法,进行离群数据挖掘,提高了海量数据挖掘的效率。唐志刚(2010)所提出的基于马尔可夫链的离群点检测方法,有效提高离群数据挖掘的效率以及数据维数处理的效能。彭小奇(2010)提出基于支持向量机进行离群挖掘,在很大程度上改善了高维数据的检测效率。
大数据背景下,数据存在的形式多种多样,分布的规律性有待考量,数据结构也呈多元化发展,且数据的维度不断增多而价值密度降低,对数据内蕴含的信息进行挖掘显得尤为必要。简单的数据分类与聚类已经无法满足数据挖掘的需求,离群数据挖掘将日益成为一种重要且有效的挖掘方式。
三、基于客户资产离群数据分析的客户分类模型
就离群数据而言,市场营销的离群数据满足普通离群数据的特征,它们游离在大部分普通数据的活动区域之外,却能反映客户某方面重要的特征信息。例如,“交易金额极其大”的信息属于离群信息,但是反映了客户超强的购买实力,忽略这样的客户绝非明智之举。
就客户资产而言,其旨在帮助企业更加深刻理解客户,掌握客户需求,并意图通过管理客户,以影响客户的行为,促使客户对企业做出更大的价值贡献。这需要经历客户识别、客户分类、客户管理的过程。离散数据分析通过从所得数据中提取信息来解释隐含的客户资产,可以帮助企业实现客户资产挖掘。
(一)客户分类指标
本研究拟构建基于客户资产离群数据分析的客户分类模型,采用4个维度的指标对客户进行分类,分别是交易金额、交易的产品或服务的种类、交易频率和客户年龄。但介于客户信息的3个维度更具可操作性,故选择交易金额、交易的产品或服务的种类、交易频率作为变量进入模型。选择客户年龄作为第4维度是因为客户资产代表了客户终身购买价值的总和,可以衡量客户处于“终身”的哪个阶段,进而分析客户的当前消费状态以及消费成长性。另外,虽然简单的人口统计变量远不及社会经济变量以及心理学变量在划分客户层面那么准确,但介于社会经济变量以及心理学变量在收集、整理、处理方面的复杂与繁琐容易引起结果不准确,在此采用客户年龄作为第4个客户分类指标,并假定客户的年龄总体分布呈现正态分布规律。客户信息4个维度的数据可以很容易地在终端接触点通过整理获得。尤其在电子商务环境下,交易金额、交易的产品或服务的种类、交易频率以及客户年龄可以通过后台操作获得。通过对4个维度指标的离群数据进行分析,可以发现重要客户的相关特征。