APP下载

基于“用户行为”画像的实证研究

2017-05-30赵建伟

科技风 2017年25期
关键词:用户行为用户画像

摘 要:本文从分析用户的历史交易行为入手,研究用户行为画像的方法、用户行为建模指标、算法分析等内容。并通过实例分析建立用户画像模型的方法和步骤,取得了比较好的效果。

关键词:KMeans算法;用户画像;用户行为

一、问题的提出

Alan Cooper最早提出了用户画像(Personas)的概念,Persona是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型,通过用户调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,就形成了一个人物原型(Personas)。

二、用户行为画像方法论

用户画像可以基于定性的方法也可以基于定量的方法,用户数据的定位可以来源于静态数据,例如年龄、性别、地域、婚姻状况、资产特征等人口社会属性;也可以来源于动态数据,例如浏览、搜索、点击、购买等行为特征。在电商行业中,用户画像可以分析用户的使用习惯、喜好、一系列的购买行为,以及周边的人群的身份、属性、年龄等。

本论文认为用户的历史交易行为决定了用户未来的消费倾向和消费行为,而用户的基础属性是隐性的,通过用户的行为特征更容易挖掘用户的特点,更容易与营销结合。本文以某电商自营平台半年的交易数据为例根据用户的不同方面所具有的行为特征建立用户的行为模型进行数据挖掘,针对用户不同方面的行为及各行为间内部相关联的行为特征从数据的角度去研究用户的行为模式,并将这些行为模式的内容和所具有的规律进行描述。

三、用户行为建模

(一)用户消费行为指标的建立

建立用户消费行为指标其实质就是为消费行为模型选择细分变量,在这个基础上对用户进行识别和画像。本文用RFM模型的三个行为变量来描述和区分用户的消费行为,来进行用户消费行为指标的建立,并不用传统的RFM分析对用户进行打分和排序。指标说明如表1所示。

(二)算法分析

在算法的选择方面,采用聚类分析方法,聚类的其目的是挖掘出数据之间潜在的自然结构关系,将用户划分成互不相交的类别。在同一类别里,用户具有相似的特征。

1KMeans聚类算法

KMeans算法是1967年由MacOueen首次提出的一种经典算法。基本思想是把待聚类的对象划分成k个类,用户要指定聚类的个数k。接下来要通过迭代运算将对象所属的类进行调整,不断的迭代直到各个类别中的对象不再发生变化,就完成了聚类。

算法具体形式如下:

E=∑ki=1∑p∈ci|p-mi|2

2算法描述

KMeans算法的处理流程如下:首先,随机选这k个对象,每个对象代表一个簇的初始均值或中心,对剩余的每个对象根据其与各簇中心的距离将它指派到最近的簇,然后算每个簇的新均值,得到更新后的簇中心,不断重复直到函数收敛。

四、实证研究

无锡某电器科技有限公司是一家利用高科技的技术及精密的仪器设备生产便携式照明产品的公司。公司上百种产品,建有自营电商网站。对电商企业来说如何识别用户、了解用户的特征对企业制定营销策略、提供个性化服务至关重要。本文从企业数据库中抽取了100个用户半年的脱敏后的交易数据作为数据分析的样本数据。

(一)用户消费行为分析表

由于企业交易数据库中并没有我们建立用户消费行为指标所需要的字段,所以首先建立用户消费行为分析表,定义用户ID、平均销售金额、消费频次、上次购买时间等四个字段。字段名、数据类型等如表2所示。

(二)数据处理

然后进行数据处理,数据部分是整个模型的基础,拿到样本数据以后并不能直接进行聚类分析,还要检查数据是否有问题。

对于无效的值和空值要进行删除处理,本文应用替换法对无效值和空值进行处理,即用改变量在其他所有对象的取值的均值来替换变量的值。对于数据范围超出范围的数据或者矛盾的数据和不合理的数据要进行检查,去掉数据中的异常值,本文异常值视同无效值和空值,处理方法同上。

對用户近半年的数据进行整合。从数据库中抽取出用户编号、用户购买时间、销售金额三个字段。在此基础上计算“平均销售金额”、“消费频次”和“上次购买间隔”。“平均销售金额”用用户6个月的消费金额算平均值。“购买频率”是将用户编号进行计数得到。每个用户年度中最后一次购买时间与截止日(将7月1号设置为截止日)相减得到“上次购买间隔”。

部分样本数据,如表3所示。

(三)变量标准化

根据对样本数据的分析,各指标数据不在同一个区间,甚至不在同一个数量级,这样直接聚类建模势必对结果产生干扰。因此为了弱化这个因素对于结果的影响,在建模前要对数据进行处理。本文采用各变量相对于平均值的偏离程度代替变量的绝对值,这也是数据标准化的重要步骤。

(四)KMeans聚类

在进行聚类分析前,还要确定聚类参数K,它是聚类数目。按照以往的经验K值过大或者过小都会对对聚类结果产生较大影响。一般情况下,如若K值取值过小,会导致不同的用户群之间特征不明显,同一群中用户数过多,不能发现有效的细分模型,这样的用户群画像也就毫无意义。如若K值取值过大,会导致类别太多,同一类中特征不明显,生成众多无意义的用户群,对市场营销策划无任何指导意义。因此要得到较为合理的K需要经过反复多次的试验,得出最终的最佳K值。考虑到公司产品较少,用户的偏好不显著,另外选取的数据库的样本数据较少,再结合经验初步将聚类数K值定为3-5之间。分别取K值为3,4,5进行聚类分析。试验多次并从中选择最优的方案。

本文的实验环境:CPU:Inter Core i5 2.5GHz,4GB内存,Windows 7 旗舰版,R软件。程序代码(略)。

当K取值分别为3、4、5时,分别进行聚类实验,结果说明如下:

①当K取值分别为3时,进行聚类实验,结果如图1所示。

②当K取值分别为4时,进行聚类实验,结果如图2所示。

③当K取值分别为5时,进行聚类实验,结果如图3所示。

通过对以上三个K值分析检验结果的比较,当聚类数定位3时,每个用户群体分布明显,群体之间的界限清晰,聚类效果较好。因此将聚类数定为3类是最理想的聚类结果,根据对应的用户归属类别如表5所示。

(五)群体画像分析

根据聚类结果3个类别的数据可以明显看到3类不同消费群体的特征,C1类用户户关心价格,消费频次不高,客单金额小,对企业的信任度不高,给企业带来的利润小;C2数量最多,对企业电子商务网站产品持肯定的态度,交易稳定是企业稳定生存的基础;C3类用户消费频次高,平均消费金额高,是企业可以从中获得利润最大的群体潜在用户消费者。

五、總结

对用户进行精心化的描述,使企业对用户的了解更加准确,能有效提升精准营销的效果,从而采取精细化个性化的服务来更好的满足用户需求、提升营销效果、改善用户体验,并且能降低成本、增加收入,同时实现用户针对性管理。因此具有明确的经济效益。本文提出了一种完全依据用户消费行为建模来进行用户画像的方法,以此来描述用户群的特征、刻画用户群的行为。通过实例表明这种方法是有效的,很好的符合了客观实际、精确的刻画了用户群的特征,为根据不同类型用户群提供个性化服务提供了依据。

参考文献:

[1]Aly M,Hatch A,Josifovski V,et al.WebScale User Modeling for Targeting[C].Proceedings of the 21th international conference companion on World Wide Web.Lyon,France:ACM,2012.

[2]吕斌,张晋东.基于RFM模型的商业银行营销决策分析[J].统计与决策,2013,(14).

[3]徐翔斌,王佳强,涂欢,穆明.基于改进RFM模型的电子商务客户细分[J].计算机应用,2012,32(5).

[4]王文贤,金阳,陈道斌.基于RFM模型的个人客户忠诚度研究[J].金融论坛,2012,(3).

[5]于海涛,李莘,姚念民.Kmeans聚类算法优化方法的研究[J].小型微型计算机系统,2012,10(10).

基金:本文为无锡职业技术学院人才工程校级科技课题“基于大数据的用户画像模型及可视化研究”(课题编号:3116021931)阶段成果

作者简介:赵建伟(1980-),男,硕士,无锡职业技术学院讲师,研究方向:电子商务与数据化营销。

猜你喜欢

用户行为用户画像
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
电力高校图书馆转型智库服务的研究
社会化媒体用户使用动机与行为探析
移动用户画像构建研究
新媒体用户行为模式分析
基于微博的大数据用户画像与精准营销
移动互联网环境下用户行为社交化变迁的探析
移动互联网下手机用户使用行为特征的研究
基于云计算技术的大数据用户行为引擎设计