大数据背景下百货商场用户画像描绘与价值分析
2021-03-24甘馥榕邓颖琪黄晓娟吴泳桡温秋丽
甘馥榕 邓颖琪 黄晓娟 吴泳桡 温秋丽
[摘 要] 随着移动互联网技术持续演进与5G网络的广泛商用,利用海量互联网数据进行用户画像被广泛应用于人们日常生活中。本研究以百货商场用户为研究对象,拟构建一整套完善的用户画像,借助其标签化、信息化、可视化的属性,根据会员价值分析特征指标建立LREM模型,利用K-Means聚类分析对会员用户精细划分,针对不同群体制定对应的营销策略,为零售运营商带来稳定的销售额和利润并提供建设性的参考意见。
[关键词] 零售运营;用户画像;特征标签;K-Means聚类分析
1.了解百货商场用户数据与建模流程
1.1了解百货商场用户数据
甲方所提供的数据集包括会员信息表和销售流水表。会员信息表记录的是会员的基础信息,包括会员出生日期、性别等;销售流水表记录的是该商场的销售数据,其中包括会员与非会员的消费数据,数据时间范围是2015年1月1日至2018年1月3日,详情见表1-1内容。
1.2实现用户画像描绘与价值分析的步骤与方法
百货商场会员用户画像描绘与价值分析的主要步骤如下:
1获取原始数据;
2进行数据探索;
3利用python对原始数据进行数据预处理,数据预处理包括数据清洗、数据标准化和特征构建环节;
4数据预处理完成后进行描述性统计分析,并进行可视化展实;
5用处理干净的数据构建用户画像,并进行数据建模,拟采用LRFM模型结合Kmeans聚类算法对会员群体进行划分;
6会员用户细分和营销方案制定。
2.对百货商场用户数据进行预处理
该商场2015年1月1日至2018年1月3日的销售数据和会员信息数据作为原始数据。对会员信息表进行数据清洗,由于会员卡号是会员的唯一标志,因此将重复的会员卡号进行数据去重。由于出生日期有很多大于2018年,以及小于1900年的数据,这显然不符合逻辑,因此只抽取出生日期在1945-2010年的数据,将初步清洗完的数据再一次进行可视化。
3.统计分析及可视化
3.1会员的年龄构成、男女比例情况
由数据显示,大部分会员年龄在32岁至55岁之间,60岁以上以及24岁以下的会员人数较少。
为了进一步探讨年龄段构成,将年龄在35岁以下的会员划分为青年,36-59岁之间的划分为中年,60岁以上的划分为老年,由研究数据表明,中年人会员占比最大,所占比重为65.26%,老年人占比最小,仅有1.83% ,说明对于本商场的用户,中年人是主要消费主体,不同年龄的消费金额,30岁-56岁的用户购买力最强,即购买力最强的是大部分中年人,少部分青年人,中年人有較充足的社会经验和经济基础,并且有较强的购买需求和意愿,并能实施消费行为,青年人相对来说经济基础薄弱,购买力相对较弱,而老年人的购买意愿并没有中年人和青年人的购买意愿强烈,所以老年会员用户占比少,进行的消费力度也弱。
3.2会员的总订单占比,总消费金额占比等消费情况
会员订单数所占比重较小,非会员用户的订单数占绝大多数,然而27.84%的会员贡献了40.33%的消费金额,会员订单数虽然较少,但消费金额多,说明会员每单价值要比非会员每单价值要高,会员订单数少,另一方面也是由于会员人数本来就少,还有更多非会员用户有待吸收为会员。
3.3会员的消费时间偏好
会员用户的消费金额在逐年增加,并且2016-2017年的增速要比2015-2016年的增速快,而会员及非会员的共同消费金额虽在逐年增加,但增速明显减弱,很大原因是很多非会员用户可能只消费一次,不能够吸引更多非会员用户来进行二次或多次消费,都是在靠“老顾客”(会员)买单。
接下来分别以月份、季度和天为单位,探讨分析会员不同时间段的消费偏好。由图3-1可知,2015年的1、2、3、5月份是会员进行消费较高的月份,2016年总体呈上升趋势,2017年从2月份开始,也是呈曲折式上升。
现对月份进行季节的划分,定义3、4、5月为春季,6、7、8月为夏季,9、10、11月为秋季,12、1、2月为冬季。由图3-2可知,2016年和2017年,会员多集中在秋季消费。
节消费金额
一天中会员用户下单的时间集中在9点到23点,其中15:00-17:00之间为会员的下单高峰,从早上9点到下午的16点,会员订单量呈递增趋势,会员在这段时间可以有充分的考量进而做出消费行为,在这些时间段,商家可以合理地增加工作人员。从下午的16点到晚上23点会员订单量呈下降趋势,商家可以合理地减少工作人员。
4.会员用户标签构建及画像描绘
4.1构建会员用户基本特征标签
构建会员用户的基本特征标签,包括会员的年龄、性别、年龄分段。其中将16-35岁视为青年人,35-59岁视为中年人,59岁以上视为老年人。
4.2构建会员用户业务特征标签
构建会员用户业务特征标签,包括会员积分等级、入会程度、消费频率、消费水平、平均每单价值、最近购买时间共6个标签。
4.3构建会员用户兴趣特征标签
针对会员兴趣特征,构建了购物时间段偏好标签、购物季节偏好标签、购物商品偏好。汇总每位会员在各个时间段、各个季节的消费次数,将最多消费次数对应的时间段构建会员用户购物时间段偏好标签,同理将最多消费次数对应的季节构建购物季节偏好标签。
4.4建立用户画像
从以上构建的会员用户标签库中,随机选择一名会员,以卡号“978bf4cc”的会员为例,使用wordcloud模块的WordCloud绘制用户画像词云图,将该会员用户所有相关的标签数据保存至一个字典中,最后可视化结果见图4-1。
从词云图中可以直观看出该会员用户是位青年女性,是该商场的老用户,中等消费水平、中等频率消费,最近的一次消费在39天前,每单的价值一般,大多数在中午时间段进行消费,在夏季消费意愿更高。
5.模型构建
5.1 会员价值分析特征指标的构建
会员入会程度在一定程度上能够影响会员价值,因此在传统RFM模型中增加会员入会程度L,作为划分会员的另一特征,因此本项目将会员入会程度L,最近消费时间间隔R,消费频率F和消费金额M四个特征作为会员价值特征,L代表的意义是会员入会登记时间距观测窗口结束的天数,R代表的意义是会员最近一次消费时间距观测窗口结束的天数,F代表的意义是会员在观测窗口内进行消费的次数,M代表的意义是会员在观测窗口内进行消费的金额,简记为LRFM模型。
L越大,代表注册会员时间距离观测窗口时间越长,代表老客户,该指标越大越好;R越小,代表购买时间距离观测窗口时间越短,R越小越好;F越大,代表会员的购买次数越多,表示会员的忠诚度,M越大,代表会员购买的金额越多。
5.2 进行kmeans聚类分析
将会员价值分析特征指标数据进行标准化处理,消除量纲不同造成的影响,以LRFM为聚类中心,将会员用户划分为四个类别,具体分群结果如表所示:
会员群体1消费频率(F)、消费金额(M)、入会时间(L)、距上次消费时间(R)都较为均衡;会员群体2消费频率(F)大,消费金额(M)高,但入会时间(L)较短,距上次消费时间(R)也短,会员群体3入会时间(L)长,但消费金额和消费频率不是很高;会员群体4,入会时间短,但距离上一次消费的时间间隔长,消费频率和消费金额都不高。
6.营销方案制定
6.1对会员用户进行精细划分并分析不同群体带来的价值差异
会员群体1分析:
对于消费频率(F)高,消费金额(M)较高,入会时间(L)较短和距上一次消费时间间隔(R)较小的用户,这里判断是重要发展客户;
会员群体2分析:
对于消费频率(F)和消费金额(M)都非常高,入会时间(L)较长、距上一次消费时间间隔(R)很小的用户,这里判断为重要保持客户;
会员群体3分析:
对于入会时间(L)较长,距上一次消费时间间隔(R)较小,消费频率(F)和消费金额(M)一般高的用户,这里判断为一般价值客户;
会员群体4分析:
对于距上一次消费时间间隔(R)大,入会时间(L)较短,消费频率(F)和消费金额(M)一般低的用户,这里判断为低价值客户。
6.2针对不同类型的群体制定相应的营销方案
针对重要发展客户:这类会员近期在百货商场进行过消费,消费的频率和消费金额较高,值得考虑对其进行一对一营销,进一步提高这类会员的忠诚度和满意度。
针对重要保持客户:这类会员最近在百货商场进行过消费,消费频率和消费金额都比其他群体会员要高,这类会员所占比例比较小,可考虑进行线上线下多方式,加强商场与该类会员的沟通,可考虑一对一售后服务,巩固保持这类会员的忠诚度与满意度。
针对一般价值客户:这类会员虽消费频率或消费金额属于中等,但入会时间较长,这类会员是百货商场的潜在价值客户。百货商场可分析这类会员近期消费的商品类目,设置有吸引力的礼品,或以套餐等形式,从而可以进一步发展该类会员。
针对低价值客户:这类会员已经有一段时间没有在商场进行过消费,消费频率和消费金额都中等水平高,但入会时间短,仍然有进一步挖掘的价值,可多对这类会员进行价值较低产品的促销活动推送,刺激吸引该类会员的二次消费。
7.小结
本项目对百货商场的会员及非会员消费记录进行挖掘分析,经过一系列数据清洗、去重、去除异常值、剔除缺失值等环节,对原始数据进行充分的预处理,并进行描述性统计分析,进行可视化展实,了解会员各特征的构成。再而从会员用户基本特征、业务特征和兴趣特征三个大维度构建会员标签库,进行会员用户画像描绘,本项目并在传统RFM模型中增加会员入会程度L,并结合K-Means聚类算法以LRFM为聚类中心,对会员进行精细划分,总共分为四个群体,并针对不同类型的群体制定相应的营销方案。
【参考文献】
[1]廖莎.大数据时代基于用户画像挖掘的电商精准营销[J].数码世界,2017(11):190.
[2]王裴.分析用戶画像在企业精准营销中的应用方式[J].商场现代化,2017(18):70-71.
[3]巨星海,周刚,王婧,张凤娟.用户画像构建技术研究[J].信息工程大学学报,2020,21(02):242-250.
作者简介:
甘馥榕(1999-),女 ,籍贯:广西扶绥,民族:壮族,职称:学生,学历:本科,研究方向:应用统计,单位名称:玉林师范学院数学与统计学院、广西玉林市,
【基金项目】玉林师范学院校级科研一般项目(2018YJKY29),玉林师范学院2021年大学生创新创业训练计划项目(202110606113、202110606114).