数字化便利店的用户画像及其应用研究
2021-10-26朱振涛吴志辉陈星光
朱振涛,吴志辉,陈星光,刘 颖
(1.南京工程学院经济与管理学院,江苏 南京,211167;2.汉江大学商学院,湖北 武汉,430056)
近几年,随着网络用户增长减缓,电商平台流量入口的竞争日趋白热化,电商行业进入瓶颈期,越来越多的电商平台正在尝试一种线上线下相结合的新型零售模式,如阿里的“新零售”、苏宁的“智慧零售”、京东的“无界零售”[1-2]。它们都纷纷选址建立线下实体店,希望通过利用线上渠道所积累的品牌优势与发达的物流系统降低线下渠道扩张的难度,进一步争夺线下零售流量。这种方式在使电子商务平台重新焕发生机的同时,传统便利店无可避免地被卷入到激烈、全面的市场竞争当中。毕马威与中国连锁经营协会联合发布的《2021年中国便利店发展报告》显示,全国品牌连锁便利店销售额从2015年的1 181亿元逐年上升到2 961亿元,而传统便利店的销售额增速自2016年的31%递减到2020年的6.3%;传统品牌便利店排前10名的占当年便利店总量的比例从2018年的67.7%下降到2020年的47.15%[3]。因此,传统便利店如何在新零售浪潮下根据自身情况补上在数据技术上的短板,搭建适合自身发展的高效的数字化营销系统,无疑是传统便利店亟须解决的业务问题;另一方面,随着“十四五”报告将数字经济单独成章,重点提出点亮数字中国的发展方向[4],传统便利店作为覆盖面广、便民利民的商业体,研究其数字化转型的发展思路具有重要的社会价值。
本文以问题为导向,通过对传统便利店发展现状及其数字化障碍的分析,对比线下数据采集及业务问题,针对传统便利店特征提出其存在的不足,分析问题后提出一套完整、可行的解决方案,并以实际获得的一个便利店的交易流水数据集和生物码数据为例,验证了该技术方案的可行性。
一、研究设计
(一)传统便利店精准营销的业务困境
便利店(Convenience Store)是指为居民区、学校、客流量大地区开设的方便客户购买消费品和服务的零售店铺。传统便利店包括直营便利店、加盟便利店、加油站型便利店、食杂店和部分的小型超市等[3]。传统便利店不同于电商企业所推行的线上线下融合的新型零售模式,缺少对用户特征的准确把握,是其营销的主要困境,而造成这一困境的原因有以下3点:
(1)用户个体信息缺失导致客户行为数据匮乏。众所周知,在电商平台上购物,用户必须注册并登录平台,这样电商平台就可以获取用户注册的基本信息以及用户在平台的浏览记录和历史购买记录。这些用户信息对精准营销非常关键。便利店则一般不要求用户先注册,所以尽管在交易过程中形成交易小票数据,却无法识别出用户的历史购买数据。此外,一个客户多次踏入同一家便利店的占比很小,在本研究的数据集中这类路人客户占比高达整个客户群体的81.4%,这也给严重依赖用户历史购买行为数据的个性化推荐算法的实施带来了历史数据不足的问题。
(2)数据技术成本高、难度大。传统的非连锁型便利店往往都是小作坊、夫妻店,因此较高的数据采集与数据分析成本都是难以支付的,加之数据应用技术难度偏高,对店铺经营者也有一定的要求,因此传统便利店的精准营销难以开展。
(3)传统便利店的商品推荐主观而低效。由于传统便利店对顾客的营销活动往往是出于店员对顾客特征的主观认识进行的,因此其营销活动的效果往往是依靠其经验判断,缺乏科学依据,有较大主观错误的可能。
(二)相关研究评述
关于便利店数字化转型的相关研究可以从新零售、精准营销和用户细分算法三个方面展开。
关于新零售,赵树梅与徐晓红(2017)认为“新零售”区别于传统零售,推动线上线下以及多方跨界的融合,其基础和前提是供应链的重构与物流方案的不断升级[1]。韩彩珍与王宝义(2018)认为不同的零售业态主导企业还在用不同的概念来定义当下零售业态的变革,如京东集团的“无界零售”、苏宁与腾讯提出的“智慧零售”,尽管称谓和侧重点存在区别,但均是对当前零售业“颠覆式”变革的描绘[2]。本文认为可以将新零售理解为:一种强调线上线下融合,用数字化技术高效识别用户需求,并据此对企业供应链进行系统重构从而极大提升零售绩效的先进零售业态。
关于精准营销,刘征宇(2007)提出“精准营销”是通过定量和定性相结合的方法对目标市场的不同消费者进行细致分析,根据他们不同的消费心理和行为特征,企业采用有针对性的现代技术、方法和指向明确的策略,实现对目标市场不同消费者群体强有效性、高投资回报的营销沟通[5]。李卫华(2019)根据传统零售企业所面临的困境,从历史背景、实施困境、对策建议等方面进行深入分析,研究大数据在传统零售企业精准营销中的应用,以此整合消费者信息、洞察消费者需求、实施精准营销、打造新型零售模式[6]。孙洪池与林正杰(2016)以零售商品型企业为例,开展基于大数据的B2C网络精准营销应用研究[7]。
在用户细分算法方面,李冰等人(2016)利用K-means算法划分不同的卷烟属性与客户属性,提出向业态为食杂店的、市场类型为城市的、区域类型为学区的、经营规模为中的零售客户推荐烤烟型卷烟[8]。雷兵等人(2019)依据淘宝网某“线上礼裙”企业店铺的订单数据,提炼用户画像,通过对用户属性和购物偏好的聚类划分,发现企业店铺的客户大致可以分为3类[9]。为了改进用户细分算法,许多学者会结合不同的理论模型来实现用户画像。其中,较为常用的是RFM模型和ALC模型。Wu J等人(2020)基于在社区购物时创建的购买数据条目,运用RFM模型结合K-Means聚类发现管理广告宣传活动的客户细分[10]。Hartini S等人(2020)在采用RFM时认识到客户简介的重要性,因此继续添加ALC模型来挖掘客户简介,帮助提高用户细分的精确度[11]。
综合所述,在有关便利店零售的已有研究中多为规律的总结和理论框架的构建,基于实际便利店交易数据的用户画像和个性化推荐较少,而基于机器学习算法的用户画像和个性化推荐在电商和特定商品的营销中已经有了较多的研究,因此,用数据分析和机器学习对便利店的用户数据进行挖掘,发现便利店用户的特征,对于推动基于数字驱动的便利店转型是可行也是必要的。
(三)本研究的技术路线
本文通过对传统便利店发展现状及其数字化障碍的分析,对比线下数据采集及业务问题,针对传统便利店特征提出其存在的不足,继问题识别之后进行问题拆解和分析后提出解决方案;从要点、方法、成果三个层面,对数据增补、用户画像以及个性化推荐进行分析研究,并形成一套完整、可行的解决方案。研究路线具体内容如图1;为验证技术设想的可行性,根据某市3个便利店一个月的用户信息与购买行为数据,对为数字化便利店搭建精准营销平台所涉及的数据增补、用户画像和个性化推荐三个核心环节进行数据分析和算法验证。
图1 数字化便利店的用户画像及其应用的研究路线
二、数字化便利店用户画像及其标签生成
(一)数字化便利店的数据增补
便利店的基础数据包括产品数据、商品数据和订单数据等。与电商平台相比,便利店数据短板主要在客户信息数据表。线上电商平台依靠其登录注册信息方便获取客户的个人信息,而线下便利店却很难获取真实的客户信息。然而,没有用户的身份识别信息,就无法将交易流水记录聚合为用户的特征标签。因此,需要运用线下数据采集方案对用户的身份数据进行增补。
表1是目前常见的店铺用户数据采集方案[12]。在传统便利店这一场景中,实用价值较高的采集方法是基于移动定位的行为数据采集方法与基于视觉检测的行为数据采集方法。前者采集信息量适中、成本低,适用于个体便利店;后者采集信息量较大、成本高,适用于品牌连锁店。基于视觉检测的行为数据采集方法可以对用户性别、年龄及生物码进行识别,并推进跟踪监测。其常见的人脸识别算法包括神经网络、隐马尔可夫模型以及支持向量机算法等[13]。基于移动定位的行为数据采集方法无法对用户基本个人信息进行识别,但可形成独特的用户识别码,用于简单的用户识别及跟踪监测。常见算法包括三点定位和指纹图谱定位 。便利店通过这些数据采集方法获得用户的识别码后,就可以基于历史行为对用户进行画像了。
(二)数字化便利店的用户画像体系设计
针对传统便利店的数据特征,通过采用基于视觉识别的数据采集方法丰富传统便利店的数据源,可以从基本属性、购买力属性、消费行为3方面构建便利店的用户画像标签。如图2所示。
表1 店铺用户数据采集方案比较
图2 便利店的用户画像标签体系
(1)基本属性。传统便利店的用户基本属性数据主要包括用户年龄、性别、PID等静态数据,是用来识别用户身份的重要依据,通过数据挖掘方式也可从中提炼出部分用户标签属性。
(2)购买力属性。传统便利店的用户购买力属性数据主要包括用户平均每单购买金额、平均每单购买量、偏好品牌等。这是便利店进行用户画像搭建时的关键指标,能够帮助便利店识别不同用户的购买力,并根据其购买力不同对营销资源做出高效配置。
(3)消费行为。传统便利店的用户消费行为数据主要包括交易时间、小票数、购买产品类型、访问门店数、进店次数等。这一维度的信息是最多且最复杂的,运用数据技术手段可以从中挖掘出许多有效信息标签,使用户画像更加具体、精确。
(三)基于聚类算法的用户画像标签实例
本文所用的便利店数据来自于狗熊会数据库提供的某城市某品牌便利店旗下3个门店2019年5月的交易流水数据和用户身份识别数据(详见表2)。该品牌便利店对用户识别的解决方案为收银台摄像头抓拍图形进行人脸识别计算获得用户的生物码、性别和年龄数据。数据集中用户数据包含6 013个用户。交易小票数据包括7 992 张不同交易小票和1 731种商品共有12 952行交易记录。这样,将用户识别数据集与交易小票数据集进行数据融合,就可以获得“人(用户)货(商品)关联数据”。该数据集不仅可以帮助便利店追踪到每一笔订单的主人,还可以了解这名消费者的购物记录与人口学特征,从而为用户画像奠定基础。
表2 便利店用户和交易数据说明表
所谓用户画像,可以理解为根据用户的人口特征和其行为产生的数据,提炼出能反映该用户人口学特征、兴趣特征、社会特征、消费特征的特征标签,也就是通俗所说的给用户打标签,然后用恰当的数据可视化方法将之展示出来。根据标签的构建流程和依存关系,可以分为事实标签、模型标签和高级标签。事实标签通过原始数据的简单统计得到,如进店次数、最近来访时间、访问门店数等;模型标签是对事实类标签的进一步汇总和提炼而得到的特征标签,如根据进店次数、最近来访时间和访问门店数可以定义顾客的活跃度。高级标签是基于事实标签和模型标签进行统计建模得出的用户标签,它的构造多与实际的业务指标紧密联系。例如,消费能力、消费群体的客群划分标签等。事实类用户标签是模型标签和高级业务标签的基础。针对本数据集可以构建人口属性、进店规律、消费行为和购物偏好四个方面的事实标签。在人口属性中年龄可以离散化分段为年代标签,如40后、50后、60后……新世代10后等。进店规律标签包括访问门店数、进店次数、最近进店时间间隔等;消费行为标签包括每单购买数量和金额;购物偏好标签包括偏好品类和偏好品牌等。
接下来,进行用户群的画像。先看该月用户的购买次数和平均买单购买金额的直方图(图3)。购买次数的中位数为1次,均值为1.33次,购买超过1次的用户只占比18.4%。这说明这些便利店的用户中重购率很低,用户的粘性有待加强。平均每单金额的中位数为8元,均值为12.3元,多数在50元以下,分布呈右偏形态,少数极大值拉高了整体的均值。平均每单金额最大值为280元。与中国连锁经营协会发布的便利店报告中2019年样本企业的客单价16.3元/人/单相比,这三个便利店的客单价尚低于平均线。
(a)
从图4可知,用户最偏好的品类依次为硬壳香烟、包装水、冰激凌、饮料和小食。用户最偏好的品牌是七匹狼、康师傅、农夫山泉、可口可乐等。偏好人数多意味着客户进行购买的可能概率高,这一结果可以帮助便利店经营者与品牌商进行沟通,增加渠道价值。
客群划分标签属于高级标签,也是实现市场细分的基础[14]。客群细分是精准营销的核心环节。聚类方法是目前常用的客群划分的算法。目前较为常见的聚类算法包括K-Means聚类、均值漂移聚类、基于密度的聚类方法(DBSCAN)、以高斯混合模型GMM的最大期望(EM)聚类[15]。这里选用K-Means聚类这种简单而且聚类效果好的方法[16]。K-Means算法是一种无监督学习,其采用欧式距离作为数据间衡量相似度的距离指标,相似度与数据对象间的距离呈反比。该算法需要首先设置好聚类簇群数与初始中心数k,然后根据数据对象与聚类中心的相似度来不断调整新聚类中心的位置,不断降低簇的误差平方和(Sum of Squared Error,SSE),直到SSE不再变化时即可停止。本文先作碎石图来确定客户群体的最优聚类个数,发现碎石图的肘点在横坐标取6时,因此用户最好的聚类类别为6类。
(a)
由于对于购买次数仅1次的用户,行为的随机性较大,因此本文筛选有复购行为的用户,来分析其特征。K-Means算法的结果如表3所示。
类别1是小票数少、平均每单金额低、多消费卫生用品的女性路人;类别2是小票数少、平均每单金额低且购买商品没有明显偏好的男性路人;类别3是男性占比89%、年龄大、消费能力强、偏爱香烟、啤酒的资深烟酒受众;类别4是偏爱酸奶、牛奶、糕点的早餐上班族;类别5是小票数多、偏爱茶饮料、碳酸饮料、冰淇淋、功能性饮料、亚洲传统饮料的饮料爱好者;类别6是年龄偏小、偏爱鲜食、包装水、肉食小食、即食类主食、熟食肉制品等方便类速食,属于附近居民。通过分析可以得到用户簇群的画像特征,如表4所示。这样就可以给每个用户打上其所属客群的标签。
表3 K-Means类中心取值表
表4 用户簇群画像特征
针对不同的客户群体,应当采用不同的推介信息与营销方式。由表4可见,男性路人与女性路人黏性小且难以维系,因此在营销资源上不需要过度倾斜;而资深烟酒民小票数多、消费能力强,且有明显偏好,因此对该类客户应当巩固客户关系,针对性地采取营销方式吸引这类用户消费;早餐上班族和附近居民的典型特征在于长时间在该店铺附近,因此在平时的营销活动以及商品陈列方面都需要考虑此类客户的消费偏好;饮料爱好者数量虽少但小票多,证明其对便利店有一定的依赖,因此便利店在营销活动的选取上需要考虑到这部分用户的消费偏好,维系其在群体内的口碑。
三、基于用户画像特征的个性化推荐算法设计与实验
(一)基于用户细分的个性化推荐算法设计
目前比较常用的个性化推荐算法包括关联规则、协同过滤等[17-18],这两种算法主要是基于大量的用户购买记录,通过分析商品和商品之间的并买关系来进行个性化推荐。从本质上说,个性化推荐其实就是预测用户对某品类的商品是选择“买”还是“不买”的二分类问题。这样,用户的特征和商品的特征都是影响因素,而是否购买就是结果变量。我们也可以将其表示为:
y=f(用户特征向量,商品特征向量,…,)
(1)
式中:y=0,1;表示随机变量,表示事务发展的不确定性和不可知性;省略号表示其他可能的对用户购买决策有影响的因素。
因此,对个性化推荐这样的二分类问题就可以用新兴的机器学习算法来建模[19]。
1.数据准备
首先要解决这个二分类的y=0即不购买的数据记录问题。针对顾客进店消费而没有购买的品类分别生成这些品类的没购买记录。例如,便利店有65个二级品类,某用户购买了3个二级品类的商品,那么他就产生了3个购买记录和62个未购买记录。未购买记录可以用用户的交易流水数据表和所有二级品类表的数据库相连接而产生。在本例中得到了535 464条记录。这时出现了严重的类失衡问题。用户未购买的品类远少于购买的品类。需要用数据重采样技术(上采样或下采样)来平衡两类的占比。
2.构建模型和选择特征标签
所有分类问题的机器学习算法都可以用来建模,如支持向量机、随机森林、朴素贝叶斯分类器、Xgboost等[20]。这里选择logistic回归和Xgboost模型来分别建模。前者是行业中广泛应用的模型,后者是决策树类机器学习算法的杰出代表,在各类机器学习大赛中屡创佳绩。Xgboost模型是在boosting集成学习的基础上优化产出的新型模型,同时继承了boosting算法的造树思想:通过由模型训练获取得到的F(x),使得对于给定的输入变量x,输出的F(x)都能较好地近似y。换言之,就是希望损失函数l(y,F(x))尽可能小,在建新树的基础上争取损失函数的最小化。
在用户特征标签的选择上,本例采用了用户画像中的事实标签和模型标签。事实标签包括用户的性别、年龄等;模型标签主要是RFM模型标签,刻画用户的购买行为特征。近度(R)用用户本次购买和上次购买的间隔表示;频度(F)用用户在一段时间内进店购买商品的次数和购买一级二级品类的次数表示;额度(M)用用户一段时间内消费的金额和平均每单消费金额。此外,自变量还包括交易时段和商品特征标签所属二级分类。
(二)算法结果的对比与评价
对于二分类问题,算法评价的常用标准是ROC(Receiver Operator Characteristic:受试者工作特征)曲线下的面积AUC(Area Under Curve:曲线下的面积)值。ROC曲线是灵敏度和特异度的关系曲线[21]。灵敏度在本问题中为真实购买者被准备预测出的概率。特异度在本问题中表示实际没有购买者被正确识别出来的概率。由于许多机器学习算法包括Xgboost算法也存在容易过拟合的问题,对数据集进行了训练集和测试集的划分,用外样本的AUC来评价两种算法模型,结果见表5。Xgboost模型的外样本ROC曲线和特征重要性见图5。从表5可以看出,相比Logistic算法,Xgboost模型的预测精度略高0.6%。再看两种算法模型发现的重要变量,logistic模型的重要变量是由变量的显著性和标准化系数共同决定的。Xgboost的特征重要性采用增益重要性来度量,增益重要性表示有无该特征对预测精度的影响大小。两个模型的结果有较高的一致性,都发现香烟、包装水等7种二级品类的商品的购买概率较大,这个结果对于优化便利店品类有重要参考价值。在用户特征方面,用户的年龄以及购买的频度(之前购买的小票数和购买二级分类次数)是重要的影响因素。这说明不同年龄层的用户分层是精准营销必须考虑的维度之一。此外,提高用户黏度也是便利店要考虑的改进方向。
表5 两种算法的计算结果对比
(a)
四、结语
本文针对传统便利店所面临的用户信息匮乏、数据手段不足、商品推荐主观低效的三方面困境,提出涵盖问题识别、数据增补、用户画像、个性化推荐的数据分析全链条框架,并对每个环节的技术实现和算法选择进行了设计和数据算法验证,提供了传统便利店数字化转型的解决方案。本文主要做了以下工作:
(1)问题识别及数据增补。通过文献阅览发现,相较于新零售业态,传统便利店往往存在着数据匮乏、技术手段不足以及商品推荐主观低效等问题。在这些问题中,数据匮乏严重影响传统便利店实现数字化转型,因此本文建议根据便利店的资金能力选择合适的物联网技术(基于视觉检测或基于移动定位的行为数据采集技术)进行用户信息的识别并整合原有的交易流水数据,形成完整的用户交易历史行为信息,为用户画像奠定数据基础。
(2)在用户的特征标签和用户画像方面,通过对可获得的数据的分析,发现可以计算得到用户的事实标签、模型标签和高级标签。用三个便利店一个月的交易和用户数据对这三类特征标签进行了设计。尤其是为了得到用户的所属客群这一高级标签,根据用户消费数据而非个体数据,选择简单且高效的K-means算法进行聚类划分,为便利店识别出6个主要的客群。
(3)在用户画像的应用方面着重探讨了个性化推荐系统,用便利店的交易小票数据与用户识别数据进行数据增补,利用RFM模型标签和用户事实标签以及商品特征标签等影响因素,选择logistic模型和Xgboost模型实现了有较高预测精度的个性化推荐系统。两个模型在重要特征挖掘上有相似的结论,可以根据部署成本,选择其中之一作为个性化推荐的实现算法。
本文的研究只考虑了利用视频识别技术补全用户身份信息,其他的物联网技术如采用设备MESE热力图或RFID等物联网判断客户的购物时长、停留位置及停留时间,可以为用户画像的构建提供更加多元的数据支持[22],这些数据可以产生哪些新的用户标签是未来可以研究的一个方向。另外,如何结合传统个性化推荐算法的扩展性与新兴算法的预测能力更加准确地挖掘用户的消费偏好,也是便利店精准营销系统有待研究的问题。