APP下载

基于用户画像的卷烟消费者特征识别和价值评估

2023-02-21金吉琼王文俊

烟草科技 2023年1期
关键词:卷烟聚类样本

金吉琼,居 雷,张 易,斯 勇,王文俊*

1. 上海牡丹香精香料有限公司技术中心,上海市浦东新区孙桥路1067 号 201210

2. 上海烟草集团有限责任公司技术中心,上海市浦东新区秀浦路3733 号 201315

用户画像也称消费者画像,其概念最早于20 世纪80年代提出并应用于商业分析领域,企业通过收集消费者个人基础信息、经历背景以及性格特征等信息刻画重构消费者形象,深入剖析消费者特征和识别目标消费群体及终端用户,从而有利于企业形成商业决策[1-2]。受益于互联网技术的发展,电子商务、社交媒体和智能终端所产生的海量消费数据,促使用户画像分析从原来扁平化的数据整合逐步发展为以数据驱动的智能、灵活且具有交互性的消费者研究方法,结合用户推荐、决策树和文本挖掘等算法广泛应用于电子商务、产品营销、商业设计和健康医疗等领域[3-5]。百度通过在线获取用户属性信息和操作行为提取用户特征数据,通过模型训练得到用户画像的兴趣标签,从而构建用户画像以实现产品定向推荐[3]。Uber基于用户画像识别消费者在交通出行中的关键痛点,创新建立动态定价和在线打车的商业模式进而获得商业成功[6]。因此,基于用户画像分析的消费者洞察可有效识别用户特征、消费偏好和市场热点,从而有利于形成用户导向的产品设计和商业决策。

卷烟作为一种特殊的消费类产品,限于法律政策等因素影响,国内烟草行业较难以营销方式大范围直接触达卷烟消费者。随着卷烟市场竞争加剧和经济水平的提高,近年来消费者对卷烟产品需求逐渐呈高端化、个性化和多元化发展,各地烟草公司不断丰富品牌结构和产品规格以满足各类消费者需求。为更加深入地剖析消费者对卷烟产品的消费偏好和潜在需求,及时获知市场热点,目前烟草企业多以线下市场调研和新品品鉴等方式获取少量消费者信息和产品评价数据,但上述方法存在数据获取成本高、样本量少和时效性短等缺点,难以快速构建基于大数据、代表性强且较全面的卷烟消费者画像。目前行业内对消费者画像分析多以卷烟零售户为研究对象建立分类评价模型,以实现精准营销和质量管控,而对于终端卷烟消费者的画像分析研究则相对较少[7-8]。为此,通过线上消费者调研,采用分层采样方法获取消费者基础信息和消费行为数据,基于大数据集构建不同区域市场消费者画像,并以聚类和判别分析识别消费者特征,建立消费者价值分析模型,以期评估潜在消费群体和目标市场价值,为实现以需求为导向的产品优化和精准营销提供支持。

1 研究方法

1.1 消费者样本采集

通过分层采样方法,以城市地域为分层变量,综合考虑2021 年全国各省份卷烟销量、省份内各城市地域位置、经济和人口总量4类因素,选取全国卷烟销量排名前8 个省份中销量最高的重点城市以及4个直辖市,共计12个城市作为消费者数据采集目标区域。其中,各省份包括南部、中部、北部和内陆4个区域,基本涵盖了全国不同气候环境、地域位置、经济水平和消费偏好的卷烟消费人群。采用互联网社群向卷烟消费者定向推送线上调研问卷,分别在12 个城市中随机抽取3 000名卷烟消费者的调研问卷,获取其基础属性及卷烟消费行为数据,共计获得36 000 份消费者样本数据,数据采集时间为2021年6—8月。12个城市及对应消费者样本量见表1。

表1 不同省份城市及消费者样本量Tab.1 Selected cities and corresponding amount of consumer samples

线上调研问卷采集的信息主要包括消费者基础属性和消费行为两类数据。其中,消费者基础属性包含消费者年龄、性别、烟龄、职业、收入和教育程度6个维度。消费行为则主要采集消费者主吸品牌、品牌偏好、消费场景、购买因素、购买频率、月均消费、消费渠道、品牌黏性和消费需求等相关信息及数据。具体问卷调研内容见表2。

1.2 调研数据预处理

在线上调研过程中,卷烟消费者可能由于理解偏差或录入错误等原因而产生异常数据。为提高消费者样本数据质量,对调研问卷完成时间低于10 min和消费金额计算逻辑(Q15~Q19)错误的异常样本进行剔除,并将不同城市的消费者特征整合为消费者年龄、收入、烟龄、职业、月均消费额、主吸卷烟价格、月均购买量、品牌黏性和消费决策因素,共计9个消费者基础属性和消费行为指标。由于消费者样本中连续型数值变量(如年龄、收入、烟龄、消费频率和金额等)量纲不同,且问卷中包含名义变量(如性别、职业和卷烟品牌等),因此在建立消费者价值评估模型前需要对数值变量按公式(1)进行标准归一化,名义变量则以次序变量进行量化表征。

式中:μ为某消费者的特征变量均值;σ为特征变量标准差。

1.3 聚类分析

聚类分析是对多维数据集的无监督分类方法,其原理是计算各数据样本间的距离用于表征样本间相似性,从而实现同一数据簇内样本相似度较高,而不同数据簇间相异性较高的分类目的。常用的聚类分析包括层次聚类、K-means 和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等方法,相较于其他分类算法,K-means具有聚类复杂度低、收敛速度快和降低小样本聚类不确定性等优点[9]。因此,本研究中采用欧氏距离计算不同城市消费者样本间差异性,根据聚类性能指标类内平方误差优化分类K 值,对不同区域市场消费者进行聚类分析。消费者样本间欧式距离计算公式为:

式中:dik为两消费者样本xi和xk间距离;xij为消费者样本xi中第j项特征变量;xkj为消费者样本xk中第j项特征变量。

1.4 线性判别模型

判别分析属于有监督分类方法,主要包括线性判别、距离判别、二次判别和Bayes 判别等分析方法。线性判别分析(Linear Discriminant Analysis,LDA)根据已标记类别的n维特征样本数据,通过线性变换将n维特征变量投影至某一方向,并以多元方差分析判定线性变换后不同组间差异,从而能够最大限度地区分样本类别[10-12]。为此,根据不同城市消费群聚类结果标定消费群类别,基于消费者基础属性、消费行为和城市指标等变量,建立LDA 判别模型Y{y1,…, yn}:

式中:Cip为第i个判别模型第p个特征维度系数;Xp为数据样本中p维特征值。

通过LDA 判别模型Y 使不同组间离差最大、组内离差最小,从而有效识别不同城市消费者特征差异,形成不同区域市场消费者价值评估模型。

1.5 数据分析及建模环境

消费者调研数据处理、分析模型构建及可视化输出均采用R语言实现。

2 结果与分析

2.1 各城市卷烟消费者画像

2.1.1 消费者基础属性

12个城市卷烟消费者的年龄和烟龄统计分布见图1。可见,消费者年龄和烟龄分布基本分为3个区间。其中,广州、北京、天津和重庆4个城市的消费者平均年龄和烟龄分别为34.8~35.8 岁和6~8 年,消费者整体年轻化。上海、南京、成都、武汉、长沙和杭州6 个城市的消费者平均年龄和烟龄分别为37.6~38.1 岁和 9~10 年,消费者以中青年为主,40 岁以上消费人群显著增加。而郑州和沈阳2个城市消费者平均年龄和烟龄均高于其他城市,分别为39~40 岁和10~11年,消费者主体呈老龄化趋势。由此表明,经济发展快、人口密度高以及地处沿海的重点市场区域消费者普遍以中青年为主,平均年龄低于经济增速慢、人口总量低的内陆及北部市场。

图1 不同城市卷烟消费者年龄和烟龄分布Fig.1 Age and smoking history distribution of cigarette consumers in different cities

12 个城市卷烟消费者职业和收入占比调研结果见图2。将消费者职业分为学生、私营雇主、企业中高级职员和一般职员4 类,收入等级分为1 万元/月以下,1~1.5 万元/月、1.5~2.5 万元/月和 2.5 万元以上4 个等级。统计结果表明,所有城市中近七成消费者为企业一般员工,工作收入为1 万元/月收入以下。由于市场区位优势和经济发展水平等因素,北京、广州、天津和上海4 个城市的私营业主和企业中高级职员占比相对较高,且广州、上海和北京3个城市消费者中高收入群体占比显著高于其他城市。

图2 不同城市卷烟消费者职业及收入占比Fig.2 Career and income proportions of cigarette consumers in different cities

2.1.2 消费者消费行为

消费者消费行为调研内容主要反映各目标城市卷烟消费者的消费水平、消费频率、市场品牌偏好度、主吸产品忠诚度以及影响卷烟产品购买决策的主要因素等内容。12个城市消费者主吸卷烟平均价格及月均消费额统计结果见图3。可见,各城市消费者月均卷烟消费为400~600元/月,主吸产品均价为250~370 元/条;各城市消费者月均购买量差异较小,为1.5~2 条/月。其中,成都、广州和上海3 个城市消费者主吸卷烟均价为320~370元/条,以普一类和中高端卷烟为主,在12 个城市中消费水平较高。而沈阳、天津和南京3个城市消费者主吸卷烟均价为250~270 元/条,二至五类卷烟消费群体占比约40%,消费能力相对低于其他城市。

图3 不同城市卷烟消费者主吸卷烟均价及月均消费额Fig.3 Average prices of cigarettes most frequently smoked and monthly consumption of consumers

消费者在偏好品牌缺失情况下,转而购买其他品牌的意愿强烈程度可反映出消费者对该卷烟产品的品牌黏度,12 个城市消费者选择其他品牌的意愿程度量化结果见图4。可见,不同城市消费者的品牌黏度规律基本一致,消费者对卷烟产品的品牌黏度随价格增加而明显提升。其中,消费者对300 元/条以上中高价类卷烟产品的品牌忠诚度为0.70~0.83,呈极强偏好性,表明该类消费者不容易受品牌营销和市场因素影响而选择尝试其他品牌。而普一类和三至五类卷烟消费者的品牌忠诚度较低,这可能与近年我国卷烟市场同价类产品上市数量增加而导致产品选择多样、产品同质化以及年轻消费者未形成品牌固定偏好等因素有关。

图4 不同价位卷烟产品消费忠诚度Fig.4 Consumer loyalty to cigarette products with different prices

影响卷烟消费者购买决策的主要因素分为产品口味、品控质量、品牌影响力和社交档次4项,各因素对不同城市消费者购买决策的影响程度见图5。可见,产品口味是多数消费者购买卷烟产品时最关注的决定性因素,其次为产品质量稳定性。沈阳和上海2个城市消费者对产品社交档次较为关注,而天津消费者对产品品牌影响力较为关注。

图5 消费者购买决策影响因素及影响程度Fig.5 Influential degrees of factors affecting cigarette purchasing

2.2 消费者特征聚类分析

选取消费者基础属性(年龄、烟龄、收入和职业)、消费者消费行为属性(产品偏好、月均消费量、主吸卷烟价格、月均购买量和购买决策关注点)以及市场属性(人口总量和生产总值),共11 个变量作为特征维度进行聚类分析,以深入了解不同城市消费者的特征差异。由图6可见,当K-means聚类类别K值>3 时,各类别总组内方差和下降趋势逐渐减弱。为此,将12 个城市分为3 类,其聚类结果见图7。可见:①上海、广州和北京3个城市被归为群类1,表明这3个城市消费者和城市特征相近,均以中青年群体为主,收入水平和职业级别较高,消费能力和主吸卷烟价格明显高于其他城市群,但购买量相对较少,关注产品口味、品控和社交档次,中高价值消费群体占比偏高。②群类2将天津、杭州、武汉、南京、沈阳、郑州和长沙这7个内陆北部及沿海二线城市聚为一类,该城市群卷烟消费者以中年群体为主,人口密度和消费能力均低于群类1,产品偏好集中于70~200元/条,购买频次较高,关注产品口味和社交档次,以中低价值消费群体为主。③群类3 表明重庆和成都2个城市消费者的消费行为和城市特征相近,均以中青年为主,收入水平中等,但人口密度、消费能力和消费频率均较高,关注产品口味和品控,消费群体价值成长性相对较高。

图6 聚类K值梯度图Fig.6 Clustering K-value gradient diagram

图7 不同城市消费者特征K-means聚类图Fig.7 K-means clustering diagram of characters of consumers in different cities

2.3 消费者特征识别及判别模型

根据各城市聚类结果,基于不同城市卷烟消费者的基础属性、消费行为和市场属性变量建立LDA判别模型,通过模型系数可深入剖析各变量以区分不同城市群体消费者特征的贡献度。判别模型及判别结果见表3和图8。可见,通过线性模型LD1和LD2可有效识别不同城市群消费者特征,对判别城市群消费者特征差异的解释率分别为83.59%和16.41%。其中,城市生产总值、人口总量、月均消费额和消费者年龄是LD1 模型的主要特征维度,模型系数分别为-7.282、4.686、4.175 和-3.001,表明城市经济社会指标、消费者消费水平和年龄是区分12个城市消费者的关键特征,3类城市群消费者在上述4个维度存在显著差异。人口总量、产品偏好及月均消费额是LD2 模型的主要特征维度,模型系数分别为-2.043、1.177和-1.121,表明12个城市间消费者对不同价位卷烟产品的购买偏好存在一定差异。综上,城市经济社会指标、消费者消费水平、年龄和不同价位卷烟产品偏好是区分12个城市消费者的4个关键特征。

表3 不同城市消费者特征LDA判别分析模型系数Tab.3 LDA models coefficients for characters of consumers in different cities

图8 不同城市消费者特征LDA判别图Fig.8 LDA diagram of consumer characters in different cities

3 结论

通过线上消费者调研和分层采样获取全国卷烟市场12个重点目标城市消费者基础属性和消费行为数据,比较不同城市卷烟消费者画像差异。基于K-means 聚类方法识别具有相似消费者和城市属性特征的城市群,并以此建立LDA判别模型量化表征不同城市群的消费者关键特征和城市特征。研究结果表明,由于经济水平、人口密度和区位优势不同,各城市消费者画像存在明显差异。上海、广州和北京消费者年龄和烟龄结构较年轻化,职业级别、收入水平、消费水平和偏好品牌价格显著高于其他城市消费者。消费者品牌黏度随卷烟价格升高而有所增加,各地消费者普遍将产品口味和品控质量作为影响消费决策的两个关键因素。聚类结果表明,12 个城市消费者可分为3类,分别为中青年消费者和中高价值消费群体占比偏高的群类1,中年消费者和中低价值消费群体为主的内陆北部及沿海二线城市群类2,以及消费群体价值成长性较高,人口密度、消费能力和消费频率均较高的群类3。LDA模型判别结果表明,城市经济社会指标、消费者消费水平、年龄和不同价位卷烟产品偏好是区分12个城市消费者的4个关键特征,该模型可用于评估各类潜在市场及相应消费者价值类型,为卷烟产品市场投放策略提供参考。

猜你喜欢

卷烟聚类样本
用样本估计总体复习点拨
基于K-means聚类的车-地无线通信场强研究
推动医改的“直销样本”
基于高斯混合聚类的阵列干涉SAR三维成像
随机微分方程的样本Lyapunov二次型估计
基于Spark平台的K-means聚类算法改进及并行化实现
村企共赢的样本
基于改进的遗传算法的模糊聚类算法
卷烟包装痕迹分析
我国卷烟需求预测研究述评