数据挖掘算法在厦门市卷烟新零售策略中的应用
2021-08-27秦琴
秦 琴
(厦门市烟草专卖局(公司),福建 厦门 361000)
1 概述
“互联网+”“大数据”等带来了新一轮技术创新,在给消费者带来方便的同时,也为批发商、零售商创造了无限商机。作为传统销售行业的烟草,也应顺应时代潮流,勇于改革、积极创新,用数据分析来改善卷烟消费体验。
对于烟草行业而言,“新零售”不仅意味着销售渠道从线下转为线上的变革,还意味着在不久的将来,烟草行业能够借助数据拓扑关系不断向周边行业延伸,优化和丰富产业链条。当前,厦门市卷烟零售数据、消费者数据相当丰富和全面,相关数据库也在全方位筹备中,进入大数据时代,不仅需要建立完备的数据储存系统,更要利用好现有的数据,通过数据分析挖掘出数据价值,进而更好地推动整个市场的良性运作。
该文利用厦门市卷烟零售数据,结合数据挖掘算法构建统计分析模型,对消费者偏好、零售户和消费者特征以及卷烟市场容量进行挖掘和分析。一方面,深入探究数据挖掘算法的有效性和科学性,积极探索卷烟新零售数据分析的科学方法;另一方面,多维度、多角度透视卷烟零售中的规律和定量关系,科学制定现代化营销策略。
2 算法和模型介绍
2.1 关联分析
关联分析是从大量数据中发现项集之间有趣的关联和相关联系的一种统计算法。关联分析的一个典型例子是购物篮分析,该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯,帮助零售商制定营销策略。
2.1.1 关联分析重要指标
如表1所示,关联分析通过搜寻频繁项集,计算支持度和置信度来找出强关联规则,而这种规则通常反映了消费者的购买习惯、偏好等潜在信息,有助于零售户制订营销策略,促进销售,提高利润。
表1 关联分析指标表
2.1.2 Apriori算法
Apriori算法是一种经典的关联分析方法,其核心是逐层搜索迭代法。通过频繁k-项集探索频繁(k+1)-项集,以此类推搜索出所有的频繁项集。具体实施步骤如下:
首先,找出频繁1-项集的集合,记做L1;然后用L1找出频繁2-项集的集合L2;再次,用L2再找出L3……,直到不能找到频繁k-项集。计算过程中,寻找每个Lk需要扫描一次数据库。
然后,在得到频繁项集后,通过把频繁项集分成前件和后件两部分,并计算出规则{前件→后件}的支持度、置信度,如果二者大于最小支持度、置信度阈值,它就是一条强关联规则。遍历频繁项集,挖掘出所有大于最小支持度、置信度阈值的关联规则,即强关联规则。
2.2 层次聚类
聚类分析是一种非监督式的分类方法。按照“物以类聚”的思想,通过对样本的训练将其亲疏远近的关系刻画出来,然后将性质相近的样本归为一类,并尽可能显著的区分各个类。层次聚类法(hierarchical clustering)亦称为系统聚类法,是一种较为稳健的分类方法。核心思想是通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接各节点。
多数情况下,我们用样本的距离远近刻画相似度,首先将距离相近的样品(或变量)先聚成类,距离相远的后聚成类,依此过程一直进行下去,最终每个样品(或变量)总能聚到合适的类中。常用的距离有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。它们的归类步骤基本一致,主要差异是类间距离的计算方法不同。
2.3 回归分析
回归分析是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。通过筛选出与被解释变量高度相关的变量作为解释变量,按照一定的标准拟合他们之间的曲线,从而很好地解释和预测被解释变量的水平。
常用的回归分析模型是线性回归。解释变量向量记为x,被解释变量向量记为y,则y=x′β+ε,表明x增加一个单位对y的边际效应是β。线性模型的首要任务是估计系数向量β,常用的估计方法是最小二乘法OLS,通过求使得所有样本残差平方和最小时的最优化问题:
可得:
3 样本说明
本次分析采用海晟直营门店、见福便利店和永辉超市的销售数据。具体数据描述性统计表如表2所示:
表2 数据样本说明
4 建模与分析
4.1 基于关联分析的消费者需求及需求变化
消费者的卷烟购买行为可以折射出其购买偏好、消费习惯及消费潜力,很多时候选择购买商品A的消费者很大可能也会购买商品B,不同商品的购买行为存在一定的关联性,如果能够量化这种潜在关联性,就可以帮助指导零售户制定合理、精准的营销策略。因此,本部分将对厦门市卷烟消费数据构建关联模型,选取单笔订单包含至少两种不同类型商品的订单数据共计41.4万条(其中每笔订单包含两种以上商品且包含卷烟的订单数据共计339532条,占82%,后文大多分析以此数据为基础),从多个角度挖掘消费者需求。关联分析建模步骤图如图1所示。
图1 关联分析建模步骤图
4.1.1 卷烟陈列和替代分析
将上述包含两种以上商品且包含卷烟的339532条订单数据输入关联算法模型,并设置关联分析参数为:最小支持度=0.003,最小置信度=0.05。按照支持度降序排列可得前10为关联规则,如表3所示。
表3 按支持度筛选的全规格卷烟关联规则
由表3可知,1~10种关联规则支持度逐渐降低,表明消费者购买对应规则商品的购买欲望逐渐减少,中华(软1)和中华(硬)的组合购买行为是最普遍的,也是消费者组合购买欲望最强的。具体而言,消费者在购买两种及两种以上商品的订单中,平均100个订单中,有2个订单是中华(软1)和中华(硬)、1个订单是七匹狼(软灰)和中华(硬)、1个订单是七匹狼(蓝)和七匹狼(软灰),平均1000个订单中,9个订单是中华(硬)和芙蓉王(硬)。
基于此,我们可以找出消费者组合购买欲望最强的卷烟组合,以组合销售的方式,由组合中人气较高的卷烟带动人气较低的卷烟,增加人气较低的卷烟的知名度及销量。
同样,我们可以筛选出支持度排名前30、置信度前10的关联规则,如表4所示:
表4 按置信度筛选的全规格卷烟关联规则
支持度越高的组合,说明消费者组合购买的频次越高,消费者的组合偏好越强。置信度越高,说明购买A商品的消费者购买B商品的概率越高。置信度在一定程度上反映了卷烟的可替代性,对于规则{A}→{B}而言,置信度越大表明当A缺货或者断货时,消费者有很大的可能性购买B作为A的替代品。由表4可知,消费者同时购买两种及以上商品的订单中,平均每100个订单中有1个七匹狼(纯雅)和七匹狼(蓝)组合,且100个购买七匹狼(纯雅)的消费者,有21个消费者可能购买七匹狼(蓝)。
上述规律可以为我们在工业企业新品研发、商业品牌投放市场,以及店铺商品陈列、销售推荐时提供一定参考。
4.1.2 卷烟价类营销分析
类似地,我们可以对各价类卷烟购买规则进行关联分析,表5给出支持度降序排名前10的关联规则。
表5 按支持度筛选卷烟价类关联规则
由表5可知,在消费者购买两个及以上商品的订单中,平均100个订单中,有6个订单同时购买普一类B和高一类A卷烟,且平均100个购买普一类B卷烟的消费者中,有24个消费者可能购买高一类A卷烟。
基于此,可通过发现普遍行为中未来转化概率大的组合,对该组合进行培育,进一步提高转化率。以普一类B和高一类A为例,该组合支持度高、置信度高,可作为提升结构的目标培养价类。
4.1.3 卷烟指定规格分析
重新设置关联分析参数:最小置信度=0.05,最小支持度不设下限。筛选出后件B对应为七匹狼(蓝)、置信度按降序排列的关联规则如表6所示。
表6 按置信度排序、固定后件B的关联规则
由表6可知,购买长寿(两岸)、白沙(硬新精品二代)、红双喜(花开富贵软10mg)、双喜(硬金五叶神)的消费者都可能顺带购买七匹狼(蓝钻)。平均100个购买长寿(两岸)的消费者中,有10个消费者可能会购买七匹狼(蓝钻),平均100个购买白沙(硬新精品二代)的消费者中,有9个消费者可能会购买七匹狼(蓝钻),100个购买红双喜(花开富贵软10mg)的消费者中,有6个消费者可能会购买七匹狼(蓝钻),100个购买双喜(硬金五叶神)的消费者中,有6个消费者可能会购买七匹狼(蓝钻)。这表明这类消费者都是七匹狼(蓝钻)的潜在消费者,可有针对性地将该类潜在消费者培育七匹狼(蓝钻)的消费者,进而推动消费升级。
4.1.4 卷烟新品分析
为了探究新品卷烟的市场前景以及偏好群体,我们对新品卷烟消费进行关联分析,关联分析参数设置为最小支持度不设下限,最小置信度=0.05。
由表7可知,购买黄山(硬天都)、金圣(智圣出山)、延安(1935)、玉溪(透明)的消费者比较愿意尝试新品娇子(宽窄如意)。其中,平均100个购买黄山(硬天都)的消费者,有15(置信度约为15%)个消费者可能购买娇子(宽窄如意)。购买钓鱼台(中支)、牡丹(金细支)、延安(细支圣地河谷)的消费者比较愿意尝试新品七匹狼(乘风启航)。其中,平均100个购买钓鱼台(中支)的消费者,有18个(置信度约为18%)消费者可能购买七匹狼(乘风启航)。购买黄山(硬红方印细支)、牡丹(金细支)的消费者比较愿意尝试新品延安(细支圣地河谷)。其中,平均100个购买牡丹(金细支)的消费者,有7个(置信度约为7%)消费者可能购买延安(细支圣地河谷)。
表7 按置信度筛选的新品卷烟关联规则
类似地,我们也可以通过关联分析探究消费者的非烟偏好以及节假日对消费者需求的冲击(篇幅限制,此处略去)。
4.2 基于聚类分析的零售客户和消费者特征画像
运用聚类方法对不同特征的零售客户和消费者进行分类,提取每一类群体的特征,有助于烟草零售的个性化营销策略制订和实施。
4.2.1 零售客户画像
烟草的零售客户在地理位置、人流量、销售额、业态和产品丰富程度等方面存在诸多差异,因此,这些零售客户的消费群体自然也不同。我们希望通过零售客户的一些基本信息和消费信息对零售客户画像,从消费者的角度更加精确地区别不同类别的零售户,有针对性地制订营销策略。本文选取反映零售客户自身特征的9个指标,如表8所示。
表8 零售客户指标
对厦门市45家会员商店的消费数据进行层次聚类,将所有样本分为5大类,聚类图见图2。
图2 层次聚类谱系聚类图
为了更直观反映类与类之间的界限,采用t-SNE非线性降维方法得到层次聚类的散点图,如图3所示,类与类之间的界限明显,表明层次聚类效果显著。
图3 t-SNE降维系统聚类分布散点图
由表9可以总结出各个类的特点,如表10所示:这5类客户分别对应湖里海晟客户、思明海晟客户、其他行政区海晟客户、见福便利店和永辉商超。“湖里海晟客户”(类别1)包含12家海晟连锁店,其中,湖里区海晟连锁店10家,思明区1家和集美区1家。因大多数海晟连锁店隶属湖里区,因此该类客户被标记为“湖里海晟客户”。同理,“思明海晟客户”(类别2)包含18家海晟连锁店,其中,思明区海晟连锁店17家,湖里区1家,因此,该类客户被标记为“思明海晟客户”。“其他行政区海晟客户”(类别3)包含了集美区、海沧区、翔安区和同安区四个区的海晟连锁店,因此,该类客户被标记如此。“见福便利店”(类别4)和“永辉商超”(类别5)各包含了2家见福便利店数据和3家永辉超市数据。
表9 零售客户层次聚类结果
表10 零售客户层次聚类特点
数据指标中并未有关于海晟、见福和永辉的标识,数据聚类结果却能够自然划分开来,说明这三类零售客户存在显著的消费差异。比较类别1、类别3和类别4、类别5的差异可以看出,海晟连锁具有月平均卷烟销售占比最高(超过70%),人流量最低(1000~2000人/月),月平均销售金额适中(50万元左右),月人均消费最高(近400元),高价类卷烟消费占比最高(超过45%),非烟商品数最少(不到300种)等特点。见福月平均卷烟销售占比适中(39%),月平均人流量适中(近2万人),月平均销售金额最低(30万元左右),月人均消费最低(15元),低价烟消费金额占比适中(83%),非烟商品数适中(3171种)。永辉商超月平均卷烟销售占比最低(仅2%),月平均人流量最高(近8万人),月人均消费适中(近100元),月平均销售金额最高(850万左右),低价烟消费金额占比最高(98%),非烟商品数最高(2.3万种),值得注意的是,其会员客户销量占比高达48%。综合来看,海晟连锁、见福和永辉超市在人流量、各价类卷烟消费占比、非烟商品数目和会员客户销量占比等方面存在较大差异,因此,通过聚类分析方法能够有效将其区分开来。
另外,聚类过程还巧妙地按照“区域”将海晟客户划分出来。这一结果并非仅仅因为考虑了区域这一行政变量,实际上是区域之间展现的消费行为差异使然。代表海晟连锁的类别1、类别2和类别3除了行政区域上的差别以外,还在于月平均人流量、月平均销售金额、卷烟消费占比和会员销量占比等方面的不同。湖里区海晟客户的月平均人流量最少(1023人),月平均销售金额最低(44万元),高价类卷烟消费占比最高(48%),会员客户销量贡献(17%)显著高于其他地区海晟连锁店。思明区海晟客户月平均卷烟销售占比最高(79%),月平均人流量最大(1665人),中等价类消费金额占比最高(22%),非烟商品品类数最少(248种),显著低于其他地区海晟连锁。其他行政区海晟客户月平均销售金额最高(56万元),月平均卷烟销售占比最低(73%),低价烟消费金额占比最高(36%)。
4.2.2 消费者画像
我们对海晟连锁店3689个会员数据按照12个指标(如表11所示)进行层次聚类,以期获得有关消费者更加清晰的画像。
表11 聚类分析消费者画像指标及分类
通过层次聚类法,我们将3689个会员的消费记录按照12个指标分为6类。每一个类别会员的部分指标明显的区别于其他类别,谱系聚类图和分布散点图4-图5所示。
图4 海晟会员数据层次聚类谱系图
图5 t-SNE降维系统聚类分布散点图
进一步提取各个类的特征,如表12所示。
表12 海晟连锁会员层次聚类(6类)特点
4.3 卷烟市场容量的回归分析
市场容量是指在不考虑产品价格或供应商的前提下,市场在一定时期内能够吸纳某种产品或劳务的单位数目。本次模型,我们考虑利用与卷烟相关性高的非烟销量来预测卷烟容量,具体探索函数如下:
Q=f(卷烟销售相关因子)
4.3.1 样本选取
海晟连锁因其在厦门卷烟市场稳定的份额和广泛的影响力,其数据库系统维护全面、数据质量高,故本文选取厦门海晟连锁2015年第35周至2018年第16周共计138周的数据为分析样本。
4.3.2 选取影响卷烟销量的非烟因子
通过剔除不稳定数据和非需求类数据,选取销量占比较为稳定的5个非烟类商品作为备选因子,如下表所示:
表13 非烟因子
对卷烟总销量和所有备选因子进行销量相关性分析。如图6所示,卷烟和白酒、卷烟和烟具的销量都具有显著的相关性。
进一步,计算出卷烟总销量和所有备选非烟因子的相关系数,结果如表14所示。
(a)卷烟和白酒 (b)卷烟和烟具图6 卷烟与非烟产品的相关图
表14 相关系数
由表14可知,白酒、洋酒、葡萄酒、茗茶的销量与卷烟总销量具有极强的相关性,故选择白酒、洋酒、葡萄酒、茗茶作为预测模型自变量。
4.3.3 构建预测模型
我们利用海晟卷烟总销售量作为因变量Q,白酒x1、葡萄酒x2、茗茶x3的销售量作为自变量拟合回归模型,通过对不显著变量进行剔除,得到修正后的估计结果,如表15所示。
表15 回归估计结果
估计方程为:
Q=245461.4+19.528x1+11.17x2+6.827x3
结果表明,白酒、葡萄酒和茗茶对卷烟市场容量的边际影响显著为正。具体来说,在合理的预测白酒、葡萄酒及茗茶的销量时,可以有效预测卷烟市场容量。根据对应行业的全国发展研究报告,预估了2018年厦门市年度白酒、葡萄酒及茗茶的销量增长率,分别为10%、7%和5%。进而,根据海晟连锁2017年的白酒、葡萄酒及茗茶的销量,预估海晟连锁2018年白酒、葡萄酒及茗茶的销量,见表16。
表16 2018海晟连锁白酒、葡萄酒、茗茶
将2018年白酒、葡萄酒和茗茶销量预测代入估计方程,可预测2018年海晟连锁卷烟年销量为73.14万条;在95%的置信水平下,年销量区间为[66.84万条,79.44万条]。根据海晟连锁的市场占有率为1.5%,可以推算2018年厦门市卷烟市场容量预测值为19.50万箱,在95%的置信水平下,市场容量的预测区间为[17.83万箱,21.18万箱],如图7所示。
图7 厦门市卷烟市场容量预测图
5 结论
本文运用了多种数据挖掘算法对厦门市卷烟销售数据进行了统计建模,得出以下结论:
①消费者会选择同时购买两种不同规格、不同价类的卷烟,并且部分消费者愿意在购买偏好性卷烟的同时尝试新品卷烟。
②对客户进行聚类分析,有助于对客户进行分类,从而进行个性化营销。
③采用非烟的销量进行预测卷烟的容量,为卷烟容量预测提供了一种新思路。该方法推断出厦门市2018年卷烟市场容量为19.50万箱及其95%置信区间为[17.83万箱,21.18万箱]。2018年厦门市公司实际销售卷烟19.45万箱,处于推断的容量区间内,得以很好的佐证,并且依此方式可以为2019年的销售目标制定提供参考依据。