APP下载

基于DBSCAN聚类算法的卷烟零售客户分类研究

2023-09-03许菲

中国市场 2023年23期
关键词:数据挖掘

摘要:当前卷烟零售客户市场类型的分类是根据客户所处的地理位置分为四类:城区、县城、乡镇、农村。文章利用DBSCAN算法按零售客户的地理坐标进行分类,以郴州市桂阳县卷烟零售客户为例,提出一种新的零售客户的分类方法,可以实现零售客户变动情况下的动态分类,使卷烟零售客户的分类更全面和更准确。

关键词:DBSCAN聚类算法;卷烟零售客户分类;数据挖掘

中图分类号:F224;F274   文献标识码:A  文章编号:1005-6432(2023)23-0000-04

[DOI]10.13939/j.cnki.zgsc.2023.23.000

1引言

所谓客户分类,也称为客户细分,是指根据客户的属性,将所有客户划分 为不同的类型,对他们进行分类研究,制定相应的服务策略,合理分配服务资源,从而达到保持客户、最大限度地提高客户满意度的目的[1]。客户分类对于满足细分客户需求有明显作用,通过划分不同类型的客户把握各类客户的需求差异,并考虑公司在资源投入、服务提供程度上的差别。卷烟零售客户分类主要应用于客户评价、终端建设、货源分配、差异性服务等。当前全省卷烟零售客户按市场类型进行分类,被分为四类:城区、县城、乡镇、农村。分类标准如下:分类为城区的卷烟零售客户地处于市辖区所在地实际建设连接到的居民委员会和其它区域;分类为县城的卷烟零售客户地处于县(区)政府所在地,政府驻地的实际建设连接到的居民委员会和其它区域;分类为乡镇的卷烟零售客户地处于乡、镇人民政府所在地,政府驻地的实际连接到的居民委员会;分类为农村的卷烟零售客户地处于位于上述三类以外的零售客户。处于城区、县城、乡镇中心位置的客户分类明确,但处于各区域交界处的客户的市场类型由市场管理员和客户经理主观认定,有时存在一定的争议。同时,因不同的城区、县城和乡镇的发展时间、发展程度不一样,城区的繁荣程度并非一定要比县城和乡镇要高。客户分类的颗粒度较大,精准度不高都是当前按简单市场类型进行分类出现的问题,这样也容易引起客我之间、客户之间的矛盾。

通过查找文献发现,夏维力和王青松构建了客户价值细分三维模型,将客户分为八类,每类客户拥有不同特征,并针对每类给出了具体的客户保持策略[2]。马骏珍研究了烟草公司客户价值管理和服务营销策略,建立了一套多角度的客戶价值评价体系,实现了客户分类和个性化的服务营销策略[3]。祖强立足卷烟消费者购买需求的角度,以卡诺模型理论为基础,从消费者需求研究、需求项目分类、零售客户评价标准、实际运用和管理等方面探索构建面向消费者的零售客户分类评价体系[4]。闫磊等人设计了当前价值和潜在价值的评价指标体系,并基于 K-means聚类算法进一步细分客户[5]。本文从卷烟零售客户聚集程度越高,市场状态越繁华的角度出发,在R语言的操作环境下,使用DBSCAN聚类算法对零售客户进行动态分类,使客户分类更为全面和准确,能更好的实现卷烟零售客户的动态分类和动态标签,。同时,通过进一步跟踪客户分类的变化情况,可以对未来的市场发展情况进行预测。

2  研究方法和数据来源

2.1研究区域

桂阳县位于湖南省郴州市西部,县城距郴州市区31.7千米,398个行政村(社区),总面积2973平方公里,下辖3个街道、17个镇、2个乡,常住人口约为71万人左右。桂阳县是郴州市面积最大、人口最多的县,是历史悠久的千年古郡。桂阳县目前有卷烟零售客户2500余户,县级市场不存在城区客户,当前按市场类型分类一共有3类,分别是县城客户1063户,占比47.06%;乡镇客户1037户,占比41.04%;农村客户427户,占比16.90%。

2.2数据来源

郴州市烟草公司开发了以“大平台、大数据、大系统”为支撑的“福城金网”服务管理平台。平台打通了专卖、营销、物流数据接口,构建了市州级大数据仓库,初步实现大数据分析,发挥数据更大价值。平台基于地理信息与业务数据融合,描绘郴州烟草地图,构建灵活、有效的决策层信息驾驶舱,绘制网格化服务管理地图[6]。卷烟零售客户入网之初,由市场管理员与客户经理对其地理位置坐标进行采集,系统中储存了所有卷烟零售客户所处位置的经纬度。本文获得的卷烟零售客户地理位置坐标的时间是2022年3月,一共获取了2527个卷烟零售客户的经纬度坐标。

2.3研究方法

2.3.1DBSCAN算法与K-Means算法的对比

DBSCAN是一种比较有代表性的基于密度的聚类算法,该算法最初由Ester等提出[7]。与传统的、在烟草应用更多的K-Means算法相比,DBSCAN不需要测试k值的最优解。卷烟零售客户的地域分布缺乏规律,样本并非是均衡分布的,而K-Means无法解决解决簇分布差别比较大的情况。详见表1。

2.2.2 DBSCAN算法解释

DBSCAN将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇算法,主要需要进行两个参数的调节:Eps (邻域半径)和Minpts (E邻域最小点数)。其中Eps是按密度集群的确定半径,Minpts密度区域内的点数,即在目标区域中整个邻域内的样本点数大于等于Minpts。当某区域内的样本点数小于Minpts,则标记成噪声点,也就是离群值。DBSCAN算法将集群定义为:密度相连点的最大集合,能够把具有足够高密度的区域划分为集群,最终形成任意形状的聚类[8]。

在DBSCAN算法运行时,影响最大的初始参数Eps和Minpts需要用户自行定义并手动输入,这两个值将直接影响到最终的聚类结果,所以在研究时,要明确选择Eps和Minpts的参数值的原因。可以根据当前乡镇卷烟零售客户分布的情况,对零售客户实际聚集的物理情况进行测量和等比例换算,确定Eps值;通过调研当前乡镇卷烟零售的客户分布,并对实际密度进行测算,确定Minpts值。

3 分析过程

3.1基于DBSCAN的卷烟零售客户分类算法

3.1.1 DBSCAN算法描述

第一,算法输入。以卷烟零售客户的烟草证号作为唯一标志,确定每个客户的X值与Y值,X值代表客户位置的经度,Y值代表客户位置的纬度,建立卷烟零售客户坐标值数据库D。明确邻域半径Eps和E邻域最小点数 Minpts。

第二,算法输出。卷烟零售客户分类情况及客户分类图。客户分类图中可显示了每一个卷烟零售客户在地图上的分布坐标,可直观地观测到每个区域的聚集密度,由此来对卷烟零售客户进行分类。

3.1.2 DBSCAN算法步骤

第一步:从卷烟零售客户坐标值数据库D中设定一个对象值P,得到邻域半径Eps范围内的所有对象;第二步:当得到的对象数大于或等于设定的E邻域最小点数Minpts,则构成了目标对象集,若得到对象数小于Minpts,则这些点暂时为离群值;第三步:目标所有对象又可再得到半径为Eps的对象集,再计算对象数是否达到Minpts,达到的汇总对象构成一个簇,产生簇结果;第四步:重复第二步和第三步,直至处理完所有对象;第五步:得出聚類结果,即所有零售客户所属类别。

3.2算法实现的部分代码

在R语言的环境下,以下是实现DBSCAN算法的部分代码:

zb<- read.csv("zb.csv",sep=",",header=TRUE,encoding="UTF-8")

zb2<-select(zb,X,Y)

library(dbscan)

ggplot(data = zb)

geom_point(mapping = aes(x = X, y = Y))

kNNdistplot(zb2,k=5)

db<-dbscan(df,0.15, 5)

b<-dbscan(zb2,eps=0.008,MinPts =10 )   第一个参数

b<-dbscan(zb2,eps=0.020,MinPts =10 )   第二个参数

b<-dbscan(zb2,eps=0.015,MinPts =10 )   第三个参数

fviz_cluster(b,zb2,stand = FALSE, refram = FALSE,geom="point")

3.3桂阳县卷烟零售客户聚类分析

本文以郴州市桂阳卷烟零售客户为例,采用DBSCAN算法在R语言的环境霞完成客户的聚类分析。

第一,导出并汇总所有客户坐标数据。登录福城金网子系统,导出分客户经理的零售客户坐标信息,汇总全体卷烟零售客户的地理位置数据。

第二,测算当前零售客户密度情况,生成全县客户密度图。在R语言中导入桂阳县零售客户地理位置坐标,对当前卷烟零售客户的地理位置进行测算,计算县城边缘零散客户数及各乡镇聚集的客户数,经多次调整,测试得出各乡镇上的密度情况。图1显示,零售客户的聚集程度与县城、乡镇、乡村区域人口的聚集程度呈现较大的相关性。县城的零售客户聚集程度最高,各个乡镇集市所在位置的聚集程度次之,其余位置的客户呈现出零散分布。

第三,运行DBSCAN算法对客户聚类,生成客户分类表。使用R语言编写 DBSCAN算法,对算法进行初步调试后,导入桂阳县卷烟零售客户的坐标,对信息数据集进行几次迭代后,进一步分析后发现在Eps=0.015、Minpts=20时,聚类效果较为理想。

所有的卷烟零售客户含离群值一类被分为43类。从表2的情况来看,桂阳县卷烟零售客户在空间布局上存在三类,即县城呈现高度集聚的情况,第9类的客户达到了1021个,略少于当前市场类型为县城客户的数量。实地调查中存在部分县城边缘的卷烟零售客户所处商圈较为冷清,人口密度较小的情况。这与实地调查情况相似。DBSCAN聚类算法结果显示,根据自然间断裂点分级法将43个类别分为3个等级,第一等级为县城客户,客户数有1027个,共占卷烟零售客户总数的20.69%;第二等级为乡镇客户,有41个类别,包括集镇和大型乡村,合计客户数1201个,共占卷烟零售客户的47.53%;第三等级为农村客户,是分类中的离群数据,占卷烟零售客户的12.07%。

第四,验证分类结果。将按照DBSCAN算法进行聚类的结果与卷烟零售客户市场类型的属性进行数据对比,发现有181个客户与原来划归的分类属性不一致,占比为7.16%。其中有最多的是市场类型为农村,通过算法聚类为乡镇的客户,共计135户,占所有不一致客户的74.59%。原因主要为一些人口密度偏大的集贸乡村未达到乡镇标准,没有地处于乡、镇人民政府所在地的集镇,整条街道都被定义为农村。通过抽样也发现,运行DBSCAN算法聚类的结果较为准确,分类结果准确率较高且能有效反映卷烟零售客户所处的商圈环境。

4  结论与展望

4.1 DBSCAN结果分析

本文通过DBSCAN聚类算法研究卷烟零售客户的集群热点和空间分布情况,与当前的零售客户分类进行对比,根据已有研究以及数据可获性重新设计通过算法对卷烟零售客户进行分类的新方法。结论如下。

第一,桂阳县卷烟零售客户的空间布局上的集聚效果明显且存在一定梯度等级效应,主要表现为县城客户高度集聚,乡镇区域客户逐步减少,乡村客户离散度高。通过DBSCAN聚类算法识别出含离群值的43个分类,其分类结果与市场类型相似度超过90%。

第二,通过实地驗证发现,对卷烟零售客户进行动态的算法分类可能比原来的静态属性划分更准确,更能反映卷烟零售客户的真实销售环境。同时在新客户入网、客户地理位置信息变更和客户注销时,专卖管理员与客户经理须在“福城金网”服务管理平台调整客户的位置信息,平台上能实时接收到客户位置当前情况,运用算法对卷烟零售客户进行分类,无论客户数量多少,分类的时间极短,效率更高。

第三,通过算法对客户分类更加客观,避免了人工主观判断和认定产生的误差,也减少了人为调整客户分类造成不良影响。

4.2 展望

从研究情况来看,未来还可以考虑更多因素对卷烟零售客户分类的影响,从交通、商业、经济、人口水平、旅游等方向着手,考虑人口密度、路网密度、旅游民宿等具体指标,还可以增加客户卷烟销售情况,进行相关性分析,研究各影响因素对卷烟零售客户销售的影响程度。

烟草商业公司在由经销商向平台商转型的过程中,数据作用愈加重要。积极探索“互联网+营销”,探索利用算法对客户分类、客户销售进行分析和计算,整合数据资源,加强分析应用,不断加大营销创新力度。

参考文献:

[1]中国卷烟销售公司.卷烟服务营销[M].北京:中国金融出版社,2011:7,38.

[2]夏维力,王青松.基于客户价值的客户细分及保持策略研究[J].管理科学,2006(4):35-38.

[3]马骏珍.基于客户价值分析的卷烟服务营销策略研究——以 X 市烟草公司为例[D].杭州:浙江工商大学,2012.

[4]祖强.基于卡诺模型面向消费者的客户分类评价体系建设研究[J].中国烟草学报,2017(1):122-129.

[5]闫磊,刘旭,徐斌. 基于客户价值的卷烟零售客户分类研究与应用[J].价值工程,2019(25):89-90.

[6] 周寅晴,杨淑琼.福城金网系统研究与推广应用[J].中国信息化.2020,(10):89-90.

[7] ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Portland, Oregon, USA: The AAAI Press, 1996:226-231.

[8] 马小宾,侯国林,李莉,等.基于DBSCAN算法的民宿集群识别、分布格局及影响因素:以南京市为例[J].人文地理.2021,(1):84-93.

[作者简介]许菲(1986—),女,湖南郴州人,中南大学工商管理硕士学位(MBA),现就职于郴州市烟草公司桂阳分公司,经济师,研究方向:市场营销。

猜你喜欢

数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议