基于决策树算法的电子渠道精准营销效能分析
2018-01-24张宏达
张宏达
(国网浙江省电力公司台州供电公司,浙江 台州 318000)
0 引言
近年来,随着市场经济的发展完善,中共中央办公厅在《关于进一步深化电力体制改革的若干意见》(中发[2015]9号),明确提出了要完善电力交易机构的市场功能。电力企业需要顺应市场的潮流,为用户提供更人性化的服务。
根据智研咨询发布的报告,截至2016年12月,我国手机网民规模达6.95亿人,占网民人群的95.1%。由此可见,移动互联网在企业与用户交互、沟通与交易的渠道上占有越来越重要的地位。
以国家电网公司为例,用户除了可以通过以往的银行批扣、营业厅进行缴费,现在还可以通过掌上电力APP在手机端进行缴费、电量和购电等记录的查询。
任何产品都离不开营销,APP虽然为用户提供了便利,但要使广大电力用户知晓,并且尝试使用,进而建立起使用习惯,仍然需要进行宣传推广。精准营销是指在精准定位的基础上,为用户提供个性化的营销方案,使得企业可以降低营销成本,提高营销的投资回报。精准营销建立在现代信息技术手段之上,首先要有大量的反馈数据作为基础,之后通过数据挖掘技术发掘数据中蕴含的商业价值,比如用户的偏好和行为习惯。
以下研究就建立在台州电力公司一次全渠道推广的反馈数据之上。活动历时一个多月,活动目的是以推广峰谷表为契机提高掌上电力APP、电e宝的注册绑定量。在推广的过程中,用户通过何种渠道进行注册都会被记录,包括微信朋友圈、台州移动和地推,然后与已有的用户数据进行关联,得到用户的年龄、性别、所在区域和用电量等特征,这些数据将被用于决策树的建模。
决策树是机器学习中的一种分类器算法,它的特点是判断过程是可见的,这有利于人们理解和发现影响分类的因素和其中的逻辑。很多分类器算法的结果都没有这种直观的展现,这也是选择决策树算法的原因,利用决策树算法可以得到更多的信息去理解用户被渠道影响的原因,有助于分析渠道的效能。
1 APP精准营销渠道的研究现状
1.1 精准营销的涵义
精准营销的概念由菲利普·科特勒首次提出,他认为采用精准营销理念的公司的营销沟通,沟通需要更加精准,在结果上看,沟通的投资回报比较高,并且可以对沟通的结果进行衡量。在营销传播计划制定上,更加注重结果和实际行动,与客户的沟通更多地以直接方式进行。
在2005年精准营销的概念被提出之后,Zabin和Brebach补充提出了精准营销的4R法则,即:正确的顾客、正确的信息、正确的渠道和正确的时机。在正确的时机之下,通过正确的渠道下向正确的顾客传达正确的信息,从而促使顾客做出有利于企业的决策。
1.2 APP及其使用影响因素
不少学者对用户下载APP的意愿、使用的满意度和喜好等开展过研究。Hee-Woong Kim的研究结果表明,用户是否愿意下载使用APP的影响因素有口碑、是否有用、APP的评分、使用费用、使用表现、娱乐性和是否容易使用。范宇峰、张燕等人从自我效能理论出发,认为用户的自我效能感知对用户是否愿意下载使用APP影响最大,第二大影响因素是APP的娱乐性,影响最小的是是否有用这一性质。赵海平、杨诗姝、邓胜利等人从双因素理论出发,从多个方面对用户是否愿意持续使用APP和卸载APP的可能性进行了实证研究。
1.3 APP营销模式和策略
越来越多的传统企业不仅直接开发APP来为用户提供服务,还在各类非企业所有的APP上为自己的服务引流宣传。使用不同APP的用户属于不同的群体,往往具有不同的偏好、观念和习惯,所以通过在不同的APP上传达不同的信息,来做到精准营销中的正确的信息。
APP的营销模式有多种。一是有广告植入模式,企业在APP上投放跟自己的产品或服务有关的各种广告、活动、信息,来对用户进行引流;二是用户参与模式,通过H5网页制作技术制造与用户的互动,来传达信息;三是移植模式,四是内容营销模式。
2 基于决策树的数据处理算法解析
决策树分类算法是机器学习领域中的一种监督学习算法,它需要具有类标号的数据来作为模型学习的训练集。
决策树是一种层次结构,由结点和有向边组成的。树中有根结点、内部结点和叶结点这3种结点。在决策树中,叶节点都会被赋予1个类标号。根结点和内部结点则都包含属性测试条件,用来区分具有不同特性的记录。
2.1 数据预处理
历史数据被用作训练集之前必须经过处理,以满足算法的要求。
(1)将用电量转化为分类属性。
具体方法是对用电量进行排序,按排名情况其属性分别为高、中、低(见表1)。
表1 按用电量排序分类
(2)将谷电量占比转化为分类属性。
谷电量占比20%以下的为低,20%—50%为中,50%以上为高(见表2)。
表2 按谷电量占比排序分类
(3)将年龄转化为分类属性。
18—30岁为青年,30—45岁为中年,45岁以上为中老年(见表3)。
表3 按年龄排序分类
2.2 模型训练
对数据进行预处理之后,要利用数据来对模型进行训练。要从根节点开始建立决策树,就必须逐步对结点进行分裂。每一次分裂,其实都是将训练集中的数据进行划分,算法为了确保每一次的划分都是最好的选择,必须确定一个不纯性度量,来衡量划分的效果。
所使用的不纯性度量是香农熵,公式如下:
式中:xi指类标号;p(xi)指该类在数据集中的频数。
每次划分的效果由信息增益ΔI来表示:
ΔI值越高,说明划分的效果越好。
模型训练流程详见图1:
(1)确定了如何去选择划分之后,算法需要解决的是什么时候终止结点继续分裂。思路是:结点不断分裂直到结点所划分的数据集里的元素全部具有相同的类标号。
(2)当所有属性都已被考虑,无法再进行分裂时,分裂也将停止。结点最终的类标号由结点中的数据集的多数类决定。
(3)为了防止无意义的过度拟合,使得整个决策树过于庞大,研究中也在信息增益已经低于阈值的情况下,提前终止结点的分裂。结点最终的类标号由结点中数据集的多数类决定。
2.3 模型结果
因为决策树的分支比较繁杂,所以将整个树在根结点处进行了分割,分别展示。
图2展示了在根结点对县公司这一属性进行分裂后的部分子树,属性值分别为台州黄岩、台州电业局、台州椒江、台州路桥、临海、三环、玉环,它们的叶结点的类都是其他。说明这些县公司所服务的用户,无论进一步考虑他们的哪一特征,相应类型的用户大多数都选择了其他渠道来下载注册APP。
图1 模型训练流程
图2 决策树1
图3 展示了从根结点分裂的县公司属性为仙居和天台的子树。从建立的模型结果可以看出,县公司仙居所服务的用户在活动期间没有办理峰谷表的多数都是通过地推渠道来下载APP的,统计结果显示,县公司仙居所服务的用户在活动期间没有办理峰谷表的有5 922人,从地推渠道下载APP的就有2 853人。县公司天台所服务的农村用户,其多数是通过地推渠道来下载APP的,统计结果显示,县公司天台所服务的农村用户有1 385人,而通过地推渠道下载APP的就有708人。
图3 决策树2
图4 展示了县公司下属性值为温岭的部分子树。在所有下载APP的41 313名用户中,通过其他渠道下载的就有28 607名。从决策树上可以看出,县公司为温岭、活动期间没有办理峰谷电、中老年的用户更多是通过地推渠道来下载APP。统计结果显示,县公司为温岭、活动期间没有办理峰谷电、中老年的用户有3 123人,其中通过地推渠道下载APP的有2 396人。
县公司为温岭、活动期间没有办理峰谷电、中年、用电类别为城市、缴费方式为其他的用户更多是通过地推渠道来下载APP。统计结果显示,县公司为温岭、活动期间没有办理峰谷电、中年、用电类别为城市、缴费方式为其他的用户有46人,其中通过地推方式来下载APP的有25人。
图5展示了县公司下属性值为温岭的剩余部分的子树。通过其他渠道来下载APP仍然是大多数用户的选择。但根据决策树的结果,县公司为温岭、活动期间没有办理峰谷电、中年、用电类别为农村、缴费方式为银行批扣的用户更多地通过地推渠道来下载APP。统计结果上,县公司为温岭、活动期间没有办理峰谷电、中年、用电类别为农村、缴费方式为银行批扣的用户有389人,通过地推渠道下载的有252人。
县公司为温岭、活动期间没有办理峰谷电、中年、用电类别为农村、缴费方式为线上、用电量为高、谷电量占比为低和高的用户,多是通过地推渠道来下载APP。但是从统计结果上看,这一结论还不能看作一种普遍规律,因为该类型的用户人数总共只有4人,样本太小,偶然性太大。
此外,从决策树中可以发现有一用户类型多数是通过微信朋友圈来下载APP的。该用户类型的特征为:县公司为温岭、活动期间没有办理峰谷电、中年、用电类别为农村、缴费方式为线上、用电量为低、谷电量占比为低的用户。但是从统计结果上看,该用户类型的样本同样太小,一共只有2人,所以不具备参考意义。
图5 决策树4
3 掌上电力APP精准营销策略研究
此次研究回收的反馈数据有41 313条,即41 313人下载了APP。其中,通过其他渠道下载APP的有28 607人,通过地推渠道下载APP的有11 567人,通过台州移动渠道下载APP的有73人,通过微信朋友圈渠道下载的有101人,通过线上渠道下载的有186人,通过营业厅下载的有779人(见表4)。
表4 掌上电力APP全渠道推广统计结果
决策树算法通过计算信息增量来选择是否分裂结点,信息增益的阈值被设定为0.05,当无论如何分裂结点都无法使信息增益超过0.05后,结点就不会再分裂了。可以看出,绝大多数用户类型都是通过其他渠道来下载APP,其次有一些用户类型明显偏向于地推渠道。
偏向于地推渠道的用户类型包括:县公司仙居、活动期间没有办理峰谷表;县公司天台、用电类别是农村;县公司温岭、活动期间没有办理峰谷电、中老年;县公司温岭、活动期间没有办理峰谷电、中年、用电类别为城市、缴费方式为其他;县公司温岭、活动期间没有办理峰谷电、中年、用电类别为农村、缴费方式为银行批扣。
对于这些用户类型,在下一次宣传推广活动中可以着重采用地推方式去推广,会更容易达到效果。
4 结语
通过从已有数据里提炼出一些知识和规则,并应用到此后的营销决策当中,有助于提高营销效果。使用决策树算法来分析营销的反馈数据,从结果上来看,可以很直观地看到不同的用户类型所敏感的渠道。
但是此次反馈数据的一大特征是,占比最高的渠道同时也是一个意义最模糊的渠道,它包含了除了线上、营业厅、地推、台州移动和微信朋友圈以外的所有渠道。如果来源于该渠道的数据可以刻画得更为细致,研究结果将可以披露更多的内容。