APP下载

基于随机森林模型的精准营销研究

2020-03-02钟楚彦

经济管理文摘 2020年3期
关键词:画像决策树标签

■钟楚彦

(同济大学)

1 客户画像与精准营销

1.1 概念阐释

客户画像指的是通过对产品客户已有的消费行为、社会属性等信息对客户进行分类、标签化,一般由销售方的分析师利用已有客户数据完成。在对客户进行了完整的分析以后,销售方能够对其购买能力、产品忠诚度、个人喜好等作出评估,达到个性化服务的目的。而其中最重要的是,基于对客户产品喜好、消费水平的了解,销售方能够以最小的成本和负面影响对目标进行营销,这也就是所谓的“精准营销”。目前,这种运营模式和销售策略已经被广泛应用于服务业、互联网行业、金融行业与零售行业。下文中将举出几个不同领域行业对客户画像模式的应用案例。

1.2 商业应用案例

1.2.1 音乐平台

近年来,随着流行音乐文化的普及以及互联网娱乐业模式的兴起,各大互联网音乐平台正在获取越来越多的用户。其中佼佼者在获取了大体量的用户信息后,已经将客户画像工作完成得十分出色。最能体现其客户画像内核的服务之一是“日推”机制:根据对用户已收听音乐的类型分析,收听时段分析,每日在恰当时机为用户推送符合其喜好类型的歌曲。这种推荐模式帮助某些音乐平台吸引了大量用户,表现出大数据分析下客户画像的先进性。

1.2.2 商业银行

因为实名认证与用户体量的原因,商业银行拥有极为丰富的用户数据。每个城市级单位的数据中心都管理着千万级别的用户。因此,商业银行在客户画像项目上也拥有其他行业无法比拟的优势。基于存贷款额度、频率记录;用户的实名注册信息,商业银行内部的数据分析部门可以做出精准的客户标签。将结果给予销售部门,即可完成低成本、高准确度的营销工作。而营销结果又一次作为新数据被写入分析数据库,最终达到了良性循环。

1.2.3 零售行业

零售行业作为对于销售能力最为依赖的行业,客户画像模式对其的意义不言而喻。以星巴克为代表,各零售品牌对于客户的精准营销主要通过会员制度、消费记录收集客户数据,实现个性化服务[1]。Peter与Malkins(2017)对星巴克的营销模式进行了研究分析,其结论认为会员制度收集的客户数据对该品牌完成客户画像起到了关键作用,帮助其培养出良好的口碑与客户忠诚度,创造了140%的额外营业额。由此可见,客户画像已经在各行业领域中得到广泛应用,对行业运营模式起到了重要影响,是数据分析领域的一大热点。

2 客户画像的全新模型:随机森林

2.1 传统的数字营销模型

对于客户画像项目而言,建立模型,也即决定如何“标签化”用户,创造哪些标签,相应的对应怎样的营销模式,是非常关键的一步。建模的成功与否直接决定了最终实现精准营销的效果。传统的营销模型是由分析者人为挑选入模变量,即按照市场常识或理性认知判断何种因素(消费行为、社会属性等)应该被设置为“标签”,从而把相应客户归为一类。举例而言,零售行业的分析者很大可能会把客户的购买频率、产品倾向性、消费水平等作为模型中重要的参数。在得到这些“标签”后,销售方通过带入以往数据,寻找同一“标签”内的客户的消费共性,即可得到结论。如:新上市的产品A,在其销售一个月后收集数据,发现带有“年轻群体”、“女性”、“消费水平高”这三个标签的客户购买量明显多于其他客户,则可以确定产品受众,实现精准营销。

然而,这种传统的建模方式存在很大缺陷:标签的选取很大程度上依赖于分析者的个人认知。也就是说,在诸多客户数据类别中,分析者未必能够选择出最优的“标签”,会导致之后的验证工作量变大,甚至预测模型不准确。

2.2 随机森林理论的起源

对于随机森林,需要先介绍决策树理论。决策树是广泛应用的一种树状分类算法。当输入待分类样本时,决策树的每一处分支都进行一次01判断,最终获取该样本对应的一条由根节点到叶节点的唯一路径。该路径的最后一个节点的类别就是样本的所属类别。

随机森林最早源于1995年的贝尔实验室,Tin Kam Ho所提出的随机决策森林(random decision forests)。后由美国科学家Leo Breiman将其整理为一种机器学习算法,于2001年发表[2]。随机森林是以决策树为基本分类器的一个集成学习模型,它包含多个决策树。当输入待分类的样本时,最终的分类结果由每个单个决策树的输出结果投票决定。换而言之,它是在样本通过随机选取的多个决策树后,将这些决策树的结果归总整理出的分类结论。

2.3 随机森林模型的应用

该模型在被创造后,逐渐被广泛的应用于金融分析、科学研究等领域。近年来,随着商业机构的数字化转型愈演愈烈,商业机构能够获得的数据体量全面、维度升高,许多企业也开始应用随机森林模型进行数据处理。在商业应用中,随机森林模型的运转模式大致如下:分析者将销售方已有的所有数据集全部应用,生成多个决策树。而后,将样本通过随机森林模式进行分类。这样的分类过程会使得客户得到最精准的“标签”,也即接下来模型中将用到的入模变量。在得到这些具有代表性的变量后,分析者即可使用这些变量建模,代入数据后得到对客户进行产品营销的效果预测。

2.4 随机森林模型的优势

如前文中所说,相较于传统的客户画像模型,随机森林模型能够省去人工选择“标签”的步骤,改为由机器学习模式下大量的拟合得出结论,这显然使得分析工作工作量减小、准确度提升。与此同时,相较于一般的决策树模型,随机森林也有明显的优势[3]:对于很多种资料,可以产生高准确度的分类器;可以在决定类别时,评估变数的重要性;如果有很大一部分的资料遗失,仍可以维持准确度;可以避免决策树模型的过拟合问题;善于处理高维数据集。

3 随机森林模式下客户画像的展望

3.1 随机森林数据能力内核

从前文讨论中可以感受到该模型数据分析的强大能力。其数据处理结论的最大优势在于其是一种强目的性拟合方式,关注预测结果而非因果关系。简而言之,具有某种社会属性或者消费行为的特定用户群体可能拥有其他领域的共性,这种共性的来源是后部的高级因素决定的,即由某种内在因素同时导致了两种或者多种特质。而这种新型的数据分析模型可以帮助我们跳过内因分析,直接给出结论。举例而言,数据拟合发现某商业银行客户群体中,高额存款用户购买理财产品的可能性偏低。销售方不需要分析这种因果关系的内因,如推断高存款用户心理共性等,而可以直接取信数据建模,降低对高存款用户理财产品推销的优先级。当然,此种模式的前提是建模的数据体量应当足够,否则会由偶然性得出错误结论。

3.2 数据信息跨领域商业合作

当下行业内的数据合作在比较普遍,其作用机理也更容易理解:更大的数据样本能够推得更准确的结果。然而,这种合作也具有明显的局限性:同行业内的客户可能有很大程度重复,重复的客户数据只能够增大个体数据量,对于模型建立没有质的帮助。而不重复的客户数据很可能代表了两个企业或品牌客户的自然选择,对另一方的客户群体并无参考价值。

基于随机森林模型对高维度数据处理的明显优势,新型商业客户画像模型有能力对引入的其他维度数据进行处理。由此,如果企业或者商业机构能够展开跨领域合作,则会有诸多更明显的收益。

结 语

文章介绍了现有的商业数据分析模式,提出随机森林模型在客户画像建模中的应用,并基于此探讨了数据分析优势的内核,展望了跨领域数据合作的可能。目前国内市场中,上述讨论中的跨领域数据合作案例还很少。这一方面是因为巨大体量的数据需求对多数销售方来说十分困难,另一方面也是基于用户信息安全的考量。未来市场中对用户数据进行跨领域商用是否能得到允许,其运作方式与合法性究竟如何制定,还需要进一步研究。但这其中包含的巨大利好,应当值得研究者发掘和尝试。

猜你喜欢

画像决策树标签
威猛的画像
“00后”画像
画像
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于决策树的出租车乘客出行目的识别
让衣柜摆脱“杂乱无章”的标签
科学家的标签