基于智慧门店用户特征挖掘建模的精准客户画像应用研究
2022-05-23吴磊
吴 磊
中国移动通信集团江苏有限公司
0 引言
关于“客户画像是什么”的问题,最早给出明确定义的是交互设计之父Alan Cooper,他最早提出了persona的概念:Personas are a concrete representation of target users。客户画像(persona)是真实客户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。
数据构成了搭建虚拟模型的通道,所以企业需要寻找目标用户群,挖掘每一个用户的人口属性、消费特征、信用状态、兴趣爱好、社交属性等主要信息数据,经过不断叠加、更新,对行为建模,抽象出完整的信息标签,组合并搭建出一个立体的客户虚拟模型,即客户画像。
客户画像能够让产品的目标对象更加聚焦、专注。成功的产品都有明确的目标客户群体,给特定目标群体提供专注的服务比给全部的人群提供低标准的服务更容易获得成功。通过正确地使用用户画像,找准立足点和发力的重要方向,从用户角度出发,解析客户的核心诉求。客户画像能够让所有参与产品和运营的成员在一致的用户基础上进行讨论和决策,更容易保持前进方向的统一,提高决策效率。
在“用户至上,体验为王”的互联网大数据时代,不可避免地给企业及消费者的行为带来一系列改变与重塑,特别是消费市场开始由卖方市场转向买方市场。用户主权,是互联网大数据下新零售的典型特征。消费者行为在供应链上的每一个环节都具有逆向传导作用,因此对消费者进行研究相当必要,特别是零售行业,正是一个亟待“转向”、构建“反向认知”的行业。
1 精准客户画像背景
本文通过对2020下半年在江苏移动智慧门店进行终端购买的用户与江苏移动掌上营业厅活跃用户的多维分析,挖掘智慧门店终端订单用户特征。通过观察用户基础属性、终端信息、消费、流量语音使用情况、用户APP使用行为等维度来识别智慧门店终端订单用户可能性较大的特征,辅助一线人员对目标客户进行精准的推荐,以提高智慧门店终端营销的成功率和客户满意度。
2 挖掘目标定义
本期数据挖掘目标是挖掘智慧门店终端订单用户特征。采用分类预测模型,综合客户基础属性、终端信息等特征,结合客户历史消费情况、用户APP使用行为等特征,构建智慧门店终端订单用户特征挖掘模型,生成近期智慧门店终端订单用户特征明细。
3 建模思路和方法
3.1 建模思路
首先,取13个地市智慧门店终端订单用户的12月基础属性数据和历史消费行为数据作为观察期数据。数据维度包括:用户基础属性、终端信息、消费、流量语音使用情况、用户APP使用行为等。
其次,按照数据挖掘目标中明确的智慧门店终端订单用户口径,确定目标分类用户。取智慧门店终端订单用户作为目标组,按照合适的比例,从未在智慧门店平台购买终端的用户中抽取终端销售用户、掌上营业厅活跃用户作为对照组,形成建模的样本数据。
最后,利用训练样本,采用分类预测模型中的C5.0决策树算法构建数据挖掘模型,输出智慧门店终端订单用户的特征明细,用户打分值及置信度,并通过验证样本对模型结果进行评估。
3.2 模型介绍
本期智慧门店终端订单用户特征挖掘模型属于分类预测模型。分类的主要功能是学会一个分类函数或分类模型(常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。这样可以利用该模型来分析已有数据,并预测新数据将属于哪一组。主要算法包括:决策树(C&R 树、QUEST、CHAID和C5.0算法)、回归(logistic)、神经网络、贝叶斯网络等。
决策树适用于分类和预测的模型,比如0-1分布的模型,同时也可作为特征变量的初步筛选模型。
C5.0模型的工作原理是根据所提供最大信息增益的字段分割样本,然后根据不同的字段再次分割由第一次分割定义的每个子样本,此过程会不断重复直到无法继续分割子样本。最后,将重新检查最底层分割,修剪或删除对模型值没有显著贡献的分割。
3.3 模型评估方法
智慧门店终端订单用户特征挖掘模型的评估标准如表1所示。
表1 智慧门店终端订单用户特征挖掘模型评估标准
调和平均数=(2*命中率*覆盖率)/(命中率+覆盖率)
预测命中率是描述模型精确性的指标,是预测使用用户中实际使用用户的比例。
预测覆盖率是描述模型普适性的指标,是实际使用用户中预测正确的比例。
预测准确率是描述整体准确性的指标,是使用用户和未使用用户预测正确的比例。
命中率等同于响应率;覆盖率等同于增益率、识别率、查全率。
AUC值:AUC值是处于ROC曲线下方的面积大小,通常AUC的值介于0.5到1.0之间,AUC越大效果越好。
4 建模流程
4.1 样本数据准备
建模流程如图1所示。
图1 建模流程
4.2 样本数据准备
(1)基础数据说明
训练集和测试集【按照比例7:3】。用户群范围:13个地市2020年截止12月在网用户。
数据周期:取2020年截止12月在网用户客户资料、终端品牌为静态属性,取近六个月消费、流量、语音使用、用户使用APP行为、平均换机周期等作为动态属性,准备基础数据。
目标用户:近半年在智慧门店平台购买终端且截止12月在网用户。
对照用户:近半年未在智慧门店平台购买终端且12月在网的终端销售用户、掌上营业厅活跃用户。
(2)样本数据准备
训练集和测试集:
经过统计,选取13个地市近半年在智慧门店平台购买终端且截止12月在网用户为31583,同时按照1:3的比例,选取从未在智慧门店平台购买终端的掌上营业厅活跃用户(94749)、终端销售用户(94749)作为对照组,并与目标组一起作为模型的输入样本。
4.3 变量筛选
通过特征选择剔除部分缺失值过多或者阀值单一的变量,在保证最后决策树分类预测性能评估的情况下,尽可能缩减变量数。
4.4 数据处理
建模时,整体数据处理如图2所示。
图2 数据审核及变量衍生处理
(1)首先对输入变量进行数据理解,判断全部变量符合的类型(连续、标志、名义等)及角色(输入、目标等),剔除部分与目标变量无关的变量(如用户标识、手机号码),以保证数据质量。
(2)对数据(是否包含空值、无效值)进行审核并进行相应的处理:①主套餐资费、终端使用时长、终端换机次数等存在离群值、无效值等,使用固定值、平均值、中程数值替换。②性别、年龄、地区存在不合理数值(性别=9或-1、年龄<=0),对其进行填充,年龄使用平均值替换、性别使用众数替换。
(3)特征选择建模保证数据质量,根据模型结果保留重要字段(重要性大于0.95),剔除不重要字段(重要性小于等于0.95),该模型中是否苹果粉(近3次使用终端为苹果)等(单个类别过大)被剔除,最终选择重要字段进行建模。
4.5 模型构建
通过决策树算法C5.0建模分类预测用户是否智慧门店终端订购用户,其中本文共建立了两个模型,模型1为智慧门店终端订购用户和掌上营业厅活跃用户对比分析,模型2为智慧门店终端订购用户和终端销售用户的对比分析,C5.0决策树模型示意图如图3所示。
图3 智慧门店终端订单用户特征挖掘模型
注:用户类型为1:智慧门店终端订单用户;用户类型为2:掌上营业厅活跃用户;用户类型为3:终端(非自备机)销售用户。
5 模型评估
5.1 模型规则
通过建模,最后模型会自动生成决策树的父节点和子节点,这些节点中有拟合不足的(该群体样本量大,但是其置信度低),也有过度拟合的(该群体置信度高,但是其样本量低),所以为了保证权衡样本量和置信度,采用预剪枝的方法构建模型。
模型1规则输出后,选取其中一个规则进行解释,如图4所示:性别为女,身份证下号码数为2个以上,近6个月平均消费在7.91元以上,当前终端使用时长小于等于185天,当前终端换机次数大于4次且小于等于82次,近2次终端品牌一致,近3次平均换机周期大于30天。满足以上条件的用户共有1093个,其中92.1%的客户为智慧门店终端订单用户。
模型2规则输出后,选取其中一个规则进行解释,如图5所示:用户网龄在3个月以上,近6个月平均流量收入小于3.61元,近6个月平均宽带收入大于34.72元。满足以上条件的用户共有4723个,其中85.5%的客户为智慧门店终端订单用户。
图5 模型2规则示例
5.2 模型评估
5.2.1 模型预测指标变量重要性
模型1预测指标变量重要性,如图6所示。
图6 模型1预测指标变量重要性
模型2预测指标变量重要性,如图7所示。
图7 模型2预测指标变量重要性
5.2.2 模型准确率评估
(1)模型1准确率评估。模型准确性分析给出模型总体准确率及预测差错矩阵。由于本模型旨在精确营销,因此主要关注模型的命中率(响应率)。经测试,集中智慧门店终端订单用户特征挖掘总体准确率为79.45%,命中率为70.90%,覆盖率为31.15%。
测试集准确率:(2967+27104)/(2967+27104+6559+1218)*100% =79.45%
测试集命中率:2967/(2967+1218) * 100% = 70.90%
测试集覆盖率:2967/(2967+6559) * 100% = 31.15%
(2)模型2准确率评估。模型准确性分析给出模型总体准确率及预测差错矩阵。由于本模型旨在精确营销,因此主要关注模型的命中率(响应率)。经测试,集中智慧门店终端订单用户特征挖掘总体准确率为81.65%,命中率为75.07%,覆盖率为40.25%。
测试集准确率:(3825+27076)/(3825+27076+5677+1270)*100% =81.65%
测试集命中率:3825/(3825+1270) * 100% = 75.07%
测试集覆盖率:3825/(3825+5677) * 100% = 40.25%
5.2.3 模型响应率评估
“智慧门店终端订单用户特征挖掘”的模型命中率在较没有模型的情况下有明显提升。
6 结束语
根据模型评估结果,最终得到的客户画像准确率尚好,命中率也满足要求。借鉴此模型研究成果,通过入驻江苏移动掌上营业厅商城线上门店以及10086热线向5G潜在换机用户开展多波次大数据精准推荐,2021年江苏移动5G潜在换机成功推荐购机3.6万台,推荐成功率环比2020年提升222%,2022年将总结前期经验和不足,继续优化客户画像模型,深入推进江苏移动5G潜在换机大数据精准推荐,切实赋能线下门店。
依托项目:江苏移动渠道转型项目《以赋能构筑生态,以生态创造价值,打造线上线下一体化连锁运营模式》获中国移动2020年渠道转型最佳实践评比一等奖。