基于机器学习的5G精准营销模型

2022-08-10周露露钟玲思永坤

移动通信 2022年7期

周露露，钟玲，思永坤

（中移在线服务有限公司云南分公司，云南昆明 650221）

0 引言

随着物质生活的不断丰富，消费者的需求越来越精细化，以市场为导向的传统营销模式难以满足客户的个性化需求，这就要求企业在制定营销策略时，更精准地识别各细分市场的目标客户[1-2]。

随着公司对直接沟通销售的重视，需要更精准、可衡量和高投资回报的营销沟通，更注重结果和回报的营销传播方法及对直接沟通销售的投资[3]。美国学者Jeff Zabin 认为如果要影响目标客户的购买决策，就必须依靠精准营销[4]。运营商拥有多元、海量的用户特征和行为信息，通过建立精准营销模型，识别目标客户并制定不同的营销计划，可以在降低营销成本的同时提升用户粘性，从而提高营销产品的转化率[5]。

1 基于机器学习模型的呼叫中心精准营销模型

1.1 问题描述

面对复杂多变的市场环境和客户需求，移动通信运营商现行的营销策略难以满足客户的实际需求。一方面，任何企业都是生存在市场环境中的，在制定营销策略时必须以市场环境为依据，宏观环境因素包括政策环境、经济发展状况、地理环境等，同时，企业内部环境、营销渠道等微观环境也影响着营销策略的实施。另一方面，在电信市场增速放缓、存量用户争夺愈发激烈的形势下，如果策略实施不当，不仅会降低客户满意度和品牌信任度，还可能造成客户流失。本文从维系现有存量客户角度出发，通过精准定位目标客户，定制适配产品及营销服务策略，在满足客户实际需求和消费偏好的同时，发掘产品的潜在高价值用户群体[6-7]。

1.2 方法概述

本文根据呼叫中心客户的基本信息数据（号码、归属地、年龄、在网时长及星级等）和消费行为数据（月均消费、流量/语音使用情况及活动办理等），构建精准营销模型的核心指标体系。在此指标体系基础上，提出基于机器学习的5G 精准营销模型。模型构建的主要步骤如下：

（1）建立基于客户的核心指标体系，根据类别识别规则，将指标向量作为非类别属性，对应的标签向量作为类别属性[8]；

（2）确定模型的关键参数集，使用决策树、逻辑回归、支持向量机机器学习算法构建目标客户识别模型，在测试数据集上验证模型效果；

（3）选择最优的模型应用于生产运营。

基于机器学习算法的精准营销模型步骤如图1 所示。

1.3 数据预处理：特征指标体系

为构建精准模型，梳理了可能对标签向量有影响的特征指标。基于可采集的数据源，主要包含运营数据和过程数据。其中，运营数据包括BOSS 计费系统、CRM客户关系管理系统、账务系统的数据，可细分为用户基本信息数据、订购关系数据、营销数据、消费数据等；过程数据指用户在业务使用过程中产生的数据，包括用户上网日志数据、语音通话与短信发送/接收的行为数据及终端与网络交互的信令数据等。

定义次月生效套餐为5G 智享系列套餐的客户为正类样本，反之则为负类样本，作为模型预测的类别属性。除标签列外，选取21 个重点变量作为样本的特征指标体系。每个变量的具体描述如下所示：

（1）USER_ID：用户编码；

（2）MSISDN：手机号码；

（3）CITY_NAME：所属地州，包含昆明、曲靖、昭通等16 个地州；

（4）VILLAGE_FLAG：农村城市属性，1 个农村、0 个城市、9 个不祥；

（5）CREDIT：客户星级，包含未评级、准星、一至五星；

（6）AGE：年龄；

（7）USER_ONLINE_MONTH：在网时长（月）；

（8）USE_DURA：终端使用时长（月）；

（9）AVG_MON3_APRU：近三月月均用户收入；

（10）AVG_MON3_MOU：近三月月均使用通话分钟数；

（11）AVG_MON3_DOU：近三月月均使用流量；

（12）USED_OUT_VOICE：已使用套餐外通话时长（分钟）；

（13）USED_OUT_FLOW：已使用套餐外流量；

（14）AVG_MON3_2G_FLOW：近三个月月均2G 流量；

（15）APP_YX_FLOW_RATE：近三个月游戏类软件使用流量占比；

（16）APP_SP_FLOW_RATE：近三个月视频类软件使用流量占比；

（17）BANDWIDTH_DESC：宽带带宽；

（18）TARGET_CUST_MARKER_ID：营销活动标签；

图1 基于机器学习算法的精准营销模型

（19）APP_MOST：当月使用流量最高的三个视频类APP；

（20）PURCHASE_DESC：办理的营销活动；

（21）CALLS_NUM：月均来电次数。

在进行模型训练前，需要对数据进行预处理，预处理的方法与步骤如下：

（1）去除唯一属性，删除用户编码、手机号码字段；

（2）缺失值处理：将空值用数值0 替代，减少数据缺失，提升模型预测结果的准确性；

（3）数据映射：将文本属性标签（如所属地州）映射为数字；

（4）数据派生：依据业务场景需求，若客户满足活动规则，则将享受套餐折扣优惠。根据用户的网时长、宽带带宽和客户标签等字段，判断用户可享受的折扣。5G 套餐设计包含了综合视频类、移动音乐类和音频娱乐等权益，为判断用户对权益的偏好，根据用户视频类APP 的流量消耗以及视频会员权益活动办理情况，构造视频类APP 偏好、会员权益偏好字段。

派生变量及描述如下所示：

1）DISCOUNT：折扣，“1”表示不打折，“0.8”表示八折，“0.7”表示7 折；

2）VIDEO_PRE：视频类APP 偏好，如会员权益包含该APP，该字段为“1”，否则为“0”；

3）MEMBER_PRE：会员权益偏好，如办理随心系权益，该字段为“1”，否则为“0”。

1.4 基于决策树的呼叫中心精准营销模型

在设计决策树精准营销模型时，主要步骤如下：1）首先输入经过预处理的用户数据集，将样本数据分成训练集和验证集；2）计算集中训练用户的年龄、网龄、星级、月均收入及使用流量等24 个指标的信息熵、信息增益和增益率等指标，选定最优划分属性[9]；3）重复步骤2），层层划分，直至将样本划分为5G 智享套餐目标客户或非5G 智享套餐目标客户[10]；4）对决策树进行剪枝，使得模型能尽可能正确地划分训练数据集外的用户；5）在验证集上计算模型评价指标，评估模型性能。

训练数据通常会受到错误分类样本的噪声、训练样例数量太少、节点纯度的错误度量等因素影响，导致训练模型的过度拟合[11]。决策树的剪枝主要是为了解决决策树的过拟合问题，在节点划分前后，判断当前节点的划分是否能带来模型泛化性能的提升[12]。

1.5 基于逻辑回归的呼叫中心精准营销模型

Berkson 最早将逻辑回归（LR,Logistic Regression）方法应用于药物自催化反应过程的研究[13]，现已被广泛应用于用户预测和寻找影响因变量的因素[14]。

基于逻辑回归训练精准营销模型时，主要步骤如下：1）输入用户数据集，将地市、星级等定性变量转化成定量变量；2）划分模型训练数据集与验证集；3）确定回归的因变量和自变量，训练模型并得到各自变量的回归系数以及目标客户的概率输出；4）使用Sigmoid 函数将样本的概率输出映射到[0,1]范围内，选定阈值为0.5，当概率大于0.5 时，将其判定为目标客户，反之为非目标客户；5）在验证集上计算模型评价指标，评估逻辑回归模型性能。

1.6 基于支持向量机的呼叫中心精准营销模型

支持向量机（SVM,Support-Vector Network）是一种用于二分类问题的新型学习器，其基本思想是将输入向量非线性地映射到高维特征空间。在该特征空间中构造线性超平面，分离训练数据，并确保学习器具有较高的泛化能力[15]。简而言之，就是找到一个最优划分超平面，使得它能够尽可能多地将两类样本正确分开，同时使分开的两类数据点距离分离面最远（最大间隔），如图2 所示：

图2 最优划分超平面与最大间隔

基于支持向量机的精准营销模型主要步骤如下：1）首先输入用户数据集，并划分训练集和验证集；2）确定分类变量为二分类，分别是5G 智享套餐目标客户和非5G 智享套餐目标客户，其余变量作为自变量；3）根据训练集样本年龄、月均使用流量、视频偏好等属性取值与所属类别之间的关系，寻找两类样本的最优划分超平面，确定法向量w和位移项b[16]，形成一个凸二次规划问题[17]并求解；4）最终将样本聚为两类，分别是5G 智享套餐目标客户和非5G 智享套餐目标客户；5）对验证集样本进行分类，并计算准确率等模型评价指标。

2 数据与实验

2.1 数据来源与处理

本文采用了中国移动云南公司的用户基本属性和用户通信行为数据进行模型研究。数据来源于公司Gbase数据库，系统运行环境主要为CPU：i5 2.80 G；内存：8 192 MB；操作系统：Window 7 64 位；数据库：Gbase集群管理器（版本：8.5.1.2_build40_2_24）。

由于正类和负类样本存在着严重的数据不平衡，可能会导致模型训练结果偏向多数类样本，少数类样本的正确率较低[18]。为降低数据不平衡，提高分类器的性能，保证模型运算效率，本文筛选5 000 条正类样本和15 000条负类样本，共20 000 条样本作为模型训练的数据集。并基于R 语言的集成开发环境R Studio，运用rpart、caret、pRoc、e1071 等安装包进行模型训练。

2.2 实验设计

对于机器学习模型，往往存在着泛化能力不足的问题。模型的泛化能力即指模型对于未知数据的预测能力，因此，本文采用交叉验证的方法来提高模型的泛化能力，基本思想是将数据集反复划分为多组训练数据集和测试数据集，在训练数据集上交叉验证得到最佳模型参数，使用测试数据集衡量最终模型性能。这种基于多组模型训练进行调参的方式，可有效地避免模型对某些样本的过拟合，提高其泛化性能。

为了避免过度拟合，本文采用k折交叉验证来构建集成分类器。该方法的基本思想是将原始数据集划分成k份相同样本量的数据子集，每次使用其中k-1 份数据子集的集合训练模型，余下的1 份数据子集用作模型测试集，并计算模型的评价指标。重复k次，得到k组评价指标，取平均值作为最终评价指标[19]。本文进行的实验中，取k=10，10 折交叉验证的示意图如图3 所示：

图3 10折交叉验证的示意图

2.3 模型评价指标

本文主要采用的性能度量指标包括准确率、一类错误率、二类错误率和AUC 值，对模型效果进行评估。在介绍各度量指标之前，以二分类为例，构造混淆矩阵如下所示：

（1）预测值：正类；真实值：正类，则为真正类（TP）；

（2）预测值：正类；真实值：负类，则为假正类（FP）；

（3）预测值：负类；真实值：正类，则为假负类（FN）；

（4）预测值：负类；真实值：负类，则为真负类（TN）。

在机器学习领域，最常用的度量模型预测能力的指标是准确率。对于二分类问题，将准确率定义为模型分类结果中真正类和真负类占总样本的比例，简而言之，就是模型分类正确的比例。准确率的计算公式为：

对于二分类问题，正类和负类样本错误分类的代价差异较大。本文的正类样本是5G 智享套餐的目标客户，对其错误分类会直接导致损失其更改套餐的可能性。若对非目标客户错误分类为目标客户，仅可能损失部分营销成本。因此本文还将分别采用两类样本的分类错误率对模型性能进行评价，两类错误率的计算公式如下：

在数据存在严重的不平衡时，准确率或错误率等指标对分类器性能的评估会过于乐观[20]，此外，通过分类精度进行的评估还假设两类样本错误分类的成本是相同的[21]。但在目标客户识别场景，将非目标客户识别为目标客户，与将目标客户识别为非目标客户的代价是不同的。为此，本文引入了受试者工作特征（ROC,Receiver Operating Characteristic）曲线，这是医学诊断中信号检测理论的经典方法，现已广泛应用于机器学习分类器的模型效果评价[22]。在进行分类器性能比较时，仅仅通过观察ROC 曲线还不够直观，可通过比较ROC 曲线下的面积（AUC,Area Under the Curve）的值，判断分类器性能高低[23]。

2.4 实验结果

本文基于R 语言编程工具，采用10 折交叉验证法，设计并实现了三组模型。首先是决策树模型，模型的输入为用户的24 个属性，输出为是否为5G 智享套餐目标客户。按照10 折交叉验证的方法划分训练集和验证集，18 000 位用户为训练集，2 000 位用户为验证集，鉴于实验设计过程，取10 次实验结果的算术平均值为最终结果，经节点划分和属性归类，生成的决策树如图4 所示。

图4 决策树结果图

其次是逻辑回归模型，模型的目的是寻找目标变量（是否为5G 智享套餐目标客户）与多个自变量（所属地州、星级、月均使用通话分钟数等）之间的线性关系。根据实验设计方法，按9:1 比例划分训练集和验证集，进行10 次实验。通过寻找回归参数，预测自变量在不同的取值下，是5G 智享套餐目标客户的概率。确定阈值为0.5，将模型概率输出转换为二分类输出，计算模型评价指标并计算算术平均值。

对于支持向量机分类模型，将样本的24 个属性作为特征空间，是否为5G 智享套餐目标套餐作为待分类属性。每次取18 000 条样本作为寻找划分超平面的训练集，根据样本自变量取值的空间分布，寻找最优划分超平面对样本进行区分。进行10 次实验，获得10 组指标值，计算其算术平均值为最终结果。以其中两个属性为例，训练的支持向量机如图5 所示：

图5 支持向量机结果图

为评估模型性能，计算每组模型准确率、错误率、AUC值作为模型评价指标，并对三组实验结果进行对比分析，选择最优的模型进行应用。模型评价指标的对比如表1 所示：

表1 模型评价指标对比

从总体的分类准确率来看，决策树同其他模型相比是最高的。对于目标客户预测模型来说，更关注的是将目标客户错误预测为非目标客户的样本，也就是第一类错误率。结果表中显示决策树的第一类分类错误率最低。与此同时，AUC 作为评价不平衡数据集模型/性能的重要指标，可辅助模型效果对比。本实验中支持向量机模型的AUC 取得最大值，但决策树与其结果相差不大。因此，决策树的综合性能表现最佳，并且在目标客户精准营销场景具有很好的适用性。

2.5 模型应用

在模型的落地应用方面，将底层的算法逻辑与业务运营需求紧密结合，训练决策树模型识别重点业务目标客户，将客户偏好的产品通过合适的渠道，在最佳的时机推送给目标客户群体。应用的渠道包括瞬时运营、短信群发、IOP 弹窗等。其中，瞬时运营是指用户在达到触发条件（如流量超套、新换5G 手机）的瞬间，启动互动式语音应答（IVR,Interactive Voice Response）外呼，询问是否需更改套餐，客户可选择是否转入人工。短信群发是指向目标客户发送模板短信，宣传5G 智享套餐相关信息。IOP 弹窗是在客户接入10086 人工后，系统自动弹窗5G 智享套餐目标客户，提示客服代表进行套餐营销。经统计，瞬时运营外呼的5G 业务转化率达到36.96%；短信群发测试的营销转化率最高达到17.62%；IOP 弹窗的营销转化率较模型上线前有明显的提升。

3 结束语

本文从精准营销模型的角度出发，将机器学习模型应用于呼叫中心的生产运营。基于中国移动云南公司用户的样本数据，构造用户基本信息、订购关系、消费、交互行为4 个维度的24 个指标，搭建自适应快速迭代的机器学习模型，预测5G 套餐目标客户，旨在描绘通信运营商呼叫中心客户的全息画像，明确目标客户群体的特征和产品定位方向。在建模过程中，经历了定位、分析、验证、跟踪、迭代优化等环节，是大数据分析和人工智能在传统通信行业领域的大胆尝试，也是精细化运营的重要体现。模型预测结果的准确率超过90%，在精准营销场景具有很好的适用性，也能辅助优化制定策略。最后本文提出了针对性的建议方案，为5G 套餐目标客户的精准营销提供了有益借鉴。

在本文的研究过程中还存在一些待改进的地方。首先，通信运营商拥有着海量用户数据，本文采用的是用户部分基本信息和消费行为数据，未来可挖掘其他数据的内在价值，还可结合外部数据，构建更为完善的模型；其次，本文研究产品单一，为提升营销转化率、提高客户感知价值，在设计营销方案时，可加入与主套餐搭配的语音包、流量包等，通过交叉销售满足不同客户需求。