家庭宽带离网用户预警模型构建研究
2021-03-13张靖侯晓晶
张靖 侯晓晶
摘 要:随着全市家庭宽带市场的饱和,宽带用户新增速度放缓,保有存量用户、控制用户离网业已成为促进宽带市场发展的重要举措。文章对家庭宽带离网用户特征进行研究,基于lightGBM、XGBoost、RandomForest三类集成学习的决策树算法,使用PyCharm软件构建家庭宽带离网用户预警模型,输出预离网用户供业务人员进行挽留,模型应用后,宽带月离网用户百分比从0.76%下降至0.35%,预计全年可挽回预离网用户7 776户,保有客户价值101.1万元。
关键词:离网;大数据;预测;量化;宽带用户
中图分类号:TP311 文献标识码:A文章编号:2096-4706(2021)15-0085-04
Abstract: With the saturation of the home broadband market in the whole Shuozhou city, the growth rate of broadband users has slowed down. Retaining existing users and controlling user off-network have become important measures to promote the development of the broadband market. This paper studies the characteristics of home broadband off-network users, based on the decision tree algorithm of integrated learning of lightGBM, XGBoost and RandomForest, PyCharm software is used to construct home broadband off-network users early warning model, which outputs pre off-network users for business personnel to retain. After the application of the model, the percentage of monthly broadband off-network user drops from 0.76% to 0.35%. It is expected that 7 776 pre off-network users can be retained throughout the year, keeping a customer value of 1.101 million yuan.
Keywords: off-network; big data; prediction; quantification; broadband user
0 引 言
家庭宽带作为CHBN(Customer, Home, Business, New, CHBN)四大市场中的重要组成部分,在多产品融合营销、智慧家庭体系建立、实现用户价值提升等方面扮演着愈来愈重要的角色。截至2020年底,全市我网家庭宽带用户数达到20.3万,市场份额46.8%,通信运营商在家庭宽带市场上的竞争会长期存在,面对全市家庭宽带用户几近饱和、市场增速放缓的形势[1],存量宽带用户保有形势愈发严峻。但我网2020年全年家庭宽带离网用户1.61万,离网率7.94%。
面对市场发展压力,我公司迫切需要深挖家庭宽带市场的保有潜力,通过多专业(市场侧+网络侧)历史数據,筛查并掌握宽带离网客群特征,随之而来的信息过载问题和用户无目的搜索[2],使得数理统计、数据库分析等方法解决此类问题时,存在高质量有价值信息难觅、获取信息成本高、时间周期长等诸多弊端。
如何建立有效预测家庭宽带用户离网的数据模型?掌握哪些用户会离网,离网倾向有多高?需要用大数据技术协助解决。
1 模型概述
我们利用已有的多类用户特征,对宽带用户是否离网进行预判,根据输出预离网明细进行针对挽回。首先,将预测宽带离网用户的应用场景转化为有监督的二分类问题,再经过数据准备、特征选择、模型建立、效果评估、迭代优化、成果应用等六个阶段,构建基于lightGBM、XGBoost、RandomForest三类算法的混合模型——家庭宽带离网用户预警模型。
模型开发环境为Python 3.7,通过PyCharm开发工具实现。以单月全量家庭宽带用户数据为输入,包含用户属性、投诉情况、宽带网络性能等属性,并将原始数据按区域类型、带宽速率、投诉情况划分为8个客户群,分别适配lightGBM、XGBoost、RandomForest中的不同算法达到最优,最终完成家庭宽带离网用户预警模型的构建,并输出对存量宽带用户次月的离网预测。
2 模型构建
通过需求分析,将应用场景转化为预测宽带用户离网与在网的分类问题[3],调取单月全量家庭宽带用户数据,包含用户属性(如年龄、性别)、业务属性(如宽带入网时间、用户套餐、用户月消费等)、使用习惯(如宽带上网时长、上网流量等)、投诉情况(如月投诉频次、投诉类型等)及宽带网络性能(如带宽、上网平均速率)等数据;完成多表关联、汇总后,形成包含347个特征的原始数据,其中数值型特征307个、类别型特征40个,以“isnt_kd_lost_label”(是否次月宽带离网用户)作为类别标签。
2.1 数据预处理及特征选择
2.1.1 特征初筛
为保证特征的有效性,首先去掉值全为空、对分类无贡献的5个特征,再去掉数据波动小、方差等于0的41个特征,最后去掉存储内容为文本(例如:民福花园小区)的32个特征,共涉及78个特征。
2.1.2 空值填充
对于数值型特征选用“中位数”填充,对于类别型特征选用“向前、向后”填充。
2.1.3 相似度分析
对于|相关系数|≥0.8的特征,认为其属于强相关,为保证模型的简化,选择仅保留其中一个特征,共丢弃124个特征。如图1所示。
2.1.4 数据集划分
预留10%的数据作为最终测试集(test set),剩余数据再按照8:2的比例划分为训练集(train set)和验证集(validation set)用于模型构建。
2.1.5 正负样本不均衡处理
以“离网”作为正类,“在网”作为负类,训练集原始数据正负样本比为1:142,存在明显数据不均衡,分别采用过采样、欠采样两种方式,按正负比1:2和1:4两种比例生成用于模型训练的数据集。如表1所示。
2.2 场景细分
2.2.1 划分维度
结合日常宽带用户的投诉处理、故障维护经验,将训练数据按照区域类型、带宽速率、投诉情况[4]三个维度划分为8个客户群。如图2所示。
2.2.2 细分标准
区域类型包括城市、农村;带宽速率包括高带宽、低带宽,其中100 MB及以下为低带宽、200 MB及以上为高带宽;投诉情况包括有投诉、无投诉。
2.3 模型建立
2.3.1 基线模型
对于划分好的8个客户群的训练数据集,依次使用lightGBM、XGBoost、RandomForest算法训练,最终训练出24个模型,作为基线模型,并从准确率、召回率、F1值对所有基线模型的预测结果进行评估。
2.3.2 终版模型
根据评估指标,选择召回率为首要评估指标,确定每类客户群预测效果最优的模型算法,其中,3个客户群选择lightGBM算法、3个客户群选择XGBoost算法、2个客户群选择RandomForest算法,并最终混合组成家庭宽带离网用户预警模型。
2.4 效果分析
2.4.1 评估指标
将模型应用在8个客户群的测试数据集上,并输出准确率、召回率、F1值三项评估指标,对终版模型的各客群预测结果进行评估,以正类召回率作为首要评估指标[5]。
2.4.2 预测效果
在8个客户群的正类召回率中,6个客户群在90%以上、1个89.34%、1个75%;模型在测试集上的正类召回率为89.64%。如表2所示。
2.5 调优
在模型构建过程中,需要根据模型的评估指标,多次进行迭代优化,主要解决以下两个问题。
2.5.1 训练样本均衡问题
原始训练数据,正负样本比例悬殊,同时引入上采样、下采样方式,按1:4和1:2比例生产训练数据集,进行探索。通过评估各训练集生成模型的预测召回率,最终选定上采样(1:2)作为最终训练数据。
2.5.2 过拟合问题
通过训练数据集生成的基线模型,准确率、召回率、F1均在98%以上,但在测试集上召回率仅65%,出现了明显的过拟合、泛化能力不足的情况。通过调整reg_alpha、reg_lambda、max_depth等参数,加入L1、L2正则化,限制树的最大深度,降低模型的拟合精度,增强泛化能力。
2.6 预测结果输出
模型最终的预测结果以csv文件格式输出,包含用户ID、离网概率、是否离网等字段信息。如图3所示。
3 应用效果
3.1 降低家宽离网率
通过模型從全市20余万宽带用户中,筛选出0.22万/月存在离网可能的用户,供业务部门针对用户进行挽留。
模型应用后,宽带月离网率持续改善,从0.76%下降至0.35%,5~6月全省月离网率全省最低;预计2021年全年家庭宽带离网率5.66%,较2020年改善2.28 PP。如图4所示。
3.2 挽回用户创造收益
模型应用前,宽带离网中位数1 544户/月,应用后,宽带离网中位数896户/月;挽回宽带用户648户/月,全年预计挽回7 776户。
离网意味着用户资费降档或手机销户,按每户20元/月资费变动估算;首月挽回用户创造收益1.3万元,全年预计创造收益101.1万元。
4 结 论
实践证明,此宽带用户离网预测模型解决了信息过载和用户无目的搜索的问题,达到降低用户离网率、为企业创造收益及降低成本的目的,同时丰富了宽带用户运营手段,是通过大数据辅助市场经营的有效尝试。
参考文献:
[1] 王远征,吴峰,夏明镜,等.电信宽带用户离网大数据预测实例 [J].电信技术,2016(10):83-87.
[2] 云晴.大数据实践重要影响因素 [J].中国电信业,2017(8):57-59.
[2] 卢光跃,张宏建,闫真光,等.基于特征选择和SVM的电信客户离网预测 [J].西安邮电大学学报,2019,24(2):21-25.
[3] 陈小凤.宽带用户维系新思路 [J].电子技术与软件工程,2018(14):14.
[4] 谷娜.基于AI和大数据的宽带服务支撑体系研究 [J].通信与信息技术,2021(4):81-82.
[5] 云晴.大数据实践重要影响因素 [J].中国电信业,2017(8):57-59.
作者简介:张靖(1986—),男,汉族,山西朔州人,中级工程师,硕士研究生,研究方向:神经网络;侯晓晶(1987—),女,汉族,山西省运城人,中级工程师,硕士研究生,研究方向:数据挖掘。
3478500338218