基于逻辑回归算法的A地市家庭宽带发展研究

2017-03-12郑晓

移动通信 2017年2期

【摘要】家庭宽带是电信运营商重点发展的业务。根据A地市中国移动家庭宽带业务的相关数据，分析用户的通信和上网等行为特点，基于逻辑回归算法预测A地市的潜在安装宽带用户概率值，为一线城市制定家庭宽带发展业务提供方案。

【关键词】逻辑回归家庭宽带中国移动

doi：10.3969/j.issn.1006-1010.2017.02.016 中图分类号：F623 文献标志码：A 文章编号：1006-1010（2017）02-0079-03

引用格式：郑晓. 基于逻辑回归算法的A地市家庭宽带发展研究[J]. 移动通信， 2017，41（2）： 79-81.

1 引言

家庭宽带营销一直是运营商市场的重点业务。在上海举办的MWCS2016（世界移动通信大会上海）上，中国移动执行副总裁李慧镝表示，将大力推动家庭业务发展，中国移动计划2016年新增家庭宽带用户1800万。不难看出，家庭宽带客户发展已成為中国移动省公司重点关注的方向。

为使模型真正指导营销，选择某省A地市中国移动客户作为研究对象，针对该地市的移动客户的家庭宽带业务的相关数据进行分析和挖掘，分析家宽用户与非家宽用户的特征，帮助一线营销人员制定家庭宽带营销策略。

2 A地市潜在家庭宽带用户挖掘实践

2.1 背景

据了解，A地市移网总用户数为80万左右，家庭总户数约为60万（基于该地市移网总用户数及家庭成员识别、居住地识别2个基础模型估算得出），其中移动宽带覆盖户数为32万。在移动宽带覆盖区域内，已安装移动宽带户数为7万，异网宽带户数约为10万，故未被挖掘的潜在宽带户数=移动宽带覆盖户数-已安装移动宽带户数-异网宽带户数=15万，尚有较大的发展空间。而现阶段A地市以普遍撒网的方式营销，缺少针对性的营销，营销进展较为缓慢。因此，通过大数据分析建模，以期精准识别营销目标客户，实现营销资源利用率最大化。

2.2 具体过程

（1）数据挖掘目标。通过对比近期新安装移动宽带用户及未安装移动宽带用户流量使用行为、家庭行为等特征，识别潜在宽带用户，预测潜在宽带用户安装宽带概率值。

（2）训练样本选择。抽样的用户需要满足以下条件：入网至少三个月、非移动内部用户、用户居住地被移动宽带覆盖。正样本取2015年12月、2016年1、2月未使用移动宽带，2016年3月新装移动宽带的全量用户，共0.18万。负样本取截止2016年4月未使用移动宽带用户。因为数量较多，把负样本的浓度降低，以便更好地观察与分析正样本的特征，取正负样本比例为1：6，抽取1.2万的负样本。

（3）变量选择。涉及的变量主要来源于电信行业内部以及一些上网类属性，字段分类主要包括基础属性、位置信息、用户消费行为、用户终端特征、数据业务办理情况、交往圈情况、家庭成员情况、APP安装使用情况，共选取了148个初始变量。

（4）数据探索与数据处理。业务知识是数据挖掘的核心，这一原则在数据探索的过程尤为重要。对变量的相关业务知识进行详细了解后，借助ATSER工具，对挖掘变量做由浅入深的数据探索。主要通过数据质量检查、值分析、统计分析、频度分析、直方图分析、相关性分析等方法理解变量。通过构造衍生变量的方式，探索对目标变量影响更大的变量。比如，近三个月月均视频APP使用次数空值较多，将其从数值型变量转变成分类变量，代表近三个月是否使用视频类APP。同时通过缺失值、异常值处理、变量标准化等方法对变量进行处理，最终确定模型输入变量21个。

（5）算法选择与模型评估。目前在电信行业常用的算法包括：决策树、逻辑回归、随机森林、神经网络等。基于以下四方面原因优先采用逻辑回归算法：一是模型输入变量类型多为数值型；二是输出变量为典型的二分类型变量；三是需要输出客户新装宽带概率指导营销；四是地市的样本量较少，而逻辑回归的优势在于数据没必要满足正态分布。

逻辑回归模型属于广义线性模型（Generalized Linear Model）的一种，是基于Sigmoid函数的有监督分类模型，主要是研究一个因变量和多个自变量之间的多元回归关系。在逻辑回归分析中，因变量Y是一个二分类变量，取Y=1和Y=0分别表示新装家宽的用户和未装家宽用户。影响Y取值的n个自变量x1， x2， …， xn，在这n个自变量的作用下，新装家宽的条件概率为P=P（Y=1∣x1， x2， …， xn），逻辑回归方程可表示为：

zi=a0+a1xi1+a2xi2+…+anxin （1）

Pi=1/（1+exp（-zi））（2）

其中：zi为中间变量参数；

a0为回归常数；

aj为第j个变量的回归系数（i、j=1，2， …， n）；

xij为第i个单元中第j个变量的取值，存在新装家宽取1，否则取0；

Pi为第i单元中发生新装宽带的概率的回归预测值（i=1，2， …， n）。

表1为训练集的模型效果，表2为测试集的模型效果。不难发现，响应率情况基本保持一致，说明模型没有过度拟合。同时在选取营销对象时，建议选取KS值最大对应的用户进行营销，因为KS值能最大程度地区分正负样本。基于测试集的模型结果，比未建模时提升2.29倍，效果较好。

3 营销策略制定

在医学实验研究中有对照原则，设立对照组的作用在于提高鉴别能力和结论的说服力。由于营销资源有限，为提高资源利用率，跨界引用对照原则，设置高度可比性的对照组AB的方式进行试外呼，对比、检验模型的应用效果，保证模型的真实有效性。模型组选取：概率分别在40%～60%、60%～80%、80%～100%的用户，每个区间取30%的用户外呼，概率在20%～40%的用户，取5%的用户外呼。同时对照组选取：在2G、3G用户中随机抽取5000个与模型组无重复的用户外呼。

试外呼的效果如表3所示，模型组的平均意向率是对照组的2.9倍，证明模型应用效果较好。据此，开展全量营销，按概率由大到小外呼以保证最优营销。

4 结论

以A地市中国移动家庭宽带业务数据为研究对象，选择八大类型共148个相关指标，采用逻辑回归模型预测潜在用户安装宽带概率值，并通过KS值确认模型没有过度拟合，并运用查全率、查准率、提升度及AB对照组等方法保证模型的真实有效性。为运营商进一步做好营销活动提供了可依据的数据支撑。

参考文献：

[1] Jiawei Han， Micheline Kamber， Jian Pei. 数据挖掘概念与技术[M]. 范明，孟小峰，译. 3版. 北京：机械工业出版社， 2012.

[2] Mehmed Kantardzic. 数据挖掘：概念、模型、方法和算法[M]. 王晓海，吴志刚，译. 2版. 北京：清华大学出版社， 2014.

[3] 王济川. Logistic回归模型：方法与应用[M]. 北京：高等教育出版社， 2001.

[4] 王燕莉，安世全. 数据挖掘技术在移动通信中的应用[J]. 中国数据通信， 2004，6（1）： 74-77.

[5] 郭明，郑惠莉. 基于数据挖掘的电信客户流失分析[D]. 南京：南京邮电大学， 2005.

[6] 邓玉珊. 电信业潜在宽带客户获取预测研究[D]. 成都：电子科技大学， 2009.

[7] 邹超，姜澄宇. 我国宽带业务市场的扩散分析[J]. 兰州大学学报， 2007，35（6）： 144-146.

[8] Ningtang P， Steinbach M， Kumar V. Introduction to Data Mining[M]. Beijing： Posts&Telecom Press， 2006： 372-374.