APP下载

终端换机业务分析研究

2018-10-13李轶群李佳俊王蕴实

网络安全与数据管理 2018年9期
关键词:换机数据表档位

路 玮,李轶群,李佳俊,王蕴实

(中国联通网络技术研究院,北京 100048)

0 引言

随着移动互联网终端不断增加,目前中国联通有将近3亿移动业务用户,假设用户两年换一次手机,则平均每年有1.5亿用户换机量[1],所以换机市场份额巨大。引入大数据挖掘技术对海量的换机数据进行深度挖掘,分析潜在用户的换机需求,例如用户喜欢的终端品牌型号、心理价位、品牌忠实度等。通过对用户换机大数据分析,构建换机模型,挖掘出用户换机信息,不仅有利于扩大用户市场增加经济效益,同时还为所在省份提供现网用户终端使用情况,为网络规划部署作出参考,推动终端和网络之间协调发展。

1 终端数据源分析

随着全球及国内移动终端产业链发展[2],终端对网络功能实现影响力越来越大,所以从网络侧对终端业务进行数据分析十分必要[3]。数据来源包括从省份提取的每月全网出账用户终端数据,体现用户行为信息;终端TAC库,体现终端基本属性信息;终端价格表信息,体现终端价格基本信息。通过上千万条数据记录及几十个属性指标[4],展现出用户换机行为特性。各数据表的关联关系如图1所示。

(1)省份原始数据是提取省份每月出账的终端数据,包括终端的归属地市、终端移动设备国际识别码(International Mobile Equipment Identity,IMEI)、用户编号、国际移动用户标识(International Mobile Subscriber Identity,IMSI)、登录过4G网络附着标识、3G网络使用标识等基本字段信息,其中IMEI设定为主键。

(2)换机用户关联数据表是将换机前后终端数据信息整合到一张表中[5],在数据整合过程中过滤掉冗余字段,保留有效字段,其中IMEI_pre、TAC_pre表示为换机前终端的IMEI和TAC信息,IMEI_cur、TAC_cur表示为换机后终端的IMEI和TAC信息。由于各个终端数据表中关键字段不匹配,有的提供TAC信息,有的提供IMSI信息,为了统一处理,需要将TAC信息和IMSI信息进行转化,新增TAC字段信息,从IMEI号中提取前7位号码转化TAC字段。其中IMEI设定为主键。

(3)终端库表是终端关键数据信息,包括终端TAC号、终端名称、终端ID、厂家名称、厂家ID、网络类型、创建时间、更新时间等基本字段信息。其中TAC号设定为主键。

(4)终端价格表是定义不同终端价格档位基本信息,包括终端ID、终端型号、厂家编码、厂家名称,以及终端价格档位等字段信息。其中终端ID设为主键。数据表中将终端价格档位分为A~E档,价格上差额1 000 元一个档位,其中大于等于3 500 为A档,小于1 000 为E档,如表1所示。

图1 终端数据关联图

表1 终端价格档位表

(5)终端价格关联表是将终端库表和终端价格表进行关联,按关键字段终端ID进行数据合并,将相同终端ID号的终端型号、价格档位、终端TAC号合并为一个表。其中设TAC号为主键。

(6)TAC库数据是终端的基本数据,包括TAC号、终端品牌(Marketing Name)、终端厂商(Manufacturer)、支持的频段(Bands)、2G标识、3G标识、4G标识、双卡、设备类型等基本字段信息。其中设TAC号为主键。

(7)终端换机关联表是将终端价格关联表、换机用户关联数据表、TAC库表进行关联[6-7],按换机前TAC号和换机后TAC号为关键字进行合并,包含换机标识,换机前Marketing_Name_pre、Manufacturer_pre、2G标识_pre、3G标识_pre、4G标识_pre、终端档位_pre,换机后Marketing_Name_cur、Manufacturer_cur、2G标识_cur、3G标识_cur、4G标识_cur、终端档位_cur等基本字段信息。换机是对比同一用户IMSI号下不同IMEI号的终端信息,如果IMEI_pre=IMEI_cur,则表示没有换机,换机标识为0;如果IMEI_pre≠IMEI_cur,则表示用户换机,换机标识为1。其中设IMSI号为主键。

2 换机业务模型分析

IBM SPSS Modeler具有丰富的数据挖掘算法,支持数据库之间的数据与模型交换。在数据分析时通过数据收集、预处理、模型建立、模型评估等环节,通过若干节点,建立一条或多条数据流,调整和修改数据流中的节点和参数,完成整个数据分析任务[8]。采用SPSS Modeler进行数据处理,基础数据流的建立和完善是数据业务分析的基础和支撑,可以满足不同省份的统一业务的需求分析。根据数据业务数据源分析,建立业务挖掘模型[9]。终端数据流处理过程如图2所示。

图2 终端数据流处理过程框架

图3 数据节点审核统计

在数据准备阶段,读取省份当月出账的终端原始数据、上个月的出账终端原始数据、TAC库数据以及终端价格档位数据等数据信息。浏览数据内容,对数据进行过滤、确认字段存储类型、读取数据的变量类型等参数设置,例如将IMSI号和IMEI号存储类型从字符串变更为整数。通过过滤选项卡修改变量名称,将上个月的数据表中的IMEI变量名称改为IMEI_pre,当月的数据表中的IMEI变量变更为IMEI_cur。通过数据审核可以观察出统计数据中的异常数据、极端数据[10]。

对于异常数据需要在数据预处理阶段进行修改或删除。在数据预处理阶段,为了提取有效数据的价值,需要提前将缺失和异常数据处理干净,对数据进行一系列的清洗、转化、加载等[11]。在省份当月出账的终端原始数据里只有IMEI码信息,没有TAC码信息,为了同TAC库进行对比分析,需要根据IMEI信息派生出TAC码。TAC码是IMEI码前六位数字,代表终端型号。利用函数intof(‘IMEI号’/1000000)将IMEI值转化为TAC值,通过TAC标识,与TAC库进行对比,可以获得终端基本信息。IMEI是终端唯一识别码,对于换机业务来说关注终端换机前和换机后终端IMEI对比至关重要,所以将终端IMEI号作为主键,唯一标识数据表中的每条记录[12]。在数据处理过程中需要将原始数据的字段类型进行调整,将IMSI、IMEI字段从实数或字符串变更为整数,类型为连续型。同时过滤参数字段,保留IMEI号、IMSI号有效字段,剔出用户编码等信息。通过对原始数据转化、过滤、类型变更、匹配合并等初步处理,可以将数据转化为有效数据。由省份当月原始数据表和上个月原始数据表合成换机用户关联数据表,以IMSI标识为主键,用IMSI关键字段进行合并,并对IMEI进行去重,保留终端唯一性,IMEI_pre、TAC_pre表示为换机前终端的IMEI和TAC信息,IMEI_cur、TAC_cur表示为换机后终端的IMEI和TAC信息。终端库和终端价格表的对比合并生成终端价格关联表,通过终端ID关键字段,生成以TAC为主键,包含终端ID、价格档位、终端类型等字段的数据表。TAC库中标明了终端的属性,包括该终端品牌、终端型号、支持2G/3G/4G频段情况、设备类型、是否是双卡等信息。用户终端TAC号同TAC库中TAC号进行匹配可以查出用户终端包含的属性,显示出用户终端的频段支持情况。在合并时使用TAC号作为关键字。将TAC库表、换机用户关联数据表、终端价格关联表3张表以换机前TAC_pre为合并字段,生成换机前终端型号、终端品牌、终端支持2G/3G/4G情况、终端档位信息;以换机后TAC_cur为合并字段,生成换机后终端信号、终端品牌、终端支持2G/3G/4G情况、终端档位信息[13]。

模型建立,生成数据流;将分析出的结果汇总,通过表或图形展现出来[14]。

3 终端换机分析结果

通过换机业务模型[15]对省份连续2个月的出账1 200 万条的终端数据进行分析。本文从换机前后品牌占比、用户换机忠诚度、换机后价格档位等几个方面进行深入分析。分析结果如图4所示。

图4 换机前后品牌TOP10占比统计情况

换机前后TOP5品牌均为苹果、华为、VIVO、魅族、OPPO,其中苹果换机减少2.62%,华为换机减少2.65%, VIVO换机减少1%,小米换机增加2.26%,魅族换机增加1.57%,OPPO换机增加1.47%[16]。如图5所示。

图5 终端品牌变更统计

分析可见,苹果、魅族、OPPO换机后继续使用同款终端品牌占比相对较高,基本在60%~68%左右,华为、VIVO继续使用同款终端品牌占比45%,说明用户对TOP5的终端品牌忠诚度比较高。

如图6所示,A档价格档位在≥3 500占8.71%,B档价格档在[2 500,3 500)占比26.59%,C档价格档在[1 500,2 500]占比14.5%,D档价格档在[1 000,1 500)占比28.96%,E档价格档在(0,1 000)占比21.24%。

图6 终端价格档位百分比

如图7所示,统计终端各档位前5位的品牌型号,其中:

在A档价格中,苹果占27.37%,华为占22.32%,VIVO占19.56%,三星占9.29%,小米占5.5%;

在B档价格中,苹果占29.91%,VIVO占21.63%, 魅族占14.77%,小米占8.49%,华为占7.34%;

在C档价格中,VIVO占24.27%, 魅族占16.18%,三星占13.94%,小米占13.21%,华为占10.05%;

在D档价格中,VIVO占21.09%, 华为占13.24%,OPPO占5.87%,小米占4.58%,魅族占3.2%;

在E档价格中,VIVO占19.76%,魅族占13.36%,OPPO占8.61%,小米占5.55%,华为占5.25%。

从价格上可以看出,苹果在高端终端占比较大,VIVO在各个档位均是最受欢迎的品牌。

4 结论

本文根据用户换机业务需求通过大数据分析构建一个终端换机模型,利用省份出账的终端数据统计出用户换机忠诚度、终端价格档位占比、终端品牌等信息,挖掘出用户的潜在的偏爱喜好,找出影响用户换机行为的关键因素,对提升市场营销有很大帮助。

图7 终端数据流处理过程框架

猜你喜欢

换机数据表档位
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
基于列控工程数据表建立线路拓扑关系的研究
三绕组变压器运行分接头档位计算及电压分析
三绕组变压器运行分接头档位计算及电压分析
图表