基于用户行为特征的移动社交网络分析与应用
2017-02-06薛飞
薛 飞
(中国移动通信集团广东有限公司,广东 广州 510623)
1 引言
用社交网络分析方法可定量分析网络结构,研究子群分割,并基于用户子群开展应用。在移动网络中,用户行为具有社交属性,可以用以进行社交网络研究。2010年英国牛津、美国诺特丹等大学首次构建移动社交网络,使之成为该领域的开山之作[1]。西班牙电信Telefonica等电信运营商创新地使用移动社交网络为用户提供增值服务[2]。
前期移动社交网络主要基于话单,模型开销较大,实际应用效果偏低,主要存在以下问题:
(1)集中使用话单数据,移动信令数据在社交网络中没有得到充分应用;
(2)聚焦海量数据的离线分析,周期过长,在实际应用中对用户变化缺乏及时响应;
(3)分析缺少关联用户多种行为特征。
为了解决以上问题,结合Hadoop大数据平台提出基于用户行为特征的实时移动社交网络分析方法。基于移动信令数据,构建移动社交网络及子群分割,并联合市场部门可共同实现用户营销支撑、重要用户维系和高价值用户流失预警。
2 基于用户行为的移动社交网络分析方法
移动社交网络分析可以用于寻找网络中最具影响力的个体以及传播内容等,从而进行舆情监控;也可以用于网络子群分割,实现“物以类聚,人以群分”。主要分析内容(如表1所示)和步骤详见下文。
表1 移动社交网络主要分析内容
2.1 步骤1:形成宽表
移动社交网络分析数据来自信令系统、资源系统等,通过采集移动通信网络A接口、Iu接口和S1-U接口的原始信令码流数据,汇聚形成移动社交网络分析的详单宽表。详单宽表共有52个字段,其中关键字段如表2所示。其中,用户通话时长=释放时间-呼叫应答时间,需要通过计算得出。
2.2 步骤2:数据清洗
若用户存在异常通信行为,可能干扰移动社交网络分析结论,则构建网络前必须开展数据清洗。分析2017年4月详单宽表可知,用户存在如下异常通信行为:
◆超短通话:25%用户通话时长小于20.26 s,甚至还有0.18%的用户通话时长小于3 s。
◆超长通话:最大通话时长达到21 850 s,约6.07小时,远远超过75%的用户通话时长88.42 s。
◆超短通话的呼叫频次相当高。前35.57%通话(通话时长34.30 s以内)的频次占了全部通话频次的80%。
根据用户行为经验值,对详单宽表进行数据清洗,删除用户通话时长小于3 s、用户通话时长大于600 s或主叫用户号码频次大于60次/小时的数据记录。
表2 详单宽表关键字段
2.3 步骤3:构建网络
利用移动社交网络详单宽表构建移动社交网络。其中,以主叫用户号码、被叫用户号码构成社交网络中节点,如果两个号码之间存在通话记录,则形成网络中的一条边。遍历移动社交网络的所有节点和边,计算社交网络的度、中间度以及直径等统计性指标。
2.4 步骤4:子群分割
考虑到算法适用性等因素,使用Walktrap算法进行移动社交网络子群分割,主要步骤如下:
(1)定义网络中两个节点i、j之间的距离。利用网络两点到网络中所有其他点的距离之差来衡量两点之间的相似性,从而划分网络子群[7]。
其中,D是度矩阵,度矩阵对角线上的元素Dii是对应节点i的度,其他非对角线元素为0;d(k)是节点k的度;定义邻接矩阵A,表示节点之间相邻关系矩阵。在无向网络中,如果两个节点i和j相邻,则将邻接矩阵对应元素Aij和Aji设置为1,否则为0。P是网络对应的邻接矩阵A按行归一化后的概率转移矩阵,其中P=D-1A。表示节点i经过t条边达到节点k概率,按经验值t预设为3~5。
(2)定义任意两点之间的距离后,就可以推广得到子群C1和C2之间的距离:
(3)选取网络中没有纳入子群的节点,将其单独视为一个子群,然后计算该节点与所有相邻子群之间距离。
(4)取两个彼此连接且距离最短的子群进行合并。
(5)重复步骤(3)、步骤(4)、步骤(5),直到网络中所有节点都被划分到子群中。
2.5 步骤5:可视化
对2017年4月详单宽表进行数据清洗后,构建移动社交网络。网络节点数共44.64万个,边数共72.84万条。由于网络节点数太多,计算复杂度过高,下面随机抽取10 000、50 000个节点进行分析,如表3所示:
表3 社交网络分析度量指标结果
利用Walktrap算法进行移动社交网络子群分割,选取度大于30的节点构建子群,则该移动社交网络被分割为4个子群。为了便于呈现,利用不同颜色节点代表不同用户子群,节点大小表示节点的中间度。中间度越大,节点越大。从图1可以明显看出,红色、绿色两个子群连接的绿色节点的中间度很高,说明这些节点在这两个子群之间起到了重要桥梁作用。
图1 移动社交网络子群划分图
分析中间度超高的关键节点。从表4看出,在绿色子群中间度超过1 500的节点有3个,说明该群中的节点可作为社交网络信息交互桥梁,信息交互作用明显。
表4 移动社交网络关键节点
3 基于用户行为的移动社交网络分析具体方案
3.1 平台架构
移动社交网络分析平台通过采集信令消息并解码,同时利用Hadoop资源池进行实时流处理和离线计算,形成详单宽表,汇总存储后,通过API接口分发给上层应用服务,然后进行移动社交网络建模分析。移动社交网络分析平台架构图如图2所示。
3.2 平台介绍
移动社交网络分析平台包括采集解码层、计算共享层和分析应用层3层,各层主要功能如下:
◆采集解码层:采集移动网络信令原始码流,通过分光、汇聚和码流解码,形成移动社交网络详单宽表。
◆计算共享层:采用开源Hadoop架构,通过Strom数据流处理技术实现实时流处理,通过Map Reduce实现离线批处理,供分析应用层数据建模使用。
◆分析应用层:利用API接口获取数据,并进行建模计算和UI界面输出。
图2 移动社交网络分析平台架构图
3.3 技术实现
◆采集解码层:采用详单宽表的字段回填技术,对各种不同接口协议进行实时解码,根据各个不同接口之间的业务逻辑,把多个接口的数据按照用户号码进行关联,合成回填关键字段。
◆计算共享层:基于Kafka数据分发和Storm流计算框架,缩短网络大数据的数据分发处理时延,实现数据实时计算。实时计算从传统的FTP文件共享演进到基于Kafka数据消费,大大提升了计算性能和数据可靠性,缩短了数据时延。同时,通过库外多索引技术架构可实现高并发、低时延,丰富了业务支撑场景,满足分析需求。
◆分析应用层:采用HTTP Restful技术可实现API接口提取计算共享层数据。同时,在分析应用层利用Python可实现社交网络分析,用Walktrap算法可完成子群分割。在用户子群基础上配置动态基线,可建立用户营销推荐模型、用户关系维系模型以及用户流失预警模型。
3.4 算法模型
利用移动社交网络用户子群,构建用户营销推荐、用户关系维系以及用户流失预警三大算法模型,可帮助电信运营商掌控用户发展全生命周期各个场景的情况。
(1)用户营销推荐模型
对节点中间度大小进行排序,筛选目标用户,以此作为关键用户推送给市场部门,市场部门即可据此为关键用户及相邻节点用户进行套餐营销优惠推荐。
◆模型初始条件:按地市构建移动社交网络,并且完成数据预处理。
◆模型动态基线:网络直径h、中间度阈值a、中间度阈值b、度数c。
◆模型应用说明:对于地市中直径超过h的社交网络里,网络中间度在a~b,并且度数超过c的节点,系统将该节点对应的用户判定为目标用户,并将信息推送给市场部门以进行套餐营销推荐,市场部门同时也会给相邻节点用户推送套餐优惠信息。
(2)用户关系维系模型
构建移动社交网络分析模型,按照节点中间度排序情况筛选目标用户,将目标用户作为关键用户推送给市场部门,市场部门则对目标用户重点开展用户关系维系工作。
◆模型初始条件:按地市构建移动社交网络,并且完成数据预处理。
◆模型动态基线:网络直径h、中间度阈值a、度数c。
◆模型应用说明:对于地市中直径超过h的社交网络里,网络中间度在a并且度数超过c的节点,系统将该节点对应用户判定为关键用户,并将信息推送市场部门,市场部门通过套餐优化等手段进行用户关系维系。
(3)用户流失预警模型
按照节点中间度筛选出中间度对比上一个分析周期(按照周或者月)降幅过大的用户,把其作为潜在流失用户推送给市场部门,市场部门则重点对这些用户开展用户挽留工作。
◆模型初始条件:按地市构建移动社交网络,并且完成数据预处理。
◆模型动态基线:中间度阈值a、度数c、中间度降幅k。
◆模型应用说明:对于地市中直径超过h的社交网络里,网络的度超过c的节点,如果其中间度对比上一个分析周期降幅超过k,则系统将该节点对应用户判定为潜在流失用户,并将信息推送市场部门,市场部门即重点开展用户挽留工作。
3.5 应用场景
基于用户行为特征的移动社交网络分析方法主要有3种应用场景:用户市场拓展、重要用户维系和高价值用户流失预警。
用户市场拓展:在移动社交网络子群中,中间度体现了网络对用户的粘度,是用户价值高低的度量。在市场拓展阶段,市场部门通过甄别中高价值用户,可有针对性地对其开展套餐营销,提升网络使用度,争取将这些用户转化为高价值用户。对比传统用户ARPU、流量费用等,结合社交网络进行市场拓展的方式考虑了用户行为特征等多方面因素,有助于市场份额的提升。
重要用户维系:在移动社交网络基础上构建重要用户网络。对于高价值用户,市场部门有针对性地重点监控其行为、消费等的变化情况,在节假日等通过短信/电话营销等方式进行营销推荐等,维系用户市场。
高价值用户流失预警分为实时与非实时,实时流程主要针对对比上一个周期,高价值用户的网络使用变化明显的情况进行预警,利用网络变化及时监控不稳定群体,做出用户流失预警并进行防范。另外,非实时主要是对地市的用户流失趋势进行预测,并结合用户画像特征和用户区域位置,加强用户流失情报收集,提前做好相关预案。
4 结束语
利用大数据技术和社交网络分析方法可以有效支撑电信运营商的市场发展。通过捕捉移动通信用户多行为特征,构建并定性度量移动社交网络,将其应用到用户营销、用户关系维系、用户流失预警等三大场景,使电信运营商能有效掌控用户发展全生命周期各个场景的情况。后续可将移动社交网络分析与用户计费信息结合,从用户行为、用户消费能力等多角度进行融合联合分析,提升用户营销、用户关系维系、用户流失预警的有效性。
[1] PUSHP A, G SHOBHA. An efベcient method of building the telecom social network for churn prediction[J]. International Journal of Data Mining & Knowledge Management Process,2012,2(3).
[2] LÁ Galindo, T Spain, D Moro, et al. THE SOCIAL NETWORK BEHIND TELECOM NETWORKS[J]. Cis,2009.
[3] Tom White. Hadoop权威指南[M]. 曾大聃,周傲英,译. 北京: 清华大学出版社, 2010.
[4] Alan Gates. Pig编程指南[M]. 曹坤,译. 北京: 人民邮电出版社, 2013.
[5] P Pons, M Latapy. Computing communities in large networks using random walks[J]. Journal of Graph Algorithms and Application, 2005,10(2): 284-293.
[6] U N Raghavan, R Albert, S Kumara. Near linear time algorithm to detect community structures in large-scale networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2007,76(2): 036106.
[7] V D Blondel, J L Guillaume, R Lambiotte, et al. Fast Unfolding of Communities in Large Networks[J]. Journal of Statistical Mechanics Theory & Experiment, 2008(10): 155-168.
[9] A Clauset, M E Newman, C Moore. Finding community structure in very large networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2004,70(6 Pt 2):066111.
[10] B W Kernighan, S Lin. An efficient heuristic procedure for partitioning graphs[J]. Bell System Technical Journal,1970,49(2): 291-307.
[11] M E Newman. Fast Algorithm for Detecting Community Structure in Networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2003,69(6 Pt 2): 066133.★