一种移动通信网络的关键用户预测方法
2017-07-06张金龙
张金龙
【摘 要】针对现有网络节点重要性评估未能真实全面地反映通信网络的用户关系的问题,提出了一种基于结合TF-IDF和改进PageRank的关键用户预测的算法。首先构造有向加权的移动社交网络;然后采用TF-IDF算法提取有效的移动用户交往圈;最后采用改进PageRank算法识别关键用户,实现关键用户挖掘。实验结果表明,该方法能够有效、合理地评估有向加权网络的关键用户,从而提高通信网络节点重要性评估的实践价值。
【关键词】关键用户 TF-IDF 改进PageRank 有向加权网络
1 引言
目前,针对无向加权复杂网络的节点重要性评估有两个方面:一是通过一些节点、度、节点介数、聚集系数等网络特征向量来评估节点重要性;二是以系统论为基础提出的基于系统的“核与核度”理论。比如:周漩[1]等人采用节点效率和节点重要度评价矩阵,用节点度值和效率值来表征其对相邻节点的重要度贡献,该方法在很大程度上克服了节点删除法和收缩法的不足;李玉华[2]等人针对动态加权网络,提出了基于距离增量分组的动态节点重要性评估算法;张益[3]提出一种采用系统论的思想,将灰色关联度作为测度,评价网络中每个节点的重要性。但由于上述算法没有考虑真实网络的有向加权性,因此不适合现实的需求。本文在综合考虑有向加权网络[4]的基础上,结合用户通信数据的独特性,旨在提出一种改进PageRank算法挖掘关键用户。
2 复杂网络的相关理论研究
眾所周知,目前大多数真实网络都是复杂且有向的。复杂网络模型的主要统计特征量包括:节点的度、度的分布、度的相关性、平均路径长度、聚类系数、介数、模块性等。通过网络的特征量,本文对节点的度、节点加权度和节点权重进行分析,提出了改进PageRank算法来挖掘通信数据的关键用户。
2.1 有向加权网络
2.2 关键节点的识别
关键节点的识别实质上就是寻找网络中最有影响力的节点。本文在参考前人研究的基础上,认为通信数据关键节点的识别不仅需要考虑节点所在的位置和邻居的数目,而且还需要考虑邻居的网络拓扑结构的特征量。
2.3 基于改进PageRank算法的关键用户识别
改进PageRank算法的关键用户识别的主要思想如下:
(1)构造以用户通信数据为基础的复杂网络来模拟现实的用户通信交往网络。
(2)把评判用户联系的“紧密度”问题转化为评判每个用户的PageRank值(即用户重要性的排名)[5],用户的PageRank值算法如下:
其中,Ti为拨打给用户A的第i个主叫号码;INA为用户A的主叫号码总数;wAi为Ti指向A的权值(也称边权值,计算方式为主叫号码Ti拨打给A的PageRank值除以所有拨打给A的主叫号码的PageRank值)。以Ti为主叫号码拨打给包括A在内有M1, M2, …, Mm等mi个被叫号码。INj为拨打给Mj的主叫号码总数;wmj为Ti拨打给Mj的权值;N为移动网络用户的数量。wTi为主叫号码Ti拨打给A的通话时长与以Ti为主叫号码拨打给包括A在内有M1, M2, …, Mm等mi个被叫号码的时长的比例。
通信数据的复杂网络用户拨打关系示意图如图1所示:
3 基于移动通信数据的关键用户预测
3.1 关键用户预测流程
本文基于移动通信数据的关键用户预测流程如下:
(1)获取用户呼叫详单信息,提取与本文相关的字段,如主叫号码、被叫号码、通话开始时间、通话结束时间等。根据上述字段建立移动通信用户的呼叫交往圈。
(2)通过TF-IDF提取有效的用户交往圈[6]。采用TF-IDF算法把一些公共号码、快递号码、送餐号码等非重要通话群体剔除。
(3)基于改进PageRank算法的关键用户识别。综合考虑网络节点所在的位置,并根据网络节点以及该节点的邻居节点的链接关系对边赋予不同的权重,再通过用户之间的不均匀通信关系提高关键节点的PageRank值,保证核心节点重要性的计算。
(4)根据与核心用户相连接的用户的拓扑关系来确定“中间人”,以识别网络中的关键用户。
3.2 关键用户的识别过程
(1)移动用户通信数据的提取,构建有向权值的用户通信社交网络
根据本文的需求,提取用户呼叫详单的关键字段,包括主叫号码、被叫号码、通话、通话开始时间和通话结束时间。根据用户的通话对,对每一对用户的通话信息进行提取,通信网络的节点由主叫用户和被叫用户组成,通信用户的边从主叫用户连向被叫用户,边权值则是由网络的拓扑结构决定的,不仅需要考虑用户的通话次数,而且还需要考虑用户的通话时长。用户通话数据关键字段提取示例如表1所示:
(2)通过TF-IDF提取有效的用户交往圈
有效交往圈是指与一个移动号码发生通信行为且具有相对重要和紧密程度的对端号码集合[7]。本文采用TF-IDF进行改进,在统计通话次数的基础上,结合通话时长和通话逆频率计算通信用户之间的“重要性”,以此来甄别有效用户。那么,用户T的有效交往圈公式为:
TF-IDFTA=wTA×tfTA×idfTA (4)
其中,wTA为用户T和用户A在一段时间内的总通话时长与用户T和所有用户在一段时间内的总通话时长的占比;tfTA为用户T和用户A的通话频率;idfTA为用户T和所有用户的通话逆频率。
(3)基于改进PageRank算法的关键用户识别
首先通过公式(3)得出所有通信用户在整个网络中的重要性,然后根据重要性从大到小进行排名,选取TopN进行核心人物的判定,再通过来判定通信网络的“中间人”,以完善通信网络关键用户的预测方法。
4 实验分析
4.1 数据来源
本文以河北省某市移动运营商的用户详单数据为例进行关键用户预测,提取该市具有标识的2万用户8月至10月的数据,该数据量大小为3 GB左右。通过将上述数据进行关键字段的提取之后,把随机抽取的所有用户70%的数据作为训练集,再把剩下的数据作为测试集。通过分析处理具有标识的数据,进行关键用户预测。
4.2 实验对比
本文对实验数据采取以下方法进行处理:
(1)通过改进PageRank算法识别关键用户。
(2)结合TF-IDF和改进PageRank算法识别关键用户,再重复10次实验对比两者的平均准确率,以此证明哪种方法具有一定的优越性。
由图2可知,不做有效用戶圈筛选的算法在预测关键用户的准确率上比筛选有效用户圈要低。因此,结合TF-IDF能够在一定程度上剔除公共号码、快递号码等的干扰,从而提高关键用户预测的准确率。
5 结束语
本文基于真实的移动通信数据的用户通话拓扑结构提出了关键用户预测的模型,首先根据通信数据的独特性采用TF-IDF提取有效用户圈以去除噪音,然后采用改进PageRank算法预测关键用户。该方法从两个方面衡量网络节点的重要性:一是网络节点所在的位置;二是该节点的邻居节点的链接关系,从网络全局的角度得到网络的关键用户。并通过实验证明,结合TF-IDF和改进PageRank算法与基于改进PageRank算法相比具有较高的准确率。
参考文献:
[1] 周漩,张凤鸣,李克武,等. 利用重要度评价矩阵确定复杂网络关键节点[J]. 物理学报, 2012,61(5): 1-7.
[2] 李玉华,贺人贵,钟开,等. 动态加权网络中节点重要度评估[J]. 计算机科学与探索, 2012,6(2): 134-143.
[3] 张益. 一种定量评估复杂网络节点重要度的算法[J]. 计算机工程, 2011,37(20): 87-88.
[4] 唐俊. 复杂网络在新闻网页关键词提取中的应用[J]. 云南民族大学学报: 自然科学版, 2012,21(4): 305-308.
[5] 杜翠凤,王俊. 基于改进PageRank算法的城市轨道交通站点选址规划[J]. 移动通信, 2016,40(14): 60-65.
[6] 蒋仕宝,陈少权. 基于呼叫指纹的重入网识别算法研究[J]. 移动通信, 2016,40(22): 27-30.
[7] 陆菁. 基于移动通信交往圈的家庭用户识别研究[D]. 上海: 上海交通大学, 2014.
[8] 苏晓萍,宋玉蓉. 利用邻域“结构洞”寻找社会网络中最具影响力节点[J]. 物理学报, 2015,64(2): 1-11.
[9] 陈勇,胡爱群,胡骏,等. 通信网中最重要节点的确定方法[J]. 高技术通讯, 2004,14(1): 21-24.
[10] 骆世顺. 基于社团结构和自信息的复杂网络链路预测算法研究[D]. 兰州: 兰州大学, 2016.