APP下载

Device-to-Device移动社交网络多维度用户影响力分析方法

2018-07-27张霄宏王盼盼王雅萍翟海霞

小型微型计算机系统 2018年7期
关键词:用户数好友影响力

张霄宏,王盼盼,王雅萍,翟海霞

1(河南理工大学 计算机科学与技术学院,河南 焦作 454000)2(河南理工大学 测绘与国土信息工程学院,河南 焦作 454000)

1 引 言

近几年,随着移动智能设备的大量使用和各种社交网络应用的不断推出,移动社交网络迅速兴起并受到了广泛关注[1].然而,大量移动社交网络用户频繁地上传和下载信息(比如文本、图片、视频、音频等)急剧地消耗移动通信网络带宽资源,给底层的通信网络带来沉重的负担.为了减轻移动通信网络的负担,基于Device-to-Device技术(D2D)的移动社交网络开始出现[2-5].这类网络借助D2D技术传输信息,不消耗移动通信网络带宽资源,但要求用户只有在物理位置邻近时才能进行信息传输.因此,基于D2D的移动社交网络中的用户行为与现实社会网络中的用户行为更为接近.

社交网络中的用户行为分析可以用用户忠诚度、用户画像、用户影响力等进行刻画.其中,用户影响力与舆情导向、广告投放等密切相关,具有非常重要的研究和应用价值.

然而,现有的研究在对用户影响力进行度量时,却存在四个方面的问题.第一,大量的用户影响力度量标准比较泛化,缺乏针对性.具体来讲,在度量影响力时只考虑用户的总体影响力,而未充分考虑用户对某一领域的影响力[6].虽有极少的研究者考虑到了领域因素,但领域划分标准存在争议.比如,微博的内容划分大多是用算法对用户所发内容进行分析处理并进行领域划分[7],领域归属较模糊.第二,未考虑到影响力的全局性(从社交网络全局角度分析所有用户行为和用户传输信息的特征)和局部性(从用户个体角度分析传输文件信息的行为特征)[8].第三,度量用户影响力时,模糊了用户的易被影响程度、影响他人的能力以及影响力最大化的问题[9].第四,以Xender为代表的、致力于文件共享的D2D移动社交网络没有回复数、被提及数等在计算用户影响力时常用的因素,关于微博、Twitter等的影响力研究成果不能用来评估该类网络中的用户影响力.因此,需要开展基于D2D技术的用户影响力研究工作.

本文通过分析真实D2D移动社交网络中的文件分享日志,挖掘用户在分享文件时的特征,并根据这些特征建立了多维用户影响力模型.该模型不仅考虑了某种类型文件自身的传播性以及用户对该类型文件的接触率等全局性因素,同时也考虑了用户个体发送某类型文件的概率以及用户对类型文件的偏好等局部性因素.

2 研究现状

Rogers等[10]将更容易影响其他人的个体定义为“影响力个体”.Cialdini等[11]将个人行为直接或者间接地影响其他人的观点、情感以及行为定义为“社会影响力”.Aggarwal等[12]将因网络中其它用户的影响而产生个人行为的改变定义为“社会网络中的影响力”.张玥等[13]在PageRank算法基础上提出了用户影响力排序算法MAR用以识别网络论坛中有影响力用户.Cha等[14]通过分析微博用户的粉丝数、被提及数以及微博转发数,发现大部分高影响力用户在许多主题中都具有高影响力.Bakshy等[15]针对大量的潜在影响力,提出了影响力均值的概念.Jin等[16]讨论了用户之间的社会连接和互动、考虑了移动环境中的社会行为的特点.段松青等[17]提出了基于倾向性转变的用户影响力排序方法.王楠等[18]在评估SNS网络用户影响力时考虑了区域交互的影响.

近几年,在研究[19-22]用户影响力时也开始考虑用户领域这一因素.朱郭峰等[19]结合微博内容的跨领域性和领域交叉性,根据微博内容与所属领域的相关性对微博进行领域划分,从而更准确的计算用户在各个领域的影响力.李敏等[20]以嘀咕网在线用户数据为对象,对用户发布的信息内容进行领域分类,并度量了用户在不同领域的影响力.肖宇[21]提出了Weibo-Rank用户传播影响力识别算法,该算法在PageRank算法的基础上对不同领域用户的影响力进行计算.

上述关于社交网络用户影响力的研究多是针对微博、Twitter[19,21-25]等应用,而在基于D2D技术的移动社交网络中还鲜有关于用户影响力的研究.同时,上述研究多以微博数、关注度、转发数、被提及数、粉丝数等作为用户影响力建模的参数,建立影响力模型.而在Xender用户所构成的基于D2D的移动社交网络中并没有粉丝数、关注度等概念,因此需要研究适用于此类网络的影响力建模和分析方法.

3 影响力相关因素分析

本文收集了Xender的日志数据,这些日志记录了用户分享文件的活动.通过分析这些数据可以找出与用户影响力密切相关的因素.

3.1 Xender数据集

Xender(闪传)[5,26]是一款面向智能移动设备的文件共享软件,利用D2D技术为多种类型的文件提供传输服务.Xender用户通过相互之间的文件传输活动形成了一个基于D2D技术的移动社交网络.由于采用D2D技术,Xender用户只有在物理位置临近时才能进行文件传输,Xender用户组成的移动社交网络与真实的社会网络更为接近.本文主要对D2D移动社交网络中的用户影响力进行分析.

我们收集了Xender的日志数据,所有日志文件都进行了脱敏处理,去除了用户敏感信息.这些日志信息时间跨度长达一个月,数据总量达560GB.Wang等在文献[5]中对日志数据的属性信息做了详细介绍,本文仅关注5个属性,分别是Content Name(文件名)、Content Md5(文件Md5值)、Content Type(文件类型)、Sender ID(发送者ID)和Receiver ID(接收者ID).

由于数据规模较大,我们专门搭建了一个基于Hadoop的云平台来处理该数据.云平台的硬件和软件信息如表1.

表1 数据平台信息Table 1 Data platform information

为使本文易于理解,文中多处借用特殊记号对重要内容进行阐述.表2展示了本文采用的各个记号及其含义.

表2 本文所用记号及含义Table 2 Marks and meanings used in this article

3.2 文件分享活动分析

图1 文件传播场景Fig.1 File dissemination scenario

为了度量用户在传播文件时的倾向性,引入了类型用户的定义.

定义1. 类型用户:如果用户分享了某类型的文件,则此用户属于对应类型用户.

具体来讲,ui如果分享了ti类型的文件,则ui为ti类型用户.

为了刻画用户之间的关系及用户间传递文件的喜好引入了好友和类型好友的定义.

定义2. 好友:如果一个用户给另一个用户分享了一个文件,则这两个用户互为好友.

具体来讲,ui如果分享了一个文件给uj,则ui和uj互为好友.

定义3. 类型好友:如果一个用户给另一个用户分享某种类型的文件,则这两个用户互为对应类型好友.

具体来讲,如果ui给uj分享了一个tk类型的文件,则ui和uj互为tk类型好友.

在图1中,u2、u3、u4是u1的好友,u2、u3、u4是u1的t1类型的好友.u2、u3是u1的t2类型的好友.u3、u4是u1的t3类型的好友.由图可知,u1有3个好友,即Fsum(u1)的值为3;u1有3个t1类型好友,即Fsum(u1,t1)的值为3.u1的t2类型好友数,即Fsum(u1,t2)的值为2,u1的t3类型好友数,即Fsum(u1,t3)的值为2.

文件传播过程包括用户与用户、用户与文件两方面.在度量用户的影响力时应充分考虑用户与用户之间的关系和用户之间传输内容两大因素.其中,用户与用户之间的关系包括用户的好友数和类型好友数;用户之间传输内容包括用户发出的文件数量和类型文件的数量两个方面.

通过对数据的初步分析,发现用户之间分享文件的类型包括 App、Audio、File、Folder、Image、Music、Video等文件类型.其中,Image类型文件分享次数最多,其次是Video和Audio类型的文件.这三类文件的分享次数占文件分享总次数的比率高达91.5%,而Folder、Music、File三类文件的分享比率相对较少.各类型文件的分享比率如图2所示.

我们分析了用户分享文件的类型情况.通过分析发现,50%左右的用户只分享了一种类型的文件,只有不到20%左右的用户分享了三种类型的文件.图3展示了用户分享不同类型文件的情况.由图可知,随着文件类型的增多,参与分享的用户迅速减少.这说明用户对分享的文件有很强的倾向性.我们还对各类型用户进行比较,结果如图4所示.由图可知,Video、App、Image、Audio类型的用户数所占比率较大,达到了97.9%.而Folder、File、Music类型的用户数相对较少.

图2 类型文件分享数Fig.2 Share times of different types of files

图3 用户分享文件类型数Fig.3 Number of file types shared by each user

图4 类型用户数Fig.4 Type user number

在图2和图4中,App、Audio、Image、Video类型的用户数和文件分享数占比较大.文件分享数和类型用户数之间并不是正比关系,即文件分享数大并不意味着相应的类型用户数多.比如,App类型文件分享数占比较少,但App类型用户却占比较大;Image类型文件分享数占比最大,但其用户数却占并不是最高.这说明用户在分享文件时有很强的倾向性,喜好明显.综合以上分析,本文认为在以Xender为代表的、致力于文件共享的D2D移动社交网络中,用户参与文件传播的程度和用户对传播内容的偏好等因素对用户影响力有直接影响.

4 多维度用户影响力分析方法

本文将用户影响力表达为一个多维向量,每一维表示用户对一种类型文件传输的影响力.影响力的维度由社交网络中传播的文件类型总数m决定,影响力的计算模型则与文件传播特性、用户传播行为等方面的因素相关.

4.1 文件传输行为矩阵

在D2D移动社交网络中,用户ui与各个好友之间的不同文件类型的文件传输行为可以用矩阵表示.

其中,矩阵的每一列代表用户ui与其某一好友之间的文件传输行为;矩阵的每一行代表用户ui与其各个好友之间的传输某一类型文件的行为.故,此m×n矩阵表示用户ui有n个好友,传输了m种文件类型的文件.其中,ckj表示用户ui给用户uj传输tk类型文件的文件总数.

模型fri(ui,uj,tk)用来判断用户uj是否为用户ui的tk类型好友,该模型由式(1)描述.若fri(ui,uj,tk)=1则用户uj是用户ui的tk类型好友.反之,则不是.据此,用户ui的tk类型好友数Fsum(ui,tk)可依式(2)计算,用户ui发送的tk类型文件总文件数Dsum(ui,tk)可依式(3)计算,用户ui发送的总文件数Dsum(ui)可依式(4)计算.

(1)

(2)

(3)

(4)

4.2 影响力计算模型

本文用多维向量描述用户影响力,每个向量分量表示用户对某类型文件的影响力.本文引入了用户接触率和用户扩散率来描述用户参与文件传播的程度和用户对文件类型的偏好,并利用这两个概念来刻画影响力分量.

定义4. 用户接触率:指用户为某种特定类型用户的概率,反映用户参与传播特定类型文件的可能性.具体来讲,用户对tk类型文件的接触率可记为Touch(tk),其值可根据式(5)计算.

(5)

特别说明,若用户多次发送同一文件给同一用户,文件传输次数按一次计算.

定义5. 文件扩散率:指传输的某个文件为某种特定类型的概率. 具体来讲,传输的文件为tk类型的概率即为该类文件的扩散率,记为Spread(tk),其值可根据式(6)计算.

(6)

Ik表示用户对tk类型文件传输的影响力,可根据式(7)进行计算.

(7)

根据式(2)、(3)和(4),式(7)可转换为式(8)

(8)

基于以上分析用户的综合影响力表示为:

(9)

(10)

5 实验结果分析

根据多维度用户影响力计算模型度量用户对各类型文件传输的影响力,用户影响力分量计算结果如图5所示.

在图5中,App、Audio、Image、Video类型用户影响力取值范围主要集中在100-103之间,Folder、File、Music类型用户影响力取值范围主要集中在100-101之间.这是因为Folder、File、Music类型用户数比其他四种类型用户数少,而且这三种类型文件分享数比其他四种类型文件分享数也少.各类型用户影响力取值均符合长尾分布,则说明高影响力值的各类型用户人数较少,而低影响力值的各类型用户人数较多,也就是说,少部分人影响大部分人.

图5 用户影响力分量Fig.5 User influence component

图6 用户影响力Fig.6 User influence

从用户总影响力角度分析,用户数与用户影响力之间的关系如图6所示.在图6中,用户影响力取值范围主要集中在100-103之间.人数最多的用户影响力取值在101左右说明大部分用户的总体影响力不高,而拥有极低或极高的用户总体影响力的用户人数很少.

6 结 语

本文主要研究致力于文件共享的D2D移动社交网络中的用户影响力.通过对传输文件进行分类,建立基于文件类型的用户影响力模型,并利用该模型在真实数据集上对用户影响力进行了分析.分析结果表明:

1)用户对不同类型文件的影响力不同;

2)用户的影响力值与对应用户数成长尾分布.

下一步将开展对用户综合影响力的研究和评价工作.

猜你喜欢

用户数好友影响力
我国IPTV总用户数3.07亿户,同比增长6.7%
属羊
天才影响力
删除好友
黄艳:最深远的影响力
3.15消协三十年十大影响力事件
传媒不可估量的影响力
雪花特快专递
支付宝用户数达到两亿