H7N9疫情背景下的微博信息传播特性研究

2016-07-19刘宝立董荣胜蔡国永

计算机应用与软件 2016年6期

关键词：幂律博文宽度

刘宝立　董荣胜　蔡国永

(桂林电子科技大学广西可信软件重点实验室　广西桂林 541004)

H7N9疫情背景下的微博信息传播特性研究

刘宝立董荣胜蔡国永

(桂林电子科技大学广西可信软件重点实验室广西桂林 541004)

摘要自主研制微博爬虫系统WeiboCrawler。针对2013年3月爆发的甲型H7N9流感疫情，使用该系统抓取了新浪微博中与该主题相关的数据集，包括用户信息、原创和转发博文信息。以原创博文为根节点，基于转发关系采用递归方法构造博文转发树，为了严格、清晰地描述微博信息传播过程，对博文转发树进行形式化定义，进而研究微博信息传播过程及转发树的大小、深度、宽度等结构特性。结果表明：博文转发树的结构特性分布符合长尾分布，博文转发树具有深度小、密度大的结构特性；博文流行程度取决于博文转发树的宽度，而与博文转发树的深度无关；在博文转发的不同阶段，信息传播表现出相似的传播特性。考虑微博平台信息传播的特点以及博文转发树的结构特性，结合Galton-Watson分支过程,给出一种新的信息流传播模型，使用该模型对博文转发树的大小、深度、宽度三项结构特性进行仿真，发现该模型能较准确地体现信息传播的结构特性。

关键词转发信息传播结构特性社交网络传播模型

0引言

社交媒体作为传播观点和意见的重要平台在近年来得到了巨大的发展，其中最具代表性的是微博客服务。微博客服务为信息传播提供了一种独特的方式，用户在使用微博客推送消息时，消息受到字数限制。在新浪微博和twitter中，用户推送的消息内容不能超过140个字符，微博客用户之间的关系无需一定是双向关注关系，也就是说，如果用户A关注了用户B，无需用户B也关注用户A，用户A的个人主页中就会显示用户B发布的博文。新浪微博作为在中国大陆最受欢迎的社交媒体之一，自从2009年发布以来，积累了巨大的用户群，截止到2013年12月，新浪微博的月活跃用户(MAU)数量和日活跃用户(DAU)数量分别达到了1.291亿和6160万[1]。如此巨大的用户数量以及新浪微博本身便于信息传播的特点，使得新浪微博中信息的传播和共享达到了前所未有的高度。

微博客服务具有用户数量巨大、通信迅速和跨平台等特性，这些特性使其迅速成为社会热点事件期间信息传播的重要媒介。对微博客服务中的信息传播进行的研究有很多[2-5]，但是有一个方面没有得到应有的关注，即微博客平台中信息传播的结构特性研究，也就是微博客服务中信息传播的实际机制是怎样的。

社交媒体中的信息传播具有一定的结构特性，结构特性指的是信息传播的深度、广度等特性，文献[6]研究了网络连锁信中信息传播的结构特性。那么在微博客服务中，特别是在特定的应急事件背景下，信息传播的结构特性是怎样的呢？若能构建一种相应的信息传播模型来对这些结构特性进行仿真，显然是具有价值的。研究信息传播的结构特性为信息传播模型的设计提供了参考，也能够为舆情监控、应急事件响应提供有价值的信息。本文以2013年3月底中国大陆爆发的甲型H7N9流感疫情为主题背景。研究的微博数据集来源于新浪微博，包括与H7N9流感相关的原创微博数据、转发微博数据以及所有的原创用户和转发用户信息。为了研究微博信息传播的结构特性，基于微博转发功能递归构造了博文转发树，并对其进行了形式化定义。在此基础上对微博信息传播的过程和结构特性进行了实证研究，研究发现博文转发树结构特性表现为传播宽度大、浓度密集；博文最终的流行程度取决于博文转发树的宽度，而与转发树的深度无关。以基本结构特性分析为基础，对博文转发树中不同层次的博文转发进行了研究，发现信息传播在不同的阶段表现出了相似的传播特性。以结构特性研究为基础，结合Galton-Watson分支过程构建了一种新的信息传播模型，使用该模型对博文转发树的结构特性进行了仿真，得到了与实际情况较吻合的效果。

1相关工作

社交媒体中的信息传播已经成为了一个热门的研究领域。Lerman等[7]对Twitter和Digg社交网络上的信息传播进行了实证分析发现了网络结构会影响信息流的传播动力学特性，具体来说由于Digg相比于Twitter具有更浓密的网络结构，因此Digg中信息传播的速度更快，而Twitter中信息传播的更远；Suh等[8]对影响twitter博文转发率的因素进行了研究，发现在博文的内容特征方面，URLs和Hashtag与博文受到转发具有很强的关系。

微博客服务在近年来政治活动期间的信息传播中扮演了重要的角色，其中最著名的例子是奥巴马总统在2008年的选举中成功的利用了社交媒体。有关这方面的研究工作也有很多，Stieglitz等[9]研究了Twitter中与政治相关的微博中的情感信息是否会影响其转发速率；Starbird等[10]研究了2011年埃及政治起义期间微博信息传播活动。

应急事件期间的通信是非常重要的，近年来，微博客服务作为信息传播的重要媒介，为各种应急事件期间的有效通信发挥了重要的作用。Li等[11]以2011年日本福岛地震和海啸后的核辐射危机为背景，研究了具有警告和安抚意味的相关微博转发模式，发现当政府部门发布比普通民众更多的具有安抚作用的微博后，那么政府部门发布的信息会慢慢失去影响力；有关地震灾害期间网民如何使用社交媒体进行应急响应的研究包括[12,13]；另外Mendoza等[14]探索了2011年智力发生地震后twitter用户的行为，特别研究了真实消息和错误谣言的传播情况。

社交媒体信息传播还包括另一个研究领域，也就是对建立信息传播分析模型的研究。Galuba等[15]研究了Twitter中含有URL信息的传播，并提出了使用LT(线性阈值模型)模型来对用户会转发哪些URL信息进行预测;Yang等[16]基于LT模型构建了LIM(线性影响力模型)来预测信息传播过程中节点之间的交互；Cha等[17]引进级联模型研究Fickr社交网络中信息的传播。

2数据获取与说明

本文的数据集是与2013年3月底中国大陆爆发的甲型H7N9流感相关的新浪微博数据。数据的获取采用自主研制的微博爬虫系统WeiboCrawler并结合新浪微博开放API完成，新浪微博提供开放的API，用户可以在经过新浪微博开放平台认证的情况下获得相应数据获取权限，这一点与Twitter提供的API类似。

微博爬虫系统获取数据的一个重要前提是微博的模拟登陆过程。新浪微博模拟登录过程是WeiboCrawler与新浪微博服务器之间建立数据请求连接的前提。微博登录过程中密码加密采用的是RSA公钥加密算法。具体加密过程如下：

username_=urllib.quote(username)

username=base64.encodestring(username)[:-1]

rsaPublickey=int(pubkey, 16)

key=rsa.PublicKey(rsaPublickey, 65537)

message=str(servertime) +′ ′ +str(nonce) + ′ ′ +str(password)

passwd=rsa.encrypt(message,key)

passwd=binascii.b2a_hex(passwd)

对用户名和密码进行加密，在建立请求连接时作为授权信息发送给服务器，获取请求返回的内容，从而实现了模拟登录。

图1展示了WeiboCrawler系统的数据获取流程。数据获取流程分为三步：(1) 首先使用WeiboCrawler系统向新浪微博高级搜索页面发送搜索请求，然后通过关键词匹配找出与H7N9相关的所有原创博文页面，接下来从页面中提取出所有的原创博文ID；(2) 以上一步中得到的原创博文ID为线索，调用新浪微博API中的statuses/show()接口，通过该接口可以得到每一条原创博文信息及其对应的博主信息；接下来调用API中的statuses/repost_timeline()接口，以原创博文作为根节点，逐层遍历当前博文的转发博文及其用户信息，同时提取博文间的转发关系；(3) 最后调用friendships/show()接口获取存在转发关系的用户之间的关系类型，并根据博文转发关系构建原创博文的转发树。

图1　数据获取流程图

数据集合的描述性信息如表1所示。最终得到的数据集合包括52 679条原创博文、1 728 850条转发博文，博文信息属性包括博文ID、博文用户ID、博文创建时间、文本信息、博文获得的转发次数以及评论次数等属性；另外还包括1 314 778个用户信息，用户信息属性包括ID、地理位置、帐号注册时间、粉丝数量、好友数量以及发表的博文数量等属性。

表1　数据集合描述

3博文转发树形式化定义

本部分对博文转发树进行形式化定义。每一棵博文转发树都由某一条原创博文及其对应的转发博文组成。首先给出博文的结构定义，然后给出博文转发树的形式化定义。博文集合用TS表示，其中包括原创博文OT和转发博文RT。博文转发树集合用TRTS表示(共有22 364棵博文转发树)。

3.1博文结构

博文分为原创博文和转发博文，下面分别对原创博文OT和转发博文RT的结构进行形式化定义：

定义1

OT=〈id，user，time，text，repostCount，commentCount〉

其中：

id表示原创博文的编号，每一条原创博文都有一条唯一的编号；

user表示博文OT的博主；

time为日期类型数值，表示OT创建的时间；

text为文本类型数据，表示OT的内容；

repostCount，表示博文OT被转发的次数；

commentCount，表示博文OT获得的评论次数；

定义2

RT=〈st_id，id，user，time，text，repostCount，commentCount〉

其中：

st_id(sourcetweetid)表示与该转发博文具有直接转发关系的源博文(可能为转发博文，也可能为原创博文)的编号;

id表示该转发博文的编号，每一条转发博文都有一条唯一的编号;

user表示博文RT的博主；

time为日期类型数值，表示RT创建的时间；

text为文本类型数据，表示RT的内容；

repostCount表示博文RT被转发的次数；

commentCount表示博文RT获得的评论次数；

3.2博文转发树TRT

为了研究信息传播结构特性，递归构造每一条原创博文的博文转发树，该博文转发树是有向的并且属于根树，如图2所示。树的根节点(OT)表示原创博文，树中的其他节点(RTi)表示该原创博文的所有转发博文。

图2　博文转发树

图2是博文转发树的一个实例，其中：

OT∈{OT|(OT∈TS)∧(OT.repostCount>0)}

其中，RTi表示该原创博文的所有转发博文，博文转发树有四个重要的结构特性，即树的大小(size)、树的深度(depth)、树的宽度(width)、树的度(degree)。

下面给出博文转发树TRT∈(TRTS)的形式化定义：

定义3

TRT=〈N，E，Ndegree，size，depth，level，Li_d，width，degree〉

其中：

N表示转发树中的节点，对应博文；

E表示有向边，对应转发关系；

Ndegree表示节点度，指的是节点具有的孩子数量，也就是某一条博文的直接转发数量；

size表示转发树的大小，对应转发树中的博文总数,size=OT.repostCount+1；

depth表示转发树的深度，指的是从根节点到叶子节点的最长路径长度；

level为博文转发树的层次，其中0≤level≤depth；

Li_d指转发树的层次度，也就是转发树第i层节点度最大的节点的度；

width表示转发树的宽度，宽度等于具有最多节点数量的那一层的节点数量和；

degree表示转发树的度，指的是转发树中节点度最大的节点的度；

由上述博文转发树的定义可知，图2中的转发树的大小为9，树的深度为3，树的宽度为5，树的度为3(节点RT1的节点度)，RT1处于博文转发树的第1层，该博文转发树的第一层的层次度为3。

4信息传播结构特性实证研究

本部分对信息传播的结构特性进行实证研究，博文转发树提供了有关信息传播的重要描述性信息，博文转发树的大小反映博文的受欢迎程度相关；博文转发树的深度与博文的穿透力相关；博文转发树的宽度与博文的扩散能力相关；博文转发树度的分布反映转发树中的关键节点，因为一棵博文转发树的度指的是转发树中节点度最大的节点的度。

H7N9数据集合中共包含22 364棵博文转发树(不考虑未被转发的原创博文，也就是转发次数为0的原创博文没有考虑)，每一棵转发树都可以被看作是一棵有向树，信息从一个节点传播到另一个节点。这里主要关注两个问题：(1) 信息传播过程的结构特性有哪些？(2) 信息的传播过程是否具有阶段依赖性，即信息的传播在转发树的不同层次中是否会表现出不同的特征？我们发现，与文献[6]中的宽度小、深度大的传播树型结构特征相比，H7N9博文转发树呈现出密度大、深度小的特征；另外信息的传播过程不具有阶段依赖性。

4.1博文转发树的结构特性

根据3.2节中对博文转发树的形式化定义，对博文转发树的大小、宽度、深度、度四项结构特征属性进行了统计分析。

图3-图6分别显示了博文转发树的大小、宽度、深度和度四项结构特征属性的分布情况。

图3　博文转发树大小分布　　图4　博文转发树宽度分布

图5　博文转发树深度分布　　图6　博文转发树度分布

四项结构特征属性的统计公式依次为(说明：|A|表示集合A中元素的数量)：

(1)

(2)

(3)

(4)

其中，|TRTS|表示转发树集合的大小，对于任一点坐标(k，PTRT.size=k)，其统计意义是(以式(1)为例)：转发树大小为k的转发树在所有转发树中所占的比例。

对数据进行了线性拟合，线性拟合采用的幂律分布函数为：p(X=x)=c·x-γ，其中c，γ∈R+，x∈N+，置信度设为95%。

首先从四项特征属性的分布情况可以看出其均具有长尾分布特征，这说明绝大多数的转发树的大小、宽度、深度、度都非常小，属性值很大的转发树只占非常小的一部分。从图3、图4可以看出博文转发树的大小和宽度均服从幂律分布，幂律分布指数分别为1.447、1.507。幂律分布本身并没有什么特别之处，但是这两者的幂律指数很相似，这表明博文转发树的大小会随着树的宽度的变大而增大。可以将树的宽度看做扩散系数，将树的大小用来衡量博文的受欢迎程度，那么可知扩散系数会影响博文最终的受欢迎程度，图7很好地表明了博文转发树的这一特点。从图8可以看出博文转发树的深度与博文转发树的大小无关。博文转发树具有的另一个特点是深度很小，在22 364棵博文转发树中，有77%的博文转发树的深度都不超过2。结合这四项结构特征属性分布可知，对于博文转发树集合中大小、宽度、度都很大的那一部分转发树来说，它们的深度很浅，这体现了博文转发树具有密度大的特点。大量的节点都聚集在树的有限的几个层次中，另外博文转发树深度小、密度大的特点也体现了微博平台中信息传播的有效性，即信息扩散到大量的节点后迅速消散衰减。

图7　博文转发树的大小与宽度的关系图8　博文转发树的大小与深度的关系

4.2信息传播的阶段无关特性

在4.1节中对基本结构特性研究的基础上，本节研究信息传播是否与传播阶段相关，也就是在不同的阶段，信息传播过程是否会表现出不同的特性。图9展示了博文转发树不同层次的层次度(即Li_d，某一层中节点度最大的节点的度)分布。由于大多数的博文转发树的深度都很小，因此只给出了博文转发树第0层(根节点所在的层次)到第3层的度分布情况。

图9　博文转发树的不同层次度分布

对于任一点坐标(k，P(k|level=i))，统计公式如下：

(5)

其中i∈{0，1，2，3}，概率P(k|level=i)表示具有第i层且该层层次度为k的转发树在所有的转发树中所占的比例。第0层到第3层的幂律分布指数依次为1.531、1.403、1.487和1.484。从图9中首先可以看出具有大量孩子的节点很少会出现在树的深层次中；另外由不同层次的幂律分布指数可知，随着树的层次的加深，幂律指数的分布并没有太大的变化，这与文献[18]中所提到随着树的深度的增加幂律指数分布会变得更加“陡峭”的现象不同，体现了该数据集中的微博信息传播在不同的阶段的传播机制不会有太大的变化。我们认为导致这种现象的原因一方面是不同的社交平台的机制不同，另一方面是由于H7N9疫情具有突发性的特点，这一特征可以为微博平台中信息传播预测模型的设计提供有价值的参考。

5信息传播仿真模型

微博空间信息传播过程构成了博文转发树集合，博文转发树的结构特性表现为深度小、密度大。结合信息传播的网络结构特性和微博平台信息传播的特征，本部分构建一个基于Galton-Watson[19]分支过程的新的信息传播模型对博文转发树的结构特性进行仿真。

5.1模型构建

Galton-Watson分支过程是概率论中生成随机树的一个经典模型，是随机图理论中的重要部分，它曾被成功地用来进行家族姓氏演变消亡过程的模拟[20]。家族姓氏演变消亡的过程与微博平台信息传播的过程具有很大的相似之处，一个家族中的男性控制着家族姓氏的演变消亡，而在微博平台中信息的传播依赖于转发博文的用户。因此选择采用Galton-Watson过程来对微博信息传播进行仿真。但微博平台中的信息传播与家族姓氏的演变存在一个关键的不同，在微博平台中信息的传播具有快速扩散、迅速消亡的特点，而家族姓氏演变消亡的过程则要慢得多。考虑到微博平台信息传播这一关键特性，在仿真模型中考虑在特定情况下结束信息扩散过程。

综合以上考虑，构建如下信息传播模型：

(1) 设P(m)是关于一系列独立同分布的固定概率;

(2) 每一棵博文转发树TRT的形成起始于根节点，并以离散的步骤进行。在形成博文转发树的第i层时，第i层的每一个叶子节点按照概率P(m)独立生成一定数量的孩子节点，即叶子节点具有m个孩子的概率为P(m)；

(3) 当m=0时，N是一个叶子节点，当m>0时，将节点N加入到博文转发树的第i+1层；

(4) 引入一个信息传播结束概率k，表示到达博文转发树第n层时信息结束传播的概率，即博文转发树能够到达第n层的概率pn如下：

pn=k(1-k)n-1

(6)

由以上定义的模型可知，该模型包含两个参数：分布概率P和信息传播结束概率k。对于分布概率P(m)，使用最大似然估计法进行计算，设T(x)为该模型下生成博文转发树x的概率，f(m,x)为博文转发树x中具有m个孩子节点的节点数量，P(m)为博文转发树x中具有m个孩子节点的节点概率，则可得如下等式：

T(x)=∏mP(m)f(m,x)

(7)

由式(7)有如下对数似然函数：

(8)

根据最大似然估计法对P(m)求导得：

(9)

从式(9)可知P(m)等于博文转发树中具有m个孩子节点的节点比例。对于概率k，计算方法如下：将公式pn=k(1-k)n-1与博文转发树的深度分布进行拟合，拟合结果如图10所示，得到k的值为0.46。

图10　博文转发深度拟合

5.2模型验证

根据5.1节中对信息传播模型的定义，本部分对模型进行验证。量化后的参数P(m)如表2所示，由于不同的孩子节点数量值较多，此处只给出占比例较大的部分。参数k的值为0.46。

表2　参数P(m)

将量化后的参数代入传播模型进行仿真，得到生成的博文转发树结构特性数据集合,共22 364棵博文转发树，仿真结果如图11-图13所示。

图11　博文转发树大小分布仿真结果图12　博文转发树宽度分布仿真结果

图13　博文转发树深度分布仿真结果

仿真实验采用的是Matlab工具，从图11-图13可以看出博文转发树的大小、宽度和深度分布均服从幂律分布，在这里采用与4.1节部分同样的方法对数据进行了线性拟合。线性拟合采用的幂律分布函数为：p(X=x)=c·x-γ，其中c，γ∈R+，x∈N+，置信度设为95%。仿真得到的博文转发树大小、宽度和深度幂律指数依次为1.412、1.464和3.640，这与真实博文转发树中的幂律指数(实际博文转发树大小、宽度、深度幂律指数依次为1.447、1.507和3.976)分布较为吻合，这说明该传播模型能较准确的模拟真实的信息传播情况。

6结语

本文以2013年3月底中国大陆爆发的甲型H7N9流感疫情为主题背景，微博数据集合来源于新浪微博，利用博文之间的转发关系，构造了每一条原创博文的博文转发树，分析了H7N9疫情期间新浪微博中信息传播的结构特性。对博文转发树的四项结构特征属性进行研究发现博文转发树具有密度大、深度小的结构特性，博文最终的流行程度受博文转发树宽度的影响，微博信息传播在不同的传播阶段表现出了相似的传播特性。根据真实数据集合表现出的结构特性，结合Galton-Watson分支过程构建了一种新的微博信息传播模型，使用该模型进行仿真得到的结果较准确地反映了信息传播的结构特性。这些发现能够为微博平台中信息传播预测、舆情监控引导和应急事件响应提供有价值的信息。

参考文献

[1] 新浪微博关键数据:月活跃用户[EB/OL].http://tech.qq.com/a/20140315/004999.htm.

[2]ZhengbiaoGuo,ZhitangLi,HaoTu.SinaMicroblog:AnInformation-drivenOnlineSocialNetwork[C]//InternationalConferenceonCyberworlds,2011:160-167.

[3]DongWang,HosungPark,GaogangXie,etal.AGenealogyofInformationSpreadingonMicroblogs:aGalton-Watson-basedExplicativeModel[C]//ProceedingsofIEEEINFOCOM,2013:2391-2399.

[4]EytanBakshy,ItamarRosenn,CameronMarlow,etal.TheRoleofSocialNetworksinInformationDiffusion[C]//Proceedingsofthe21stInternationalConferenceonWorldWideWeb,2012:519-528.

[5]PengyiFan,PeiLi,ZhihongJiang,etal.MeasurementandAnalysisofTopologyandInformationPropagationonSina-Microblog[C]//IEEEInternationalConferenceonIntelligenceandSecurityInformatics,2011:396-401.

[6]DavidLiben-Nowell,JonKleinberg.TracinginformationflowonaglobalscaleusingInternetchain-letterdata[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2008,105(12):4633-4638.

[7]KristinaLerman,RumiGhosh.InformationContagion:AnEmpiricalStudyoftheSpreadofNewsonDiggandTwitterSocialNetworks[C]//ProceedingsoftheFourthInternationalAAAIConferenceonWeblogsandSocialMedia,2010:90-97.

[8]BongwonSuh,LichanHong,PeterPirolli,etal.WanttobeRetweeted?LargeScaleAnalyticsonFactorsImpactingRetweetinTwitterNetwork[C]//IEEESecondInternationalConferenceonSocialComputing,2010:177-184.

[9]StefanStieglitz,LinhDangxuan.PoliticalCommunicationandInfluencethroughMicroblogging-AnEmpiricalAnalysisofSentimentinTwitterMessagesandRetweetBehavior[C]//Proceedingsofthe45ndHawaiiInternationalConferenceonSystemSciences,2012:3500-3509.

[10]KateStarbird,LeysiaPalen.(How)WilltheRevolutionbeRetweeted?InformationDiffusionandthe2011EgyptianUprising[C]//ProceedingsoftheACM2012conferenceonComputerSupportedCooperativeWork,2012:7-16.

[11]JessicaLi,ArunVishwanath,HRaghavRao.RetweetingthefukushimanuclearRadiationDisaster[J].CommunicationsoftheACM,2014,57(1):78-85.

[12]YanQu,PhilipFeiWu,XiaoqingWang.OnlineCommunityResponsetoMajorDisaster:AStudyofTianyaForuminthe2008SichuanEarthquake[C]//Proceedingsofthe42ndHawaiiInternationalConferenceonSystemSciences,2009:1-11.

[13]YanQu,ChenHuang,PengyiZhang,etal.MicrobloggingafteraMajorDisasterinChina:ACaseStudyofthe2010YushuEarthquake[C]//ProceedingsoftheACM2011conferenceonComputersupportedcooperativework,2011:25-34.

[14]MarceloMendoza,BarbaraPoblete,CarlosCastillo.TwitterUnderCrisis:CanwetrustwhatweRT?[C]//ProceedingsoftheFirstWorkshoponSocialMediaAnalytics,2010:71-79.

[15]WojciechGaluba,KarlAberer,DipanjanChakraborty,ZoranDespotovic,WolfgangKellerer.OuttweetingtheTwitterers-PredictingInformationCascadesinMicroblogs[C]//Proceedingsof3rdWorkshoponOnlineSocialNetworks,2010:1-9.

[16]JaewonYang,JureLeskovec.ModelingInformationDiffusioninImplicitNetworks[C]//IEEEInternationalConferenceonDataMining,2010:599-608.

[17]MeeyoungCha,AlanMislove,KrishnaPGummadi.Ameasurement-drivenanalysisofinformationpropagationintheflickrsocialnetwork[C]//Proceedingsofthe18thinternationalconferenceonWorldwideweb,2009:721-730.

[18]RaviKumar,MohammadMahdian,MaryMcGlohon.DynamicsofConversations[C]//Proceedingsofthe16thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2010:553-556.

[19]GaltonF,WatsonHW.Ontheprobabilityoftheextinctionoffamilies[J].InMendelianHeredity,AnnalofMathematicalStatistics,1944,4:385.

[20]WilliamJReed,BarryDHughes.Onthedistributionoffamilynames[J].PhysicaAStatisticalMechanicsanditsApplications,2003,319(7):579-590.

STUDY ON CHARACTERISTICS OF MICROBLOGGING INFORMATIONDISSEMINATIONUNDERH7N9FLUBACKGROUND

Liu BaoliDong RongshengCai Guoyong

(Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)

AbstractWe researched and developed the microblogging crawler system—WeiboCrawler independently. Aiming at the type A H7N9 flu epidemic broken out in March 2013, by using this system we captured the dataset correlated with this topic from Sina microblogging, including user information, original and forwarded microblogs information. Taking the original microblog as the root node, we constructed the microblogs forwarding tree (MFT) with recursion method based on forwarding relationship. To describe the process of information dissemination clearly and strictly, we gave the formal definition on the microblogs forwarding tree, and then studied the microblogging information dissemination process and the structural characteristics of MFT in size, depth and width, etc. Result showed that the distribution of MFT structural characteristics is in line with long-tailed distribution, the MFT has the characteristics of small depth and large density, the popularity of microblogs depends on the width of the MFT but has nothing to do with the depth of MFT. At different stages of microblogs forwarding, the information disseminations show similar characteristics. Considering the characteristics of information dissemination on microblogging platform and the structural characteristic of MFT, and combining the Galton-Watson branching process, we presented a new information flow dissemination model and simulated the three structural characteristics of MFT in size, depth and width with the model, we found that this model can quite accurately reflect the structural characteristics of information dissemination.

KeywordsForwardingInformation disseminationStructural characteristicsSocial networksDissemination model

收稿日期：2014-12-04。广西自然科学基金项目(2011GXNSFA01 8156)；广西高等学校高水平创新团队及卓越学者计划；桂林电子科技大学创新团队项目。刘宝立，硕士生，主研领域：社会计算，数据挖掘，形式化技术。董荣胜，教授。蔡国永，教授。

中图分类号TP391

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.06.075