APP下载

新浪微博转发数的幂律分布现象

2015-04-29张宁饶婕张书卿陈虹罗杨

计算机时代 2015年3期
关键词:新浪微博

张宁 饶婕 张书卿 陈虹 罗杨

摘 要: 网络是一个包含了大量个体及个体之间相互作用的系统,近年来在对复杂网络的研究过程中,科学家们发现了众多的幂律分布现象。不仅网页的点击次数存在幂律分布现象,微博也同样存在着幂律分布现象。利用新浪微博的API技术抓取了新浪微博数据,对其进行了详细的数据清理和统计,对统计结果进行分析发现,新浪微博的转发数也同样存在着幂律分布现象。只有为数不多的微博,才能被大量的阅读和转发,进而成为热点微博,而绝大多数微博的阅读次数和转发次数都是非常少的。

关键词: 新浪微博; 转发数; 幂律分布; Zipf定律

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)03-33-03

Abstract: Network contains a large number of interaction between the individual and the individual system.In recent years, the scientists find a large number of power-law distribution phenomenon in the research of complex networks. The power-law distribution phenomenon exists not only in the page clicks, but also in the number of micro- blog access. In this paper, we use API technology of Sina micro-blog to capture the recent micro-blog data, make the data cleaning and statistic , by analysing the final statistical results,we find that the phenomenon of power-law distribution also exists in the number of forwards in Sina micro-blog. Only a few micro-blog, can be a hot micro-blog which has a large number of reading and forwarding,in contrast the vast majority of others have very few number of reading and forwarding.

Key words: Sina micro-blog; number of forwards; phenomenon of power-law distribution; Zipf's Law

0 引言

全球复杂网络权威、无尺度网络的创立者、匈牙利计算机学会冯·诺依曼金质奖章获得者Barabasi揭开人类行为背后隐藏的 “爆发”模式,指出人类活动模式不是随机的,而是具有“爆发性”的。爆发的本质规律就是幂律分布。幂律分布现象的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。著名的Zipf定律是幂律的主要形式之一,哈佛大学的语言学专家Zipf发现,如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系。这一定律表明:只有极少数的单词被经常使用,而绝大多数单词很少被使用。幂律分布的通式可记为y=cx-r,重要特征是个体的尺度相差悬殊,缺乏一个具有代表性的规模,或者说,存在“爆发”(或称“涌现”)现象。

本文抓取了新浪微博的微博数据,并获得转发数,对微博的转发现象进行统计并试着分析产生该现象的原因。

1 抓取数据来源说明

数据来源于新浪微博8月份实时微博。考虑到每天新浪微博的数据量巨大,每天新产生微博约1亿条左右。随机抽样需要样本空间巨大。所以我们采取随机抓取关注列表里的820人的微博

1.1 数据抓取技术

数据的抓取是基于新浪API的信息获取。新浪微博 API 是应用编程接口(Application Programming Interface)的缩写。开放API就是“在互联网时代,把互联网产品的服务封装成一系列计算机易识别的数据接口开放出去,供第三方开发者使用”。微博开放平台包含了新浪微博平台海量的微博信息、用户间的关注关系以及随时随地信息的扩散式的传播机制。通过API,用户可以实时地获取监控微博账号的各种相关数据,包括微博的转发数,评论数等。用户使用新浪微博API的前提是需要通过身份认证。OAuth用户身份认证:开放授权(OAuth)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密资源(如照片、视频、联系人列表),而无需将用户名和密码提供给第三方应用。因此,OAuth 为新浪微博API提供了一个安全、高效的认证机制,其具体过程如下。

⑴ 用户向新浪微博开放平台提出开发者服务申请,提交实名身份认证。

⑵ 向新浪微博开放平台OAuth服务商提交创建应用请求,获得应用资料,并将其中的应用编号App Key和应用口令App Secret写入认证程序配置文件。

⑶ 利用新浪微博 SDK 提供的认证程序,向新浪微博服务器提交API使用申请,填写申请者微博账号、口令,获取第三方软件应用许可。

⑷ 申请成功后,服务器在浏览器返回URL地址中提供一个由32位十六进制数组成的认证码Access_code,用户将此认证码提交给认证服务器,服务器同意用户请求,

向其颁发通过新浪微博授权的API调用令牌Access_Token与对应的密钥。

⑸ 用户利用此令牌作为参量调用相应的API接口。通过上述OAuth认证登录新浪微博开放平台成功后,用户便可调用开放平台的各种接口,令牌使用期限为24小时,超过期限后需重新进行认证才能继续调用API接口。

1.2 转发数获取

2 数据统计分布情况

所统计的微博数量去除重复后,共计4253条。以2000为区间单位,统计转发数落在每个区间内的微博条数。统计表明,以转发数在0-2000区间内的微博最多,共计3963条。最少的转发数区间的微博条数为0条,极差为3963。按微博转发数分段统计情况如表2和图2所示。可以判断,转发数的分布范围很大,一定程度上符合Zipf定律,存在“爆发”现象。

从表2和图2可见,微博转发数分布较大程度上符合Zipf定律。热门的微博非常少,越冷门的微博数量越多。其中,转发数在区间0-2000的微博数明显高于其他区间,可视为“爆发点”。在该区间内,主要分布的大多是粉丝人数较少的用户发布的微博,没有庞大的粉丝基础,所以转发数普遍很低。还有一部分微博虽然是有粉丝数较多的用户发布的,但是该微博不能吸引用户的兴趣,不能成为热点事件,转发数也就普遍偏低。其中转发数最高的微博为张杰在发布新单曲“我在这”时,自己在路上边走边拍摄的一段视频,该微博转发数介于82000-84000区间。

3 原因分析

新浪微博中的幂律分布现象属于复杂网络中普遍存在的幂律分布现象的一种。在网络动态演化的过程中,成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本原因。所谓成长性是指网络节点数的增加,在本文中主要指新浪微博数量的增加,新微博的增加更多的是依靠大多数没有巨大粉丝数量基础的普通用户发布的,也包括有巨大粉丝数量基础的用户所发布的那些不能引起用户兴趣和转发欲望的微博。优先连接性是指,转发数高的热门微博总是由粉丝数量基础巨大的用户发布或者转发,比如,一条新的有转发价值的微博由普通用户直接发布后,因为该用户的粉丝数量很少,也不能被大量的用户阅读和转发,往往是这条微博在自己的少量用户的粉丝圈里转发后就被新热点微博淹没掉了。如果该条微博被粉丝数量基础巨大的用户转发后,能阅读和转发该微博的用户呈现出跳跃式增加的方式增多,就会被大量粉丝用户转发,而转发次数就呈现飙升的现象。并且随着时间的演进,微博的转发数逐渐呈现出一种转发数多的会被转的更多,转发数少的微博直接被淹没掉的现象。

参考文献:

[1] 姚科.开放API:新浪微博必经之路[J].互联网天地,2010.8:73-74

[2] 胡海波,王林.幂律分布研究简史[J].物理,2005.12:889-890

[3] 黄延炜,刘嘉勇.新浪微博数据获取技术研究[J].信息安全与通信保

密,2013.6:71-72

[4] 张嗣瀛.复杂系统、复杂网络自相似结构的涌现规律[J].复杂系统与

复杂性科学,2006.4:41-51

[5] 胡泳.幂律分布[J].商务周刊,2009.22:94

[6] 方爱丽,高齐圣,张嗣瀛.引文网络的幂律分布检验研究[J].统计与决

策,2007.14:22-24

猜你喜欢

新浪微博
我国省级图书馆微博的社会网络分析
新浪微博数据爬取研究
新浪微博热点事件的舆论传播与群体心理
新浪微博娱乐明星的社会网络分析
社交媒体平台医患关系报道特点研究
微博的社会公信力现状探究及其未来构建研究
社交媒体的用户生成内容(UGC)动机浅析
网络媒体与传统媒体议程设置互动机制研究
微博中群体极化的呈现方式及动力机制探析