QQ群消息中的人类行为动力学研究
2011-06-06杨建梅李志宏
罗 芳,杨建梅,2,李志宏
(1.华南理工大学 工商管理学院,广东 广州 510640;2.华南理工大学 广州学院,广东 广州 510800)
一、引言
人类的动力学行为,不管是针对群体或个体,一直是社会心理学研究的中心问题之一。由于缺乏关于真实人类行为的数据,在以往的一些研究中,常常把单个人的行为简化为可以使用泊松过程描述的稳态随机过程。这种假设必然导致的推论是人的行为的时间统计特征应该是较为均匀的,两个相继行为之间存在极大的时间间隔的概率很小。自2005 年Barabási通过对实际的电子邮件发送与回复、以及邮件通信等人类行为的时间间隔统计分析之后,人们发现这些行为存在与上述假设极为不同的特性:长时间的静默与短期内的高频率的爆发,同时呈现在这些人类行为中,其时间间隔分布存在满足反比幂函数的胖尾,也就是说,这些行为的发生过程是不能用泊松过程描述的。[1-2]这一出人意料的研究结论说明人类的行为存在着复杂的动力学机制,而随之而来的一个重要的问题是,这种非泊松特性在人类行为中是不是普遍存在的?学者们对这一问题进行了极为广泛的研究。
已有学者的研究涉及在线电影点播[3],移动通信[4],维基百科[5],网站浏览[6-7],欣赏网络音乐[8]等,包含了商业行为、娱乐行为、日常使用习惯等众多的人类行为。 在这些行为中,普遍发现有偏离泊松过程的特性。这些现象显示,除了受到生理周期强烈影响的部分行为外,时间间隔统计所显示的非泊松特性可能是在人类行为中普遍存在的。
作为定量理解人类动力学行为的初始阶段,实证研究具有特别重要的意义;而在当代信息技术的飞速发展下,促使实证数据的获取更多的借助网络开展的。[9-11]因此,本文以一个QQ群成员消息记录数据库为实证对象,分析关于QQ群成员在群里两次连续发言的时间间隔分布。
二、数据说明
本文所分析的数据皆来自于QQ群(52075784)从2009年12月至2010年12月近一年的发言消息记录。QQ是近年来网络上发展最快的即时通信工具,截止2010年,QQ注册用户近10亿,注册用户可以通过QQ进行及时消息发送、传输等。QQ是互联网技术飞速发展的一个产物,且用户借助QQ展开的每一个行为(行为发生人、行为内容、行为时间)等都会有详细记录,相比于人工记录有很大的优势,这是选择QQ群作为研究对象的一个重要原因。
三、数据统计分析
所得的数据时间精确到分钟,实际处理可以及依据数据量灵活地选择一定的时间作为间隔。由于本文仅搜集了笔者一个群一年内的信息记录,在不断尝试中把秒用作发言时间间隔显得太短,星期和月,又显太长,考虑到人们的休息和工作是以天为开始和结束的。因此选择分钟作为发言时间间隔来求分布是比较合理的。
(一)群整体QQ发言时间间隔分析
在所得到的6059条数据纪录中,用户数目为92,但有很多用户从未在群里发言,或者发言的次数极少,几乎可以忽略不计。而发言次数很多的用户数目比较少,但这部分数目才是我们研究的重点。
图1给出了所得6000多条消息记录的时间间隔(τ)的累积分布。从图1的分布中可以观察到明显的胖尾现象,其中间隔最长的发言时间超过了104分钟。仔细观察图1,我们发现把发言时间间隔700分钟处作为拐点后,则可以明显的分成两段数据,即拟合过程中发生了指数截断现象,截断值为700,此时可初步判断该QQ群总体发言时间间隔累计概率分布满足SED分布,仍然具有幂律分布的一些属性,其分段直线拟合幂指数α=1.741,从这可知,QQ群整体成员发言行为符合Vázquez等提出的第二个普适类,即α=3/2。
图1 群总体QQ发言时间间隔分布
SED拟合结果如表1所示,SED拟合指数为0.207,拟合优度为0.916,表明其拟合的效果较好。由拟合优度比较可知,对QQ群所有用户的发言时间间隔进行SED拟合的优度要好于幂律拟合与指数拟合。因此,可以判断所有用户的发言时间间隔分布满足SED拟合。
表1 群整体QQ发言时间间隔拟合结果
(二)活跃用户群体的QQ发言时间间隔分析
所有用户的发言时间间隔呈现SED分布,且其分段直线拟合,接近Vázquez等提出的第二个普适类,但个人是否也符合这个规律,这是本部分的研究重点。另外,由于大部分用户的发言次数很少,只有极少数的用户发言次数多,因此我们需要对活跃用户的行为进行分析。一个在QQ里持续共享贡献的用户发言30次或以上可以说是一个活跃用户。从92个用户里筛选出44个用户,但这44个用户的发言次数为5596。而所有用户的发言次数为6059,也可以简单的说,47.8%的用户贡献了92.36%的信息共享工作。
我们沿用前面的方法对这44个用户的统计数据进行分析(图2)发现,这44个用户在QQ群里的发言时间间隔也满足SED分布,但其分段直线拟合幂指数α=0.875,符合Vázquez等提出的第一个普适类,即α=1,与总体发言时间间隔不同。这说明在QQ群发言互动中大部分用户的发言次数虽少,但对总体发言时间间隔分布的影响较大。
图2 活跃用户群体的发言间隔时间分布
对部分用户发言时间间隔进行广延指数拟合,结果如表2所示,SED拟合指数为0.212,拟合优度为0.903,表明其拟合的效果较好,比较接近于真实数据。而由拟合优度比较可知,对QQ群部分用户的发言时间间隔进行SED拟合的效果要好于幂律拟合与指数拟合。因此,可以判断QQ群部分用户的发言时间间隔分布也满足SED分布。
表2 活跃用户发言时间间隔拟合结果
(三)用户个体的QQ发言时间间隔分析
经过以上分析,我们知道QQ群总体和活跃成员发言间隔时间服务SED分布。自然的,我们会想知道个体在QQ群里的发言时间间隔是否也服从上述分布。因此,我们对每个发言次数在100次以上的成员都进行了双对数下的累计概率分布直线拟合计算,发现大部分用户的分段直线拟合斜率在-1附近波动,具有幂律分布的一些属性,而每个成员整体的时间间隔分布仍然满足SED分布。
表3 发言次数在100次以上的成员数据
图3a
图3b
图3c
图3d
图3e
图3f
图3g
图3h
图3i
图3j
图3k
图3l
图3 用户个体的QQ发言时间间隔分布
从上面数据可知,这13个成员的发言时间间隔都符合SED(广延指数)分布,仍然具有幂律分布的一些属性,但其分段拟合直线幂指数却各不相同: 其中有12个成员的幂指数α在1附近波动,这个可以用Vázquez等提出的第一个普适类,即α=1来解释;另外一个成员的幂指数α在3/2附近波动,这个可以用Vázquez等提出的第二个普适类,即α=3/2来解释。此外,分段拟合直线部分满足幂指数分布说明,时间间隔较小的发言行为间隔分布较均匀。
对这13个成员分别进行广延指数拟合,如表4所示。结果表明: 用SED拟合的优度均在0.9左右,明显高于幂律拟合与指数拟合,故可判断,QQ群个别成员的发言时间间隔分布满足SED分布;个别成员的广延拟合指数在0.2左右的有4个,剩下的均在0.15左右波动。
表4 用户个体的发言时间间隔拟合结果
四、结论与讨论
随着因特网的不断发展,人们对即时通信的需求不断增高,QQ成为越来越被普遍接受的即时通信工具,QQ群消息可以反映具有一定相关联系的一群人彼此互动的行为,因而通过研究QQ群成员发言行为可以从一个侧面了解网络上人类动力学的特征。
本文统计了一个QQ群一年内的6000多条消息记录的数据,分析了群整体、活跃用户群体和用户个体的发言时间间隔。发现:成员整体的发言时间间隔的尾部可近似用幂律分布来描述,且和Vázquez等提出的两个普适类是一致的;成员整体发言时间间隔与成员个体发言时间间隔分布更满足SED,这个发现说明仅仅把人类动力学特征简单地分成两个普适类可能是不太完整的;通过对比QQ群所有用户、活跃用户以及用户个体发言时间间隔的SED拟合结果可知,QQ群发言中的人类行为可能存在两个普适类:SED指数为0.2与0.15。
QQ群消息发言时间间隔整体服从SED分布,这与Barabási的研究中有一定区别,究其主要原因,可能是由于Barabási分析的是人类优先行为的动力学,而QQ的在线聊天是由兴趣与互动驱动的。本文的结论还需搜集数据进一步验证。
参考文献:
[1]Barabási A L.The origin of bursts and heavy tails in human dynamics[J] .Nature,2005,435:207-211.
[2]Oliveira J G,Barabási A L.Human dynamics Darw in and Einstein correspondence patterns[J].Nature,2005,437:1251-1253.
[3]周涛.在线电影点播中的人类动力学模式[J].复杂系统与复杂性科学,2008(3):1-5.
[4]顾亦然,谢鸿飞,李金发.移动通信网络中人类行为动力学的研究[J].计算机技术与发展,2010(9):57-60.
[5]谢伟聪,杨建梅.维基百科贡献者中的人类动力学模式[J].科学学研究,2010(10):1454-1458.
[6]Dezsê Z,Almaas1 E,Lukass A,et al.Fifteen minutes of fame the dynamics of information access on the web[J].Physical Review E,2006(6):066132.
[7]Goncalves B,Ramasco J J.Human dynamics revealed through Web analytics[J].Physical Review E,2008,78(2):026123.
[8]Hu H B,Han D Y.Empirical analysis of individual popularity and activity on an online music service system[J].Physical A,2008,387(23): 5916-5921.
[9]Jianmei Yang,Lvping Lu,Wangdan Xie,et al.On Competitive Relationship Networks:A New Method for Industrial Competition Analysis[J].Physica A,2007(2):704-714.
[10]Jianmei Yang,Wenjie Wang,Guanrong Chen.A two-level Complex Network Model and its Application[J].Physica A,2009(12):2435-2449.
[11]Jianmei Yang,Canzhong Yao,Weicheng Ma,Guanrong Chen.A study of the spreading scheme for viral marketing based on a complex network model[J].Physica A,2010(4): 859-870.