网络空间用户行为的复杂网络特性研究
2017-03-21姜雅文
姜雅文
(中国电子科学研究院,北京 100041)
0 引 言
网络空间是陆海空天之外的第五维空间,它以“信息”和对“信息”的控制为主要对象,通过人的认知和行为实现对“信息”的产生、存储、修改、交换、利用和控制。网络空间用户行为与网络空间安全的联系非常紧密,网络用户作为网络空间安全事件的发起者和传播者,其行为特征直接或者间接地为网络空间安全事件的发生和传播提供了条件和途径。
复杂网络理论作为近几年兴起的复杂性科学的重要组成部分,其基本特性和重要成果已经在自然界、人类社会、商业活动等各个方面显现出来。现实世界的有些实体之间可能存在某种联系,将大规模具有联系的实体集中在一起,实体用节点进行表示,联系用边进行表示,由此就构建了复杂网络的一般形态。随着科研人员对复杂网络研究的不断深入,人们越来越多地以网络的角度去思考问题,以网络的观念去理解周围的世界。区别于传统的随机网络,复杂网络在其产生、构成、演化等方面具有随机网络不具备的“小世界[1]”、“无尺度[2]”、“模块[3]”、“层次[3]”、“有向加权[4]”等特性。
本文借助复杂网络的基本思想,将网络空间用户的行为抽象为复杂网络模型,对照复杂网络的若干特性对网络空间用户行为的特性进行研究,实例验证表明,网络空间用户行为的复杂网络模型能够反映出复杂网络的典型特性,为后续采用复杂网络研究工具和方法对网络空间用户的行为进行度量和评估提供了依据。
1 网络空间用户行为
与现实社会中人们的社会行为相对应,本文把发生在网络虚拟空间中的行为称为网络空间用户行为。网络空间用户行为是伴随着Internet技术出现的,一种可能的定义为:行为主体为实现某种特定的目标,采用计算机网络应用和协议作为手段和方法进行的有意识的活动。其中,各种网络应用是用户进行网络行为最直接的载体,网络协议是用户进行网络行为的工具,二者能够充分反映用户访问网络的目的和途径,因此,本文将用户在进行网络行为活动时所使用的网络资源及其所使用的具体网络协议,统称为网络空间用户行为[5]。
网络空间用户行为分析就是分析网络用户行为活动的特点、构成及其在网络应用过程中上所表现出来的规律。就不同的研究目的和对象数目,网络空间用户行为大致可分为个体自主行为和用户组行为两大类。个体自主行为是在网络空间中,个体为了满足某种需要或获得某种体验而表现出的交互式或非交互式行为。所谓的交互式行为是指个体使用能够促进社会交往行为的网络功能,如聊天室、在线游戏等,通过这些活动增加使用者之间的社会交往。非交互式行为是指使用者主要将网络作为一种完成任务或者搜集信息的工具,如网上信息查询、资料的收集、浏览网页,这些活动并不增加使用者之间的社会交往。用户组是由网络中因工作、兴趣爱好等原因而紧密联系在一起的一组用户构成。用户组行为是指该组用户表现出的交互式或非交互式行为。用户组中各个成员的行为有着密切的联系,用户组行为会对网络安全效应产生较大的影响,促进赛博空间安全事件[6]的传播和扩散。
本文着重对个体自主行为的复杂网络特性进行研究,由于用户组是由网络空间中多个相互联系的用户组成,个体自主行为的复杂网络特性同样适用于用户组中的多用户行为模式和规律,因此,涉及用户组行为的复杂网络特性本文不再赘述。
2 复杂网络特性
近几年以来,复杂网络的研究逐渐成为科研人员研究的热点,大量的研究发现,复杂网络除了具有复杂的内部结构和结构特征多样性之外,还存在许多区别于传统随机网络的特殊性,比如小世界特性[1]、无尺度性[2]、模块性[3]、层次性[3]、有向加权性[4]等。
2.1 复杂网络的小世界性
小世界网络[1](图1)最早由Watts和Strogtaz于1998年发表在《nature》杂志上的论文提出,它被叫做小世界(small world)网络。现实世界里的很多网络具有这样的特点:虽然网络中的节点和边的规模很大,但是其中任意两个节点之间可以通过有限的几步到达,这样的特点被称之为小世界效应。
越来越多的研究表明,现实世界中的很多网络都具有小世界效应,1967年,美国社会学家Milgram在《今日心理学》杂志上提出了著名的六度分离定理:最多通过中间5个人,你就可以跟世界上的任何一个人取得联系。大量的实证表明,现实当中的许多真实网络都呈现出较小的最短平均路径和较大的集聚系数,而规则网络和随机网络理论不具备这样的特性,Watts和Strogtaz提出的小世界网络生成模型能很好地满足这样的特性,即该模型可以构建较小平均路径和较大集聚系数的小世界网络。
图1 小世界网络[1]
2.2 复杂网络的无尺度性
传统随机网络和规则网络节点的度分布形状类似钟形,即泊松分布(图2),在节点度的平均值附近存在大量的节点,而在平均值两边的节点数量则呈现指数下降,节点之间具有尺度性,此时节点度的平均值就是节点度分布的一个特征尺度,具有特征尺度的网络称为尺度网络。无尺度网络[2]最早由Barabasi和Albert于1999年发表的论文提出,它又被称为无标度网络或者BA网络。越来越多的研究发现,无尺度网络不具备尺度网络的特征尺度,无尺度网络的节点度分布服从幂律分布(图3):大多数节点的度很小,少数节点的度很大。现实世界里的很多复杂网络,例如Internet论文引用网络、社交关系网络、生物信息网络和新陈代谢网络等网络节点的度都具有幂律分布的特性,复杂网络的节点之间具有异质性,因而该特性也被称为复杂网络的无尺度性。
图2 泊松分布示意图
图3 幂律分布示意图
2.3 复杂网络的模块特性
在复杂网络的众多基本统计特性当中,模块性是最重要和最普遍的特性之一。复杂网络的模块性指的是复杂网络存在社区结构(community structure),位于同一个社区内部节点之间的连接稠密,不同社区节点之间的连接稀疏,如图4。在现实世界的许多实际系统中,不同的社区可能代表了不同的意义,例如在生物学系统当中,一个社区可能代表了一个组织的功能单位;在生态学系统当中,一个社区可能代表了一个生态子系统;在社会学系统当中,一个社区可能代表了受到某种社会因素影响的一类人或者一个团体。
图4 复杂网络的模块性[3]
在现实世界的网络社区结构中,彼此相互分离的社区是很少出现的,大多数存在“重叠”的现象,如图5所示[7],即存在一些同时归属于多个社区的重叠节点。在各类实际网络中,这种重叠节点发挥着极其重要的作用。比如,在人类疾病传播网和计算机病毒传播网中,重叠节点在病毒的传播过程中起着中枢和纽带的作用;在人类社会商品交易和货币流通的过程中,网络的重叠节点也往往起着流通和交易的纽带作用。
图5 网络社区的重叠性[7]
2.4 复杂网络的层次特性
复杂网络的社区结构揭示了复杂网络节点具有的模块特性,同时模块之间的存在形式又可能多种多样,例如图6所示[8],该图表示了模块间的层次特性。现实世界中的很多网络都具有层次的社区结构,例如在生物体蛋白质网络中,这种具有层次特性的社区结构起着新陈代谢的关键作用,研究和发现这些关键部位可以促进对人类疾病的研究和新型药物的研发。
图6 网络社区的层次性[8]
2.5 复杂网络的有向加权特性
真实世界的网络往往不是简单的无向无权网络,因为网络中的边可能具有方向性,同时,不同边的权重也可能不同,因此这类网络称为有向加权网络(图7[9])。例如博客网络,网络中的每个节点代表一个用户,节点之间的边代表博客用户间的链接,由于链接具有方向性,因此博客网络就是一种有向网络;此外,研究者们发现真实世界网络中边的权重对于网络的影响是不容忽视的,一个具有权重的网络更能反映一个网络的本质结构特征。例如网上聊天网络,网络的节点代表用户,节点间的边表示用户间的聊天行为,由于聊天双方聊天的时间和频次不同,为了描述这种差异,所以引入了边的权重,相对于无权网络,加权网络的权重保存了网络大量固有的信息,同时也会对网络的其它特性(例如模块性)产生很大的影响。
图7 有向加权网络[9]
3 网络用户行为的复杂网络特性
本节将网络空间用户的行为抽象为复杂网络模型,并在复杂网络的上述各个特性方面对网络空间用户的行为特征进行研究。
3.1 网络用户行为的小世界性
以网络用户点击网页中的网络链接为例。首先将万维网抽象为一个巨大的虚拟网络,网页抽象为网络中的节点,网页中包含了诸如新闻、电影、图片、菜单、文档以及转到另一个网页的链接等内容;网页间的链接(统一资源定位器URL)抽象为网络中的边,通过这些链接(边)用户可以通过点击鼠标访问到网络中的任何一个网页。这样就将网页中的所有内容组织成了一个巨大的网络。
艾伯特·拉斯洛·巴拉巴西在他的著作《链接——网络新科学》[10]中对上述巨型网络中任意两个文档之间的距离进行了细致地研究。研究发现,网页间的平均距离和网络的规模不相匹配,网页平均间隔的增加要比网络规模的增大慢很多,它们遵循简单的公式[10]:
d=0.35+2log10N
(1)
其中N是网络的节点数,d是网页平均间隔。从上述公式可以看出,网页平均间隔和网络节点数量的对数成正比。因此,在大型网络中,虽然节点可以达到数十亿规模,然而节点之间的间隔比节点的总数要小很多,表现出明显的小世界性。
3.2 网络用户行为的无尺度性
以网络用户发送邮件为例。艾伯特·拉斯洛·巴拉巴西在他的另一本著作《爆发·大数据时代预见未来的新思维》[11]中对自己及其它用户的电子邮件模型进行了研究和阐述。研究发现,“所有人的电子邮件都不符合泊松过程描述的那种掷硬币般枯燥而刻板的节奏。相反,每个用户的电子邮件模型都跟我的差不多——它们充满了爆发点,就像暴风频发的夏末天气,在狂轰滥炸般发送了大量邮件之后,总会有长时间的沉默[11]”。换句话说,所有人的电子邮件模型都符合幂律分布。此外,有研究发现,不仅仅电子邮件模型,网络用户上网点击链接的行为同样符合幂律分布,因为网络用户在浏览自己中意的网页时,绝不会每小时或者每分钟点击一次,而是一旦他们访问了那个网页,就会一个劲儿地猛点击,然后离开数小时或者数天后又会回来接着浏览这个网页。因此,这就表现出幂律分布的典型特征,即无尺度性,一旦无尺度性出现,那么大部分的网络用户行为都是在短时间内连续发生,出现了所谓的“爆发点”。
3.3 网络用户行为的模块特性
以网络BBS为例,为了描述网络用户点击论坛页面的模块特性,本节将BBS的部分功能页面进行了抽取和归类,如下图8所示。图中展示了一个由功能页面节点组成的网络,节点代表功能页面,若两个页面存在一个超链接,则在该对节点间添加一条边。
图8 用户行为的模块性
从上图可以看出,该网络具有明显的模块结构——社区(如图9所示),三种不同颜色的节点分别表示隶属三个社区的节点。由于位于同一个社区内部功能页面之间的链接比社区间功能页面之间的链接多,因此当网络用户通过点击功能页面进入到社区a后,在后续的一段时间内,用户将以较大的概率还在社区a内部进行相关操作,直到用户通过某次点击社区间的链接从而跳转到其它社区b,然后继续在社区b内部重复相似的过程。由此看来,网络用户行为表现出了明显的模块特性。
图9 用户行为的模块结构
为了对网络用户行为模块的重叠性进行描述,在上述网络BBS的例子中,加入三个节点(关注话题、转发建议、下载应用),如图10所示,同样,若该三个页面与其它页面存在一个超链接,则在它们间添加一条边。图11展示了网络在增加了节点之后社区划分的情况,值得注意的是,新增加的节点同时被划分到两个不同的社区,使该三个节点成为重叠节点,表明用户在该三个节点处进行的行为(重叠行为)位于不同行为模块的交叠处,用户可以通过这些重叠行为从一个功能模块跳转到另一个功能模块。
图10 用户行为的重叠性
图11 用户行为的重叠社区结构
3.4 网络用户行为的层次特性
将上述BBS的功能模块完整地展现出来,如图12所示。从图中可以看出,例子中各个大的功能下又存在很多小的子功能,呈现出明显的树型结构,不同的叶子节点分别位于树的不同层,因此,当用户在点击使用论坛的各项功能时也表现出明显的层次特性。
图12 用户行为的层次性
3.5 网络用户行为的有向加权特性
以网络用户发送邮件和点击链接为例,由于邮件的发送和网络链接具有方向性,因此其对应的网络用户行为也具有方向性;同时,由于不同的用户或者同一用户在不同的时间段内邮件发送的数量以及点击链接的频次不同,因而导致不同用户行为之间的权重也不同,用户行为的权重在复杂网络用户行为分析中能更好地表征行为的本质特征。
4 结 语
本文将网络空间用户的行为抽象为复杂网络模型,然后对照复杂网络的特性(小世界性、无尺度性、模块性、层次性、有向加权性)对网络空间用户行为的特性进行对比研究,通过实例表明,网络空间用户行为的复杂网络模型具有上述复杂网络的典型特性,为后续采用复杂网络研究方法对网络空间用户的行为进行度量和评估提供了依据。
[1] D. J. Watts, S.H. Strogatz. Collective Dynamics of “Small-World” Networks[J]. Nature, 1998, 393(6684): 440-442.
[2] A. L. Barabasi, R. Albert. Emergence of Scaling in Random Networks[J]. Science, 1999, 286(5439): 509-512.
[3] Girvan M, Newman M E J. Community structure in social and biological networks. Proc Natl Acad Sci, 2002, 99(12): 7821-7826.
[4] Garlaschelli D, Loffredo MI. Patterns of link reciprocity in directed networks. Physical Review Letters[J]. 2004, 93(26): 268701.
[5] 杨铮. 基于流量识别的网络用户行为分析[D]. 重庆:重庆大学, 2009.
[6] 吴巍. 赛博空间与通信网络安全问题研究[J]. 中国电子科学研究院学报, 2011, 6(5):473-476.
[7] Palla G, et al. Uncovering the overlapping community structure of complex network in nature and society[J]. Nature, 2005, 435(7043): 814-818.
[8] 汪小帆,刘亚冰. 复杂网络中的社团结构算法综述[J]. 电子科技大学学报, 2009, 38(5): 537-543.
[9] 汤浩锋等. 有向加权复杂网络抗毁性测度研究[J]. 计算机工程, 2013, 39(1): 23-28.
[10] 艾伯特·拉斯洛·巴拉巴西著, 徐彬译. 链接网络新科学[M]. 湖南:湖南科学技术出版社, 2007.
[11] 艾伯特·拉斯洛·巴拉巴西著, 马慧译. 爆发·大数据时代预见未来的新思维[M]. 北京:中国人民大学出版社, 2012.