(1.山西大学 计算机与信息技术学院,山西 太原 030006; 2.山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006)
摘要:基于密度的图聚类算法在社区发现中得到了广泛应用,然而由于其通过搜索网络中局部稠密子图来识别社区,使得大量结点因不能构成稠密子图而未被聚类。针对此问题,给出了一种基于稠密子图的软聚类算法(community detection based dense subgraphs,BDSG)。首先给出一种中心社区发现方法;进而定义了一种结点的社区归属度,并给出中心社区扩展策略;最终得到聚类结果。通过与CPM(clique percolation method)、k-dense算法在空手道俱乐部、海豚社交网络、大学生足球网络、电子邮件网络和合作网络等数据进行比较,表明BDSG算法在模块性指标与时间效率方面体现了良好性能, 同时中心社区扩展策略能在一定程度上提高CPM、k-dense等基于密度算法的聚类有效性。
目前,社区发现算法的研究主要分为基于图划分的聚类算法[10-11]、基于谱分析的聚类算法[12]、基于层次的聚类算法[13]和基于密度的聚类算法[14]等。其中基于密度的聚类算法通过搜索网络中稠密子图[15]能较好地发现网络中的功能模块,因此在社区发现中得到了广泛应用。2005年,Palla等[16]提出派系过滤算法(clique percolation method,CPM),首先挖掘网络中结点数大于k的所有派系(完全图),然后将重叠结点大于k-1的派系合并得到k派系社区。2006年,Saito等[17]提出k-dense子图结构,通过寻找网络中的k-dense结构进行社区检测。2009年,Sun等[18]以CPM为基础,通过改进寻找派系的方法提高算法效率,提出迭代派系过滤算法(iterative-clique percolation method,ICPM)。2010年,Liu等[19]提出基于极大团的聚类算法(clustering-based on maximal cliques,CMC),通过搜索网络中的所有极大团,并依据相互连接度合并重叠率较高的极大团得到网络的社区结构。由于这些算法要搜索网络中的相对稠密子图来进行聚类,当网络中存在包含大量结点的稀疏子图时,这些结点可能最终成为未聚类结点,造成了聚类结果的不完全覆盖。这些未聚类结点构成的稀疏子图可能具有某种功能,或者与某些稠密子图共同行使功能,因此需要对网络中的部分未聚类结点进行进一步分析,判断其是否属于某一社区或形成新的社区。
针对基于密度算法中大量未聚类结点问题,提出一种基于稠密子图的社区发现算法(community detection based on dense subgraphs,BDSG)。首先通过搜索网络中的相对稠密子图得到中心社区;对于未聚类结点,定义了结点v对社区C的归属度b(v,C)来度量结点和社区的连接倾向程度;基于归属度,给出一种中心社区扩展策略(core community extended strategy, CE),对未聚类结点进一步处理。BDSG算法中,一个结点可能属于多个社区,是一种软聚类方法。通过在空手道俱乐部、海豚社交网络、大学生足球网络、电子邮件网络和合作网络5个真实网络上与CPM、k-dense算法进行比较,评估和分析BDSG算法在未聚类结点分配和社区模块性等方面的性能表现。基于归属度的中心社区扩展策略也将应用在CPM、k-dense等基于密度的图聚类算法中,对未聚类结点进一步处理,以提高聚类有效性。
图1 空手道俱乐部中未聚类结点分析Fig.1 The analysis of subordinate vertices in zachary’s karate club
Table 1The comparison of the clustering results among differentα
算法1中心社区扩展算法 (core community extended strategy,CE)
为了分析研究BDSG算法在真实网络中社区发现的有效性,将BDSG算法分别应用于空手道俱乐部(Karate)[23]、海豚社交网络(Dolphin)[24]、大学生足球网络(Football)[25]、电子邮件网络(Email)[26]和合作网络(NetScience)[27]等5个数据集。实验所用计算机配置为Inter Core i5 CPU 2.5 GHz,6 GB内存,Windows 7操作系统。程序采用java编程语言并在Eclipse环境下运行。依经验选择密度阈值d=0.9,调节参数α=0.8。
图3 BDSG算法在空手道俱乐部得到的聚类结果Fig.3 Clustering results on zachary’s karate club obtained by BDSG
图4 BDSG算法在海豚社交网络上得到的聚类结果Fig.4 Clustering results on dolphins social network obtained by BDSG
图5 BDSG算法在大学生足球网络上得到的聚类结果Fig.5 Clustering results on college football network obtained by BDSG
此外,本文给出的中心社区扩展算法也可应用于CPM、k-dense等算法以处理未聚类节点,提高聚类性能。实验结果(见表2)表明CPM与k-dense算法的聚类有效性均显著提高。在空手道俱乐部、海豚社交网络、电子邮件网络和合作网络中,在CPM与k-dense算法运行时间略有增大的情况下,CE算法的加入使得其未聚类结点个数降幅较大,社区模块性具有较为明显的提高。同时CPM与k-dense算法在加入扩展策略CE之后与BDSG算法相比, BDSG算法在未聚类结点数以及社区模块性方面优势依然较为明显。
Community detection algorithm based on dense subgraphs
ZHENG Wenping1,2, ZHANG Haojie1, WANG Jie1,2
(1. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China; 2. Key Laboratory of Computation Intelligence and Chinese Information Processing, Ministry of Education, Shanxi University, Taiyuan 030006, China)
Abstract:The density-based graph clustering algorithm has been widely used in community detection. However, because it identifies a community by searching a partially dense subgraph in the network, many nodes do not constitute a dense subgraph and are therefore difficult to cluster. In this paper, we present a soft clustering algorithm based on dense subgraphs (BDSG) for detecting communities in complex networks. First, we propose a method for detecting the central communities. Next, we define the degree of community attribution of a node, and put forward a core community extended strategy. Finally, we obtain the clustering results of a network. Compared with the clique percolation method (CPM), k-dense algorithms from Zachary's Karate Club, the dolphin social network, the American college football network, the email network, and the collaboration network, BDSG shows considerably better performance with respect to modularity and time efficiency. In addition, the proposed core community extended strategy may improve the effectiveness of the clustering-methods-based density, such as that in CPM, k-dense algorithms, and others.
Keywords:complex network; community detection; graph clustering; soft clustering; density; core extended strategy; vertex betweenness; modularity
通信作者:郑文萍. E-mail: wpzheng@sxu.edu.cn.