APP下载

基于FIUHM模型的兴趣社区检测方法研究

2021-01-15王凯

现代情报 2021年1期

收稿日期:2020-04-20

基金项目:安徽省高校人文社会科学重点项目“大数据背景下医疗纠纷事件的语义识别及其对网络舆情预警影响的研究”(项目编号:SK2018A1064)。

作者简介:王凯(1985-),男,讲师,硕士,研究方向:社会网络分析。

摘 要:[目的/意义]构建基于用户兴趣标签的网络社团识别模型(Fuzzy Interests and User Hybrid Model,FIUHM),揭示用户兴趣与社团形式概念间的模糊层级关系,实现多粒度属性与社团拓扑结构的层次聚类。[方法/过程]通过抽取豆瓣电影社区数据,实现基于用户标签的兴趣强度语义标注,利用用户相似度,获取社区用户间兴趣语义距离;将网络社区的领接矩阵映射为社团形式背景,构建社团模糊概念格,建立社团形式概念及其偏序关系集,完成社团形式概念建模;通过计算社团稳定指数,识别网络社团边界,并聚类最大独立社团,实现兴趣社团的在线检测。[结果/结论]通过对比实验,验证了FIUHM模型的有效性,实验表明将模糊形式概念分析引入网络社团识别研究,利用模糊概念格的偏序关系建模用户节点间的兴趣相似度,有利于提高社团识别的分辨率。

关键词:FIUHM模型;兴趣社区;模糊形式概念分析;社团识别;稳定指数;社团形式概念

DOI:10.3969/j.issn.1008-0821.2021.01.005

〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821(2021)01-0039-11

Research on Interest Community Detection Based on FIUHM

Wang Kai

(School of Health Management,Bengbu Medical College,Bengbu 233000,China)

Abstract:[Purpose/Significance]This paper builds a network community recognition model(FIUHM)based on user interest tags,which reveals the fuzzy hierarchical relationship between user interest and community formal concepts.The aim is to realize hierarchical clustering of multi-granularity attributes and community topology.[Method/Process]By extracting Douban movie community data,this paper implemented semantic annotation based on the interest intensity of user tags.The semantic distance among community users was obtained by calculating user similarity.Afterwards,the community matrix of the online community was mapped to the community formal context,based on which the fuzzy concept lattice of the community was constructed.Meanwhile,the community formal concepts and their partial order relation set were established.Finally,the boundary of the online community can be identified by computing the community stability index as well as clustering the largest independent community,to achieve the online detection of the interest community.[Result/Conclusion]The validity of the FIUHM model was evaluated through comparative experiments.The experiments showed that it was helpful to combine the partial order relationship of fuzzy concept lattices and the interest similarity between user nodes,which improved the resolution of community identification.

Key words:FIUHM model;interest community;fuzzy formal concept analysis;community identification;stability index;community formal concept

伴随着信息通信技术的快速发展,以Facebook、Twitter为代表的社交网络日渐成为人们资讯传递、情感交流的主要信息載体。社交网络中用户往往依据自身的兴趣,找寻与其具有相似偏好的“好友圈”或“推荐社区”,从而逐渐形成社会性网络(Social Network)。社会性网络可以依据其内部成员间边连接的紧密程度,划分成多个具有不同网络拓扑的社团结构[1]。因此,从海量文本中挖掘用户的兴趣特征,构建面向用户兴趣属性的社区检测模型,已成为改善资源推荐质量、提升社区服务精准度的关键。

多数背景下,社交网络中兴趣社区是由某些具有相似兴趣爱好的用户所构成的社会群体,兴趣是网络社区形成的内在诱因。网络社区往往随着用户的“兴趣漂移”而不断变化。考虑到用户兴趣的多样性与差异性,不同兴趣社区间可能存在重叠用户。此外,由于兴趣本身的不确定性,兴趣社区的识别需要解决用户聚类的模糊性建模问题。

本文提出一种基于FIUHM模型的兴趣社区识别方法,该方法将模糊形式概念分析(Fuzzy Formal Concept Lattice,FFCA)引入兴趣社区的建模中,以用户自定义标签为基础,利用用户间的模糊关系聚类,动态刻画社区用户之间的兴趣聚集程度;建模面向多粒度视角的兴趣社区模糊概念格,实现网络社团的模糊结构识别;通过计算社团稳定指数,识别网络社团边界,并聚类最大独立社团,实现社交网络的在线检测。

1 相关研究概述

社交网络是由对象节点集及边集所构成的虚拟社区。网络社团是通过网络中隐藏的关联关系,将社交网络划分为若干具有现实意义的子社区[2]。网络社团的内部节点间联系较紧密,而外部节点间的关联则相对稀疏。真实网络中,不同社团中可能包含重复的用户节点以及相互包含的关系,由此衍生出重叠社团。社区检测技术依据是否具备重叠社团的检测能力,可分为非重叠社区检测算法和重叠社区检测算法。非重叠社区检测算法假设用户节点仅属于单一社团,即社团间不存在交集。该类算法可大致分为基于模块度的方法[3-4]、基于谱分析的方法[5-6]以及基于标号传播的方法[7-8]。比较具有代表性的算法有Newman M E J[9]算法、Donetti L等[10]算法、Raghavan U N等[11]。該类算法虽然优化了算法的时间复杂度,但社团划分未考虑到社团固有的层次性以及节点间的属性相似性,使得识别结果缺乏必要的可解释性。

随着研究的深入,重叠社团因其具有的现实意义而逐渐成为人们研究的热点,该类算法大致可分为基于局部延展的方法[12]、基于聚类的方法[13]以及基于团渗透的方法[14]。首先,基于局部延展的方法主要通过定义节点适应度评价函数或密度函数,对社团种子节点及其相邻节点进行合并操作,以获取局部最优的社团函数,代表性算法包括LFM[15]、FMMN[16]等。该类方法由于过度依赖初始节点以及延展决策函数,容易引起局部最优。其次,基于聚类的方法将重叠社团的划分视为加权线图中的共享节点识别,使用边聚类的方法获取社团的层次关系,代表性算法包括UEOC[17]、ELC[18]等。该类方法虽然能够利用非重叠社团的方法解决重叠社团的层次结构冲突,但通过将网络映射为边图,增加了算法的系统开销。最后,基于团渗透的方法融入网络动态演化的分析思想,将社团视为若干连通的完全子图,通过计算k团的权值,捕获近邻社团的结构性差异,并以此为基础实现社团演化的预测,代表性算法包括CPM[19]、SCP[20]等。所述方法主要基于网络社团的拓扑特征,忽略了用户节点固有的属性信息,缺乏节点间的关系识别;无法有效融合重叠用户的模糊关系与层次关联,容易引起社团的语义失真。

2 背景理论

2.1 社交网络

社交网络是由对象节点集及边集所构成的虚拟社区。网络社团是通过网络中隐藏的关联关系,将社交网络划分为若干具有现实意义的子社区。相关概念定义如下:

定义1:(网络社团)[21]复杂网络G=(V,E)是定义在节点V和边E上的无向图,若G中含有k个节点的子集QV,其任意两个节点vi,vj∈Q,均存在1条边(vi,vj)∈E,则集合Q为网络G上的1个社团。

定义2:(最大独立社团)[21]对于网络G中的社团Qm=((v1,…,vm),E),若满足以下约束条件,则为最大独立社团:①对任意vkQm,均不存在(vi,vk)∈E;②vi∈Qm,vi∈G-Qm,均有(vi,vj)E。

定义3:(切割)[22]在网络G=(V,E)中,对于任意集合CV,=V-C,(C,)={eij=(vi,vj)∈E,vi∈C,vj∈},(C,)定义为网络G中的一个切割划分,eij∈(C,)E称为一条切割边。

定义4:(非平凡切割边)[22]当顶点vi、vj的邻居数大于2时,定义(vi,vj)∈E是网络G=(V,E)中的非平凡切割边,记为(vi,vj),其中顶点的邻居数是与其存在直接连接关系的边数量。

图1是一个加权网络社团,边的权值表示相邻节点在标签上的兴趣相似度。在不考虑权重的条件下,集合Q1={f,g,h,i}代表1个节点数为4的社团,Q2={j,k,l}表示1个节点数为3的最大独立社团。此外,图1中共含有23条切割边,其中边(d,e)为1条非平凡切割边。

2.2 模糊形式概念分析

Quan T T等[23]在形式概念分析理论的基础上引入模糊集,提出基于模糊形式概念分析(Fuzzy Formal Concept Analysis)的数据建模方法。该理论将原本基于二元偏序关系的Galois概念集拓展到基于隶属关系的模糊形式背景知识库,极大地拓展了概念格理论的应用场景。相关概念定义如下。

定义5:(模糊形式背景)[23]三元组K=(O,A,Iμ)是由对象集O和属性集A,以及关系集O×A所构成的模糊形式背景,其中Iμ是O×A上的模糊二元关系,且对任意o∈O,a∈A,存在模糊关系映射μ(o,a)∈[0,1],满足μ∶(O×A)→[0,1]。

定义6:(模糊形式概念)[23]对于模糊形式背景K=(O,A,Iμ),任意子集MO,NA,均存在如式(1)、式(2)所示的映射关系(式中α为置信阈值),且满足M′μ=N,N′μ=M,则二元组(M,N)为模糊形式背景K上的一组模糊形式概念,记为cμ(M,N)。

M′μ={a∈A|o∈M,(μ(a,o)≥α)∈Iμ}(1)

N′μ={o∈O|a∈N,(μ(a,o)≥α)∈Iμ}(2)

定义7:(模糊概念格)[23]对模糊形式背景K=(O,A,Iμ)中的任意模糊形式概念cμ1(M1,N1),cμ2(M2,N2),若满足如式(3)所示的偏序关系,则称cμ2(M2,N2)是cμ1(M1,N1)的上层概念(父概念),cμ1(M1,N1)是cμ2(M2,N2)的下层概念(子概念),即cμ1(M1,N1)≤cμ2(M2,N2);若CAμα(K)为模糊形式背景K中所有满足置信阈值α的模糊形式概念集,则(CAμα(K),≤)表示一个满足偏序关系的模糊概念格。

M1M2N2N1(3)

3 基于FIUHM模型的社交网络检测方法

兴趣社区中,社区—用户—兴趣间存在着较强的语义关联性,即用户与兴趣间具有有限个模糊关系依赖,社区通过兴趣聚类用户群体。所以,本文利用FFCA理论对不确定性数据的描述思想,提出一种基于FIUHM模型的社交网络检测方法,该方法将兴趣社区的识别转变成社区用户间在兴趣度上的语义关系聚类,生成带有格结构的兴趣层次序,再通过社团稳定指数识别社团边界,实现网络社区的多粒度划分。

兴趣社区中的用户在兴趣上具有一定的相似性,因此,兴趣社区的建模可视为用户在兴趣维上的关联关系度量。然而,由于用户兴趣的模糊性,需要在用户—兴趣—关系的联合识别过程中,建立针对社区兴趣的“程度刻画”,实现社区结构的可视化建模。

3.1 模型框架

基于FIUHM模型的兴趣社区划分方法主要包含用户兴趣强度标注、社团形式概念建模以及重叠社团语义识别3个步骤。该模型将用户间的兴趣相似度作为兴趣社区中用户节点间的关系边权值,通过构建模糊形式概念格,获取带有模糊关系和偏序关系的社团形式概念集合,通过计算社团稳定指数,识别最大独立社团,最终得到最优兴趣社团。模型的构建流程如图2所示。

1)用户兴趣强度标注。首先统计预分标签的频次,获取频次较高的前M个标签集合L=(l1,l2,…,lm);使用信息增益计算标签权重,计算用户集合U=(u1,u2,…,un)的加权标签向量集合Li={(di,1,wi,1),(di,2,wi,2),…,(di,k,wi,k)},1≤i≤m,建立用户—兴趣标签矩阵P;最后,依据余弦相似度计算用户对(ui,uj)的兴趣相似距离,得到用户兴趣相似矩阵Q。

2)社团形式概念建模。该模块首先将用户集合转换为网络用户节点集V=(v1,v2,…,vn),从相似矩阵Q中抽取数值大于兴趣阈值θ的用户节点对(ui,uj),并在网络G=(V,E)中添加相应的加权边,并将其对应的领接矩阵映射成社团形式背景;依据概念偏序关系,建立基于兴趣聚类的模糊概念格,得到社团形式概念及其上层父类概念集合。

3)重叠社团语义识别。计算模糊概念格中所有社团形式概念的社团稳定指数,实现最大独立社团的识别;利用社团形式概念间的偏序关系识别含有两个外延对象的非平凡切割边,实现重叠社团的节点划分。

3.2 模型定义

本文首先将网络社区中用户—关系所构成的网络结构映射成具有模糊依赖关系的社团形式背景,并在此基础上定义社团稳定指数,给出兴趣社区的边界识别方法。模型中相关概念表示如下:

定义8:(社团形式背景)对于模糊形式背景K=(O,A,Iμ),其中O为用户集,A为属性集,且O≡A,Iμ是O×A上的模糊二元关系;对任何oi,oj∈O,均有(oi,oj)∈Iμ。

社团形式背景的本质是用一组三元关系(用户—用戶—模糊关系)表示网络社团的二元关系(节点,边)。为简化表示,可将社团形式背景表示为Kc=(O,O,Iμ),其中O表示社团用户节点,Iμ为O×O上的模糊二元关系,可用社团用户节点间的带权边表示。

定义9:(社团形式概念)设cμ(M,N)为模糊形式背景K=(O,A,Iμ)上的模糊形式概念,Kc=(O,O,Iμ)是基于模糊形式背景K的社团形式背景,若M=N,则称cμ(M,N)为社团形式背景Kc上的一组社团形式概念,记为cμi(M,N)。

文献[24]基于形式背景的依存关系定义了形式概念稳定度,通过估计概念的内涵属性对外延对象的依赖程度,实现概念集合的约简。该理论基于一个假设,即如果一个形式概念的内涵属性不依赖于其包含的任意外延对象,则该概念是相对稳定的。形式概念的稳定指数定义如下。

定义10:(形式概念稳定指数)[24]设形式概念c=(M,N)是形式背景K=(O,A,I)上的一组形式概念,形式概念c的稳定指数为σ(M,N),如式(4)所示。

σ(M,N)={cM|c′=N}2|M|(4)

文献[25]将聚类思想引入形式概念分析理论,证明了定义10所描述的形式概念稳定指数存在最大值,且该数值与概念本身所含的对象数有关,给出形式概念的极大稳定值判定方法(定义11)。

定义11:(形式概念极大稳定值)[25]形式概念c=(M,N)是形式背景K=(O,A,I)上的一组形式概念,且M>2,则形式概念c的极大稳定值为σmax(M,N),如式(5)所示。

σmax(M,N)=2|M|-12|M|(5)

本文以定义11为基础,引入社团稳定指数,旨在将网络社团中节点间的边切割问题转换成概念格中的节点间层次关系的聚类分析。通过计算社团形式概念所含有外延对象的概率,建立社团稳定指数与社团形式概念间概化与例化的强关联关系,同时利用模糊概念格的偏序关系实现兴趣社团序列的动态划分。社团稳定指数定义如式(6)所示。

定义12:(社团稳定指数)设cμi(M,M)为社团形式背景Kc=(O,O,Iμ)上的一组社团形式概念,且M=k>2,则cμi(M,M)的社团稳定指数定义如式(6)所示。

σc=2k-Supc(M)2k(6)

式中Supc(M)表示社团形式概念cμi(M,M)的所有上层父概念所含有的外延对象数量。当k=2时,该社团形式概念仅含有两个外延对象(cμi({M1,M2},{M1,M2})),则其上层父概念所含有的外延对象为({M1},{M2},),故Supc(M)=3,所以σc=22-322=14。

3.3 模型分析

3.3.1 用户兴趣强度标注

基于内容的兴趣标签能够客观反映用户对知识服务的偏好,而兴趣标签的权重则能够衡量用户对不同兴趣的偏好程度。通常情况下,用户使用兴趣标签的频率与其对相关知识的偏好程度存在正相关。基于加权兴趣标签的用户相似度计算能够建立不同用户间的兴趣关联映射,实现群用户的兴趣聚类。因此,本文首先借鉴信息增益(Information Divergence)[26]的思想定义用户兴趣标签权重,利用增益的变化动态刻画标签特征集合,得到用户—兴趣关系矩阵。用户uj对兴趣标签集合L的平均信息增益如式(7)所示,用户uj的归一化权重如式(8)所示。

E(uj)=-∑mi=1fre(uj,li)log2(fre(uj,li))(7)

w(uj)=1k∑ki=1E(uj)(8)

其中,k表示第j个兴趣标签中所含有的特征词数;li表示第i个兴趣标签;uj表示第j个用户;m表示兴趣标签集合所含的标签总数。

依据用户的兴趣标签集合P,计算用户兴趣余弦相似度,构建兴趣相似矩阵Q。用户兴趣相似度的计算公式如式(9)所示。

sim(ui,uj)=∑kt=1(w(ui),lt)*(w(uj),lt)∑kt=1(w(ui),lt)2*∑kt=1(w(uj),lt)2(9)

其中,w(ui)表示用户ui的兴趣标签权重,li表示第i个兴趣标签。

3.3.2 社团形式概念建模

FIUHM模型在建模兴趣社团时基于如下假设,即对于兴趣相似度较低的一组用户视为社团稀疏节点。在社区划分时,上述节点间视为无语义关联,即用户间的相似度为0。因此,为降低算法的时间复杂度,引入兴趣阈值θ,筛选出关系矩阵中wi,j不小于θ的用户(ui,uj)加入用户集U,同时在领接矩阵J中的第i行j列添加wi,j。从J中依次选取用户ui的最近邻兴趣相似用户节点,并将其映射为社团形式背景的外延对象,加入对象集O。将领接矩阵J中的元素映射为对象间的模糊关系矩阵,构建社团形式背景。若图1表示一个基于用户兴趣标签的无向有权网络,将其对应的领接矩阵转化为如表1所示的社团形式背景。

為了获取具有实际含义的社团形式概念,FIUHM模型引入置信阈值α用于控制模糊概念的数量。依据模糊概念间偏序关系,采用文献[27]的建格算法建立模糊概念格,得到社团形式概念及其上层父类概念集合。基于表1所构建的社团模糊概念格如图3所示(α=0.4)。图3中共有20个模糊形式概念,依据定义9可得到7个社团形式概念(图中灰色节点)。图3中相应模糊概念的外延与内涵如表2所示。图4是基于社团形式概念的兴趣社团划分结果。

3.3.3 重叠社团语义识别

通过调整置信阈值,建模具有实际意义的社团模糊概念格,获取模糊形式概念及其偏序关系,得到社团形式概念以及各自上层父类节点,并分别计算其社团稳定指数σc。依据图4得到最终的兴趣社团识别结果,如图5所示。基于社团稳定指数将上述社团分化为3种类型,首先,若该社团是最大独立社团,且社团稳定指数等于该模糊概念对应的概念极大稳定值(定义11),则将其加入最大独立兴趣社团集合。如兴趣社团4(概念C11)的社团稳定指数为23-{}23=23-123=0.875,而概念C11的极大稳定值为23-123,则兴趣社团4为最大独立社团。其次,若该社团仅含有两个用户节点,且社团稳定指数为0.25,则识别出该社团所含的无向加权边为节点间的非平凡连接,删除社团的边连接。如兴趣社团2(概念C7)含有两个节点{d,e}且社团稳定指数为22-{d,e,}22=22-122=0.25,则边(d,e)为非平凡连接。最后,对任意含有M、N个节点的两个社团,若其共享至少min(M,N)-1个公共用户节点,则合并上述社团,并删除重叠节点间的边连接。如兴趣社团6(概念C13)和兴趣社团7(概念C12)分别含有3个节点,共享2个公共用户节点{m,n},则应该合并兴趣社团6和兴趣社团7,并删除边(m,n)。图6为最终识别出的兴趣社团。

3.4 算法描述

FIUHM算法首先基于用户的标签权重,计算用户兴趣相似度,获取用户兴趣度矩阵;然后抽取矩阵中相似度大于兴趣阈值的用户节点,并依据用户间的模糊关系,构建社团模糊概念格;最后,计算社团稳定指数,识别重叠社团,得到最优兴趣社团。相关算法描述如下:

4 实验结果及分析

4.1 数据来源

实验选取豆瓣电影社区中22个类别的6 500部电影的11 436个“豆瓣成员标签”作为数据来源。经过词频统计,共筛选出2 000个频率较高的电影分类标签加入预分标签集。用户对象确定为观影超过100次(含已看过、在看以及想看的电影)且发表在线短评不少于200条的6 326个注册用户。

4.2 置信阈值取值分析

在兴趣社团的识别过程中,由于置信阈值α会影响用户节点的数量以及节点间关系边的相似依赖程度,所以需要分析α的取值与有效社团形式概念个数的关系。实验使用平均绝对偏差(MAE),计算实际社团数量与预测模糊形式概念数之间的偏差程度。兴趣阈值θ=0.375,通过调整多组α值,分别计算MAE值,结果如图7所示。图7表明,当α取值在0.6时,MAE取值最小(0.674),偏差程度最低。

4.3 结果分析

FIUHM模型参数θ设置为0.375(收集用户相似度大于兴趣阈值的关系边作为兴趣社区的有效边连接),置信阈值θ选取最优值0.6,模型共识别出32个兴趣社团。考虑到识别出的兴趣社团数量较多,表3仅列出结果中含有用户节点较多的4个兴趣社团,其中每个社团列出相似度最高的10个用户组,同时选取社团内所有用户的平均信息增益最高的10个属性标签作为社团兴趣标签。图8为部分兴趣社团的划分结果,图中不同节点间的连线长度与其端点用户间的兴趣相似度有关,即用户间的兴趣相似值越高,节点间的连线越短。分析表3与图8可得出以下结论:①同一个社团内存在多个风格迥异的电影类型标签,体现了用户兴趣的模糊性。②不同的社团间存在重叠用户,体现了用户兴趣的多样性,如用户节点U1742与U2631。③用户间的相似度仅仅体现了个体间选择相同兴趣标签的可能性,而不能作为用户“出入”某个兴趣社团的依据。如图8中的用户U691虽然与U775、U1660间的相似度较高,但依然被划分为两个不同的社区。FIUHM模型通过定义用户节点间的非平凡连接,降低了因局部最优而提升了社团的抗噪能力。

4.4 算法比较分析

为验证算法的有效性,本文将11 436个“豆瓣成员标签”随机均分成5个子数据集(标记为D1~D5),并对比了CMP算法[19]、FCA-k算法[28]和ACDC算法[29]。相关实验在准确率上的结果如图9所示。此外,为了验证模型对于公开数据集的识别精度,本文采用文献[30]提出的扩展模块度EQ(Extended Quality of Modularity)评价指标,在American College Football[31]数据集上分析了重叠社团的划分效果,如表4所示。

综合分析图9可知,FIUHM模型在5个数据集上的平均准确率为80.25%,高于其余3种方法(依次为74.95%、75.74%、78.66%)。其中,FIUHM与ACDC算法的识别效果明显优于FCA-k算法,主要是因为虽然FCA-k算法基于形式背景构建了与社团等价的形式概念,并依据概念间的偏序关系实现了重叠社团的划分,但没有考虑到概念节点间的属性关联。ACDC算法在FCA-k算法的基础上,考虑了节点的相似属性特征,利用概念格间的同构关系,识别具有相似节点属性的网络社团。FIUHM模型相比于上述模型具有两处改进,首先,FIUHM模型将节点间的兴趣属性相似度作为社团间连接的“牵引力”,通过引入标签权重,用户相似度以及非平凡连接等因子,在一定程度上改善了社区检测中节点属性传递的准确性。同时,从形式概念分析的角度,FIUHM模型将社团固有的层次性与重叠性特征转化为模糊形式概念间的伽罗瓦关系建模,利用社团形式概念间的模糊关系依赖,实现了局部社团间的多粒度层次聚类,从而提升了重叠社团识别的分辨率。

此外,American College Football数据集所含的真实社团数为12(含有115个对象,615条边),结合表4可知,FIUHM模型识别出的社团数相对较少,主要原因是该模型虽然能够在平均绝对偏差最优时,得到用户节点的数量以及节点间关系边的相似依赖关系,但采用人工的方式对兴趣阈值赋值,虽然能够保证局部最优,但抗噪能力相对不足,无法实现社团节点间的模糊关系与偏序关系的联合识别。后期可通过提高模型参数的可变自适应性,实现模型的自动调参。

5 结束语

本文针对在线网络社区的划分问题,提出了一种基于FIUHM模型的兴趣社团识别方法,并对豆瓣社区的真实电影标签数据进行了实验验证。通过用户兴趣强度标注,在用户节点间加载了一种语义关联,利用社团形式概念建模,设计了一种基于模糊形式概念分析的社团层次化聚类算法。此外,基于社团稳定指数以及社团形式概念间的偏序关系,实现重叠社团的语义识别。本文的下一步研究可在用户短期兴趣发现、动态社交网络演化分析等方面提高兴趣社区检测的准确性。

参考文献

[1]辛宇,杨静,谢志强.一种面向语义重叠社区发现的Link-Block算法[J].软件学报,2016,27(2):363-380.

[2]吴小兰,章成志.社会化媒体中的社区发现研究综述[J].现代图书情报技术,2013,(10):36-42.

[3]Waltman,Ludo,Van Eck,et al.A Smart Local Moving Algorithm for Large-scale Modularity-based Community Detection[J].European Physical Journal B,2013,86(11):471-180.

[4]Xiang J,Hu T,Zhang Y.Local Modularity for Community Detection in Complex Networks[J].Physica A Statistical Mechanics & Its Applications,2016,443:451-459.

[5]劉继,邓贵仕.基于加权谱分析的用户网络社团协作推荐方法[J].大连理工大学学报,2010,50(3):438-443.

[6]Newman M E J.Finding Community Structure in Networks Using the Eigenvectors of Matrices[J].Physical Review E,2006,74(3):36-44.

[7]Kothapalli K,Pemmaraju S V,Sardeshmukh V.On the Analysis of a Label Propagation Algorithm for Community Detection[J].Computer Science,2012,7730(4):255-269.

[8]Yan X,Fanrong M,Yong Z,et al.A Node Influence Based Label Propagation Algorithm for Community Detection in Networks[J].The Scientific World Journal,2014:1-13.

[9]Newman M E J.Detecting Community Structure in Networks[J].European Physical Journal B,2004,38(2):321-330.

[10]Donetti L,Munoz M A.Detecting Network Communities:A New Systematic and Efficient Algorithm[J].Journal of Statistical Mechanics Theory & Experiment,2004,(10):1-12.

[11]Raghavan U N,Albert,Réka,et al.Near Linear Time Algorithm to Detect Community Structures in Large-scale Networks[J].Physical Review E,2007,76(3):036106.

[12]Baumes J,Goldberg M K,Krishnamoorthy M S,et al.Finding Communities By Clustering a Graph Into Overlapping Subgraphs[J].IADIS AC,2005,(5):97-104.

[13]Malliaros,Fragkiskos D,Vazirgiannis,et al.Clustering and Community Detection in Directed Networks:A Survey[J].Physics Reports,2013,533(4):95-142.

[14]Bálint Tóth,Tamás Vicsek,Gergely Palla.Overlapping Modularity at the Critical Point of k-Clique Percolation[J].2013,151(3-4):689-706.

[15]Lancichinetti A,Fortunato S,Kertész J.Detecting the Overlapping and Hierarchical Ommunity Structure in Complex Networks[J].New Journal of Physics,2009,11(3):033015.

[16]Alexander E I,Brownlee,John A W,et al.Fitness Modeling With Markov Networks[J].IEEE Transactions on Evolutionary Computation,2013,17(6):862-879.

[17]Evans T S,Lambiotte R.Line Graphs,Link Partitions,and Overlapping Communities[J].Physical Review E:Statistical Nonlinear & Soft Matter Physics,2009,80(80):145-148.

[18]Huang L,Wang G,Wang Y,et al.Link Clustering with Extended Link Similarity and EQ Evaluation Division[J].Plos One,2013,8(6):e66005.

[19]Palla G,Derényi I,Farkas I,et al.Uncovering the Overlapping Community Structure of Complex Networks in Nature and Society[J].Nature,2005,435(7043):814-818.

[20]Kumpula J M,Kivela M,Kaski K.A Sequential Algorithm for Fast Clique Percolation[J].Physical Review e Statistical Nonlinear & Soft Matter Physics,2008,78(2):026109.

[21]Fa-Liang H,Shi-Chao Z,Xiao-Feng Z,et al.Discovering Network Community Based on Multi-Objective Optimization[J].Journal of Software,2013,24(9):2062-2077.

[22]Shen H W,Cheng X Q,Chen H Q,et al.Information Bottleneck Based Community Detection in Network[J].Chinese Journal of Computers,2009,31(4):677-686.

[23]Quan T T,Hui S C,Cao T H.A Fuzzy FCA-based Approach for Citation-based Document Retrieval[C]//IEEE Conference on Cybernetics & Intelligent Systems,2004,(1):578-583.

[24]Kuznetsov S O.On Stability of a Formal Concept[J].Annals of Mathematics and Artificial Intelligence,2007,49(14):101-115.

[25]Buzmakov A,Kuznetsov S O,Napoli A.Is Concept Stability a Measure for Pattern Selection[J].Procedia Computer Science,2014,31:918-927.

[26]Singh P K,Cherukuri A K,Li J.Concepts Reduction in Formal Concept Analysis with Fuzzy Setting Using Shannon Entropy[J].International Journal of Machine Learning and Cybernetics,2017,8(1):179-189.

[27]Boffa S,Maio C D,Nola A D,et al.Ferraioli and V.Loia,Unifying Fuzzy Concept Lattice Construction Methods[C]//IEEE International Conference on Fuzzy Systems(FUZZ-IEEE),Vancouver,BC,2016:209-216.

[28]Hao F,Min G,Pei Z,et al.K-clique Community Detection in Social Networks Based on Formal Concept Analysis[J].IEEE Systems,2015:250-259.

[29]Khediri N,Karoui W.Community Detection in Social Network with Node Attributes Based on Formal Concept Analysis[C]//2017 IEEE/ACS 14th International Conference on Computer Systems and Applications(AICCSA).IEEE,2017:1346-1353.

[30]Nicosia V,Mangioni G,Carchiolo V,et al.Extending the Definition of Modularity to Directed Graphs with Overlapping Communities[J].Journal of Statistical Mechanics Theory and Experiment,2008,(3):3166-3168.

[31]Michelle Girvan,Mark EJ Newman.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences,2002,99(12):7821-7826.

(責任编辑:陈 媛)