APP下载

一种基于词关联图的专题发现方法研究

2018-03-10周文瑄徐增壮洪宇周国栋

关键词:结点网络结构聚类

周文瑄,徐增壮,洪宇,周国栋

(苏州大学 计算机科学与技术学院,江苏 苏州 215006)

0 引言

专题发现(Topic Detection,简称为TD)任务,也称为主题检测,是一种自动的文本组织研究课题(为了便于表述,对专题与主题加以区分,在本文中,主题表示为专题的具体名称),其目标是从大规模文本数据中提取相关于同一主题的新闻报道,并与其他专题进行区分,形成主题内聚的一套独立的文档集合。比如,关于“G20峰会”的所有相关报道共同构成一个专题,而与“APEC峰会”相关的新闻报道构成另一个专题。专题发现的主要挑战集中于如下两点:

·专题的主题、类型和规模并未预先定义,并且其不具备任何先验知识可供参考(比如,该任务不会给出任何一项已知相关的文档作为检测特定专题的种子信息)。

·特定数据集合中的专题数量并不确定,然而,专题本身可根据内容概括性的高低不同,形成不同颗粒度的子专题,从而专题划分的深度具有较高的不确定性。比如,专题“峰会”可进一步细分为“G20峰会”和“APEC峰会”,那么,哪一种粒度的专题更为合理呢?

针对上述挑战,本文提出了一种以关键事件为中心的专题发现任务。首先,本文对大规模新闻文本进行基于关键内容的自动聚类;其次,对自动聚类的结果进行基于图结构文本归并,并形成最终专题聚类。

传统主题检测常用的概率模型主要有PLSA和LDA两种,PLSA[1](2001)通过概率方法和生成模式来计算出文档的主题分布,但由于在概率模型上没有先验分布,常存在过拟合的现象,因而Blei等[2](2006)基于PLSA提出LDA模型,在PLSA的基础上引入超参数,形成三层贝叶斯网络。自LDA被提出后,越来越多的人使用LDA进行主题检测并建模主题之间的关系,包括主题关联、主题层次和主题演化,如Wang等[3](2012)提出TMLDA的方法基于对已有专题的研究来估计主题的转移概率从而预测未来的专题。Yuan等[4](2013)针对推特数据提出W4(what+who+where+when)概率模型,结合四个因素考虑时空信息来进行专题检测。基于知识的主题模型能很好地将特定领域的先验知识融入主题检测[5-9],其中Andrzejewski等[5](2009)将特定领域的知识以词对的方式融入LDA模型中,从而对主题进行检测。Hu等[9](2014)提出一个交互式的主题模型,允许用户添加约束来迭代的改进主题模型,这些约束通常是出现在同一主题中的单词集合。在这些方法中,主题是词汇上的概率分布,文档是主题的混合,因此,LDA是一种混合成员模型。

与上述不同的,Liu等[10](2014)提出了一种完全不同的分级主题检测方法,该方法被称为多层隐树分析方法(HLTA)。在该方法中,主题是分层组织被表示为隐树模型(LTM),在LTM中,每个内部结点提出了几个状态,每个状态是一个主题和相应的文档集合。因此,文档可以来自不同内部节点的多个主题。因此,该模型是一种多重成员模型。

基于图的方法在主题检测中也取得巨大成果,Ohsawa等[11](1998)使用基于keyGraph的方法将词与词之间的共现关系转换成图,使用基于社交圈子的方法来将图切分开来。Zhao等[12](2007)针对社交媒体上的文本建图,图中的每个节点表示社会行为者,边表示二者之间的信息流,利用图分析方法将图切分开。Zhang等[13](2016)提出ideaGraph的图方法,强调词语之间潜在的共现关系,由此检测出重要又难以识别的专题,在该词图中,结点表示词,边表示之间的词之间的共现关系,同时融入LDA建立的语义信息图,使用图分析方法将术语图切分成一个个类簇,从而实现专题的检测。

随着互联网的高速发展,专题检测与追踪工作主要集中在博客、邮件、社区和论坛等社交媒体上。Cataldi等[14](2010)提出一种方法来检测Twitter上的新兴主题,采用新颖的老化理论(aging theory),挖掘在指定的时间间隔内经常发生,但在过去却很少见的词,同时研究了用户网络中的社会关系,量化每个研究文本的重要性,从而形成一个基于关键字的主题图,将新兴词汇与其共现的词链接起来,从而达到对新兴主题的检测。Chen等[15](2013)针对社交媒体上的特定组织,从用户、关键词和时序方面监控并爬取数据,提出一个增量式的聚类框架来检测新的主题,同时用一系列基于文本和时间的特征来辅助新主题的检测。Elbagoury等[16](2015)针对Twitter的主题检测受到文本长度以及缺少与推文相关上下文的限制,提出一种基于范例的主题检测方法。在该方法中,检测到的主题是用几个选定的推文进行表示。使用范例推文而不是一组关键字可以轻松地解释所探测主题的含义。由于互联网上嘈杂、稀疏和较少约束的数据,识别网络上的主题并不容易,Pang等[17](2015)从相似性扩散角度提出了跨相似级联(SC)的类聚类模式。SC通过使用一组阈值截断相似图生成的一系列子图,然后使用最大的分数来捕获主题,最后通过主题限制相似性扩散过程识别大量候选中的真实主题。Xie等[18](2016)针对大数据量Twitter数据提出TopicSketch方法来实时的检测突发主题,这是一种基于sketch的方法,在早期检测时,将数据的统计量进行存储,通过数据量增长加速度确定潜在主题并将统计量实时更新,然后通过最优化问题来检测突发主题,对于大数量造成的高维特征问题,提出了基于哈希的降维算法降低计算成本。

1 方法框架

主要介绍本文进行专题发现的方法。主要包括三个部分,第一部分进行文本的预处理工作,提取原始文本中的关键词,使用关键词代替原始文本,形成伪文档;第二部分进行文本表示和文本聚类,用特征向量来表示文本,并用k-means对其聚类;第三部分构造关键词网络结构,并进行“社交圈子”的发现,通过“社交圈子”优化聚类结果,形成最终专题。整体的方法流程图如图1所示。

Fig.1 Methodological framework图1 方法框架

1.1 关键词提取

现有关于关键词提取技术包括基于TF-IDF和TextRank算法等等。基于TF-IDF的关键词提取算法的主要是通过计算词语的TF-IDF,根据词语的TF-IDF进行排序,TF-IDF值越大,成为关键词的排名越高。基于TextRank的关键词提取算法是由Mihalcea等[19](2004)提出的,其借鉴了PageRank[20]的核心思想。本文采用了基于TextRank的关键词提取算法。将关键词提取之后,并保留关键词在原始文本中的频数,构造一个包含关键词和其频数的新文本代替原始文本。

1.2 文本的特征表示和文本聚类

现有的关于文本的特征表示的相关工作有很多,包括word-embedding、one-hot和TF-IDF等等。由于本文方法的第一步工作进行了关键词提取并保留关键词的频数信息,所以本文采用TF-IDF作为文本的特征表示。由于缺乏主题相关的先验知识,本文引入了Hamerly等[21](2003)的工作,通过数据集的统计量,并假设数据集的类簇子集呈正态分布,通过迭代k-means算法,找出数据集潜在主题个数,并形成专题类簇。

1.3 “社交圈子”发现与文本归并算法

“社交圈子”概念源于Girvan等[22](2002)提出的社群(Community)。根据社群的概念,社群内部的结点(实体)呈现紧密的联系,同时,社群的边界上的结点联系相对较少。本文继承了这一基本概念,并根据专题涉及的主要实体类型,人、组织/机构、地理,将社群定义为社交圈子,一个圈子中记录了不同类型实体关联关系的图。

Fig.2 An example of network structure图2 网络结构案例

对于“社交圈子”的发现,Girvan等人通过剪边策略实施。剪边的依据为结点与结点之间的间隔强度(betweenness)。间隔强度由所有两两结点之间最短路径经过这一边的结点对个数进行衡量。剪边过程中优先对间隔强度值值较大的边进行,原因是给定两个结点及其边上的间隔强度数值,如果这一数值较大说明分布在两个结点两侧的关联实体较为密集且各自独立。例如在图2所示的网络结构中, A1A2A3 三个结点联系较为紧密,实际上为一个“社交圈子”,而边A3A4具有最高的间隔强度,在对其剪边之后,重新计算两两结点之间的间隔强度,并根据剪边策略继续进行剪边。剪边是一个迭代的过程,对于何时停止迭代,Clauset等[23](2004)人给出了一个衡量标准:

(1)

(2)

公式(1)中,m表示图中“社交圈子”内部的边数,Avw表示结点v和结点w之间是不是存在边,如果存在,Avw=1,否则,Avw=0;kv是结点v的度数,如果v,w在同一个“社交圈子”中,公式(2)为1,否则为0。此外,公式(1)中,Q值是一个衡量网络结构中模块化的量,Q越高,说明剪边之后,网络结构中“社交圈子”结构越明显,也说明此次剪边策略是正确的;当Q下降时,说明剪边之后开始破坏了网络结构中的“社交圈子”结构,此时应该停止剪边,网络结构状态返回到此次剪边之前。

本文通过对关键词的共现信息构建关键词网络结构模型,并遵循Girvan等(2002)工作进行边切割,从而形成“社交圈子”结构,并通过基于“社交圈子”结构的文本归并算法形成最终专题。具体实现细节会在第3节中详细介绍。

2 基于“社交圈子”的文本归并算法

本文提出一种基于图模型的文本归并算法,旨在解决相似专题的文本被归并到一个类簇下的问题。核心思想为:首先,将初次聚类后每个类簇中新闻文本中的关键词(包括实体)抽取出来;其次,根据不同的关键词是否在同一篇新闻报道中出现进行建边,从而形成一个基于关键词的网络结构;接下来,根据剪边策略对该网络结构进行剪边,并根据终止条件停止剪边,形成基于关键词的“社交圈子”;最后,每个新闻文本根据其关键词集合与“社交圈子”的相似性确定最终归属类簇。

2.1 基于聚类的专题发现模型

由于网络新闻文本的特殊性,专题的主题、类型和规模并未预先定义,并且不具备任何先验知识可供参考,本文引入了Hamerly等[21](2003)的工作,通过假设数据集中潜在的类簇子集呈高斯分布,通过不断迭代从而确定k-means聚类算法的聚类个数k值(本文把该算法称为g-means聚类算法),从而确定数据集专题的数量。但是通过观察数据发现,对某些近似专题(例如专题“李克强访问中欧”和专题“李克强访问欧亚”)下的新闻的主体内容进行提取关键词(包括实体)并使用g-means聚类算法进行聚类之后,聚类结果表明,近似专题的新闻报道会同时出现同一个类簇中。

2.2 基于“社交圈子”的文本归并算法

基于聚类算法的专题发现是从文本语义上的相似度确定新闻文本是否属于同一个专题,因此对于文本语义上很近似的新闻专题映射到空间向量表示时,这些向量表示也表现很强的相似性。

基于上述问题,本文针对聚类结果进行优化,使得聚类结果中相似专题分割开。规定,在网络结构中,关键词为网络中的结点,如果关键词在同一篇新闻报道中出现,则关键词对应的结点之间存在连接,因此同一篇新闻中的关键词连接的网络结构为全连接的,在这种网络结构中,只存在一个“社交圈子”;对于同一个专题下的新闻,文本与文本之间由于存在较多相同的关键词,所以在网络结构中也呈现较强的相关性;对于相似专题下的新闻文本之间也存在一些相同的关键词,比如“李克强访问中欧”和“李克强访问欧亚”,但是“访问”的地点不同,“访问”的相关事宜不同,所以关键词的分布也不尽相同;此外某些类簇结果中还存在一些噪音文本,这些噪音文本由于聚类算法的不完美而引入该类簇结果中,这些噪音文本在关键词表示上,相同的关键词会更少,甚至没有相同的关键词。综上,这些文本的关键词在网络结构表示如图3所示,每个结点为文本的关键词的表示,不同符号的结点代表不同文本中的关键词,不同符号的结点之间存在连接,表明两个文本间存在相同的关键词。

Fig.3 Initial structure before pruning图3 剪边前的初始网络结构

Fig.4 Structure generated by pruning图4 剪边后的网络结构

通过对该网络结构使用剪边策略进行剪边,从而获得“社交圈子”, 如图4所示。将每个“社交圈子”抽象为一个包含关键词的集合,将每个新闻文本也抽象为一个关键词集合,通过某种策略,从而确定每个新闻文本属于的“社交圈子”结构,进而确定最终的聚类结构。对于算法中步骤4,提出了两种策略,第一种方法为“投票法”,即新闻文本属于其关键词出现在最多的“社交圈子”,具体做法为,文本关键词集合Kj与每个“社交圈子”Cuk取交集,最终新闻文本属于最大交集对应的“社交圈子”;第二种方法使用杰卡德相似系数计算文本关键词集合Kj与每个“社交圈子”Cuk的相似度,并最终确定新闻文本属于的“社交圈子”。杰卡德相似系数定义如下:

(3)

基于“社交圈子”的文本归并算法的主要步骤如下。

基于“社交圈子”结构的文本归并算法Step1遍历每个类簇,提取类簇中文本关键词(包括实体);Step2根据关键词是否在同一个文本中共现,确定两个关键词之间是否存在边,从而构造图模型;Step3边裁剪,从而确定“社交圈子”;Step4类簇中每个文本(记为)中的关键词集合与每个“社交圈子”(记为)进行比较,按照某种策略把归并到相应的对应的子类簇下;Step5归并结束后,新的类簇集合为最终类簇。

3 实验与结果分析

3.1 实验数据与评价方法

本文语料来源于搜狐新闻的专题模块,通过人工分类,本文确定了一下6个专题,共583篇新闻,具体如表1所示。对于网络新闻文本的专题发现,本文事先没有任何关于专题的先验知识。所以本文对系统输出结果采用聚类算法通常采用的熵(Entropy)和纯度(Purity)两个评价指标进行衡量。

表1 专题语料

对于熵而言,其公式如下:

(4)

对于纯度而言,其公式如下:

(5)

其中,Ci表示实际类别(class),K表示类簇个数,Li表示类簇i中所有的成员个数,max(Ci|Li)表示类簇i中属于同一实际类别最多的成员的个数。

3.2 实验配置

本文使用的聚类算法是遵循Hamerly等[21](2003)的工作,其源代码实现参考SMILE*Available at https:∥github.com/haifengl/smile源工具包,聚类函数使用的相似度函数采用余弦相似度函数,“社交圈子”结构相关算法参考。为了验证基于“社交圈子”结构的文本归并算法的有效性,本文共实现以下表2中4个系统。其中,系统TC和系统LC是为了对比不同的文本特征对聚类算法的影响,系统TCoVC、TCoSC是为了验证基于“社交圈子”的文本归并算法对基于TF-IDF特征的聚类算法的有效性此外,系统TCoVC和TCoSC为了对比不同的归并策略对归并算法的影响。

表2 系统描述

3.3 文本特征提取

针对聚类算法和基于“社交圈子”结构的文本归并算法分别使用了两种特征。对于聚类算法而言,使用了基于TextRank的关键词提取算法*TextRank的关键词提取算法:https:∥github.com/hankcs/HanLP提取的关键词特征,在观察数据后,本文取得分较高的前30个关键词并保留关键词在原始文本中的频数,此外还包括词性分别为NR、NS、NT的词并保留频数。对于基于“社交圈子”结构的文本归并算法,本文只使用了关键词的前10个,主要出于两方面考虑。第一,聚类结果内部的新闻已经表现为较强的相关性,较多的关键词会使得构建的网络结构过于稠密,使得剪边策略失效,从而不易区分近似主题或去除噪音文本;第二,较多的关键词会使得网络结构过于复杂,剪边使用的时间复杂度过高,导致性能低下。

此外,因为在实际场景中无法预估语料中的专题的个数,所以在实验中训练LDA主题模型时凭经验设置了100个主题。

3.4 性能对比

关于使用图结构优化主题分布的工作,Zhang等[13](2016)提出ideaGraph的图方法,通过使用图模型向主题模型(LDA)中融入词与词的共现关系帮助发现罕见但重要的主题。实验证明,Zhang等的方法起到了明显的效果,其P、R、F值分别可以达到80%左右。

与上述工作不同的是,本文工作是为了发现数据集中的潜在主题,由于专题类型和规模并未定义,本文无法进行P、R、F值的统计,基于此,本文采用了纯度作为评价指标,本文方法可以使检测到主题纯度达到90%以上。

进一步分析表3的性能对比,本文发现基于LDA主题特征的系统LC的纯度为80.1%。然而通过观察类簇数据发现,比如“俄罗斯客机失事”这个专题,其精度可以接近100%,“G20峰会”和“APEC峰会”两个主题却无法进行有效的区分。由此,本文可推测训练LDA主题特征时,语料规模、语料中的主题分布和主题数的设置对专题发现起到了关键作用,如果语料规模不够大并且没有正确设置数据集的主题数,每个主题下的主题词分布就不能反映数据集主题的真实分布,就可能导致专题与专题之间无法准确划分开。

针对上述猜想,通过设置不同的主题个数,本文对系统LC的聚类结果进行基于“社交圈子”的文本归并,试验结果如图5、图6所示。本文发现,随着主题数的变化,熵和纯度的变化并不大。通过观察实验结果,上述的问题依旧存在。

Fig.5 Influence of topic number to entropy图5 主题数对熵的影响

Fig.6 Influence of topic number to purity图6 主题数对纯度的影响

基于上述原因,本文提出了系统TC,通过对比,系统LC的熵比系统TC的熵高了0.227,说明系统LC结果的类簇内部主题分布更加稳定。此外,系统TCoSC比系统TC的熵降低了0.031,纯度提升了2.4%,系统TCoVC比系统TC的熵降低了0.026,纯度提升了1.4%,这说明了本文提出的基于“社交圈子”结构的文本归并算法对聚类结果的精度提升起到了积极的作用。经分析,系统提升的原因有以下几点:第一,文本的特征选择信息量更大的关键词;第二,直接使用关键词的TF-IDF特征可以获取文本的更加细粒度的信息,有利于近似主题的区分;第三,基于“社交圈子”的文本归并引入了词共现关系,根据这些词在文本中的分布情况进一步划分聚类结果。此外,本文观察到,基于杰卡德相似系数的性能略高于基于“投票法”的性能,这因为当交集的个数相同的时候,文本更倾向于与结点较少的“社交圈子”结构相似,而不是随机分配。

表3 性能对比

“社交圈子”虽然使聚类的纯度提高,但是同时也会使聚类类簇数量增加,类簇大小相对减小。但本文致力于在专题的主题、类型和规模并未预先定义,并且其不具备任何先验知识可供参考的情况下,提高类簇之间的纯度,因而类簇的纯度和熵是本文的关注点。之后的工作可进一步考虑社交圈子的数量、规模等因素来完善本文的工作。

4 结论

本文的任务背景是从一个大规模数据集中进行专题发现,专题的主题、类型和规模并未预先定义,并且其不具备任何先验知识可供参考,基于此,本文通过引入统计的方法,并遵循Hamerly等(2003)的工作,通过假设数据的类簇子集呈正态分布,通过迭代k-means聚类算法,确定数据集合中的专题数量并进行专题发现。由于新闻文本的特殊性,不同新闻的专题存在相似性,所以本文通过在聚类结果使用基于“社交圈子”结构的文本归并算法,使类簇内部的文本进一步划分,将相似专题的文本区分开,从而一定程度上提升类簇的纯度,更加有利于专题的发现以及主题的抽取。

但是,本文发现类簇的纯度提升的幅度并不大,主要原因在于构建网络使用的特征并不是最优的,并且构建网络时,结点(关键词)与结点(关键词)的边仅仅是通过关键词在一个文本中共现来决定的。因此,本文未来的工作从两个方面出发,第一,寻找文本表示信息量更大的特征去构建网络结构;第二,网络中边的构建可以融入更多的信息,如语义信息等。

[1] Hofmann T.Unsupervised Learning by Probabilistic Latent Semantic Analysis[J].Machinelearning,2001,42(1):177-196.

[2] Blei D M,Lafferty J D.Dynamic Topic Models[C]∥Proceedings of the 23rd international conference on Machine learning.ACM,2006:113-120.DOI:10.1145/1143844.1143859.

[3] Wang Y,Agichtein E,Benzi M.TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Media[C]∥Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2012: 123-131.DOI:10.1145/2339530.2339552.

[4] Yuan Q,Cong G,Ma Z,etal.Who,Where,When and What:Discover Spatio-temporal Topics for Twitter Users[C]∥Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2013: 605-613.DOI:10.1145/2487575.2487576.

[5] Andrzejewski D,Zhu X,Craven M.Incorporating Domain Knowledge Into Topic Modeling Via Dirichlet Forest Priors[C]∥Proceedings of the 26th Annual International Conference on Machine Learning.ACM,2009:25-32.DOI:10.1145/1553374.1553378.

[6] Chen Z,Mukherjee A,Liu B,etal.Exploiting Domain Knowledge in Aspect Extraction[C]∥EMNLP,2013: 1655-1667.

[7] Mukherjee A,Liu B.Aspect Extraction Through Semi-supervised Modeling[C]∥Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1.Association for Computational Linguistics,2012:339-348.

[8] Fu X,Yang K,Huang J Z,etal.Dynamic Non-parametric Joint Sentiment Topic Mixture Model[J].Knowledge-BasedSystems,2015,82:102-114.DOI:10.1016/j.knosys.2015.02.021.

[9] Hu Y,Boyd-Graber J,Satinoff B,etal.Interactive Topic Modeling[J].MachineLearning,2014,95(3):423-469.DOI:10.1007/s10994-013-5413-0.

[10] Liu T,Zhang N L,Chen P.Hierarchical Latent Tree Analysis for Topic Detection[C]∥Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer,Berlin,Heidelberg,2014: 256-272.DOI:10.1007/978-3-662-44851-9-17.

[11] Ohsawa Y,Benson N E,Yachida M.KeyGraph:Automatic Indexing by Co-occurrence Graph based on Building Construction Metaphor[C]∥Research and Technology Advances in Digital Libraries,1998.ADL 98.Proceedings.IEEE International Forum on.IEEE,1998:12-18.DOI:10.1109/ADL.1998.670375.

[12] Zhao Q,Mitra P,Chen B.Temporal and Information Flow Based Event Detection from Social Text Streams[C]∥AAAI.2007,7:1501-1506.

[13] Zhang C,Wang H,Cao L,etal.A Hybrid Term-term Relations Analysis Approach for Topic Detection[J].Knowledge-BasedSystems,2016,93:109-120.DOI:10.1016/j.knosys.2015.11.006.

[14] Cataldi M,Di Caro L,Schifanella C.Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation[C]∥Proceedings of the Tenth International Workshop on Multimedia Data Mining.ACM,2010:4.DOI:10.1145/1814245.1814249.

[15] Chen Y,Amiri H,Li Z,etal.Emerging Topic Detection for Organizations from Microblogs[C]∥Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2013:43-52.DOI:10.1145/2484028.2484057.

[16] Elbagoury A,Ibrahim R,Farahat A K,etal.Exemplar-Based Topic Detection in Twitter Treams[C]∥ICWSM.2015:610-613.

[17] Pang J,Jia F,Zhang C,etal.Unsupervised Web Topic Detection using a Ranked Clustering-like Pattern Across Similarity Cascades[J].IEEE Transactions on Multimedia,2015,17(6):843-853.DOI:10.1109/tmm.2015.2425143.

[18] Xie W,Zhu F,Jiang J,etal.Topicsketch:Real-time Bursty Topic Detection from Twitter[J].IEEETransactionsonKnowledgeandDataEngineering,2016,28(8):2216-2229.DOI:10.1109/icdm.2013.86.

[19] Mihalcea R,Tarau P.TextRank:Bringing Order Into Texts[C]∥Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing,2004:404-411.

[20] Page L,Brin S,Motwani R,etal.The PageRank Citation Ranking:Bringing Order to the Web[R].Stanford InfoLab,1999.DOI:10.1016/j.ipm.2007.06.006.

[21] Hamerly G,Elkan C.Learning the k in k-means[C]∥NIPS.2003,3:281-288.

[22] Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].ProceedingsoftheNationalAcademyofSciences,2002,99(12):7821-7826.DOI:10.1073/pnas.122653799.

[23] Clauset A,Newman M E J,Moore C.Finding Community Structure in Very Large Networks[J].PhysicalReviewE,2004,70(6):066111.DOI:10.1103/physreve.70.066111.

猜你喜欢

结点网络结构聚类
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
基于K-means聚类的车-地无线通信场强研究
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用
沪港通下A+ H股票网络结构演化的实证分析
基于改进的遗传算法的模糊聚类算法
复杂网络结构比对算法研究进展