基于社区发现和关键节点识别的网络舆情主题发现与实证分析

2020-12-15王曰芬王一山杨洁

图书与情报 2020年5期

王曰芬王一山杨洁

摘要：为了深入探究网络舆情演化的特点与规律，需要在内容层面上有效地从网络舆情的大量数据中发现高价值的舆情主题，并结合时间维度将各个时间点孤立的舆情内容整合起来。文章将情报学理论、生命周期理论、舆情传播理论、社会网络分析方法与文本分析方法相结合，提出了基于社区发现与关键节点识别的包括网络舆情生命周期阶段划分、网络舆情社区发现与关键节点识别、舆情事件主题发现三个部分的网络舆情主题发现研究设计。最后，选取新浪微博“上海踩踏”事件作为研究对象进行实证分析。研究发现：在主题发现研究中加入用户属性和用户行为等非文本特征要素的设计，弥补了用户关系的缺失，提高主题发现的效率;提出的主题发现方法在一定程度上降低了微博文本稀疏性的影响;研究发现了舆情事件在整个生命周期中主题内容变化的状态，所提方案可为相关决策提供有效的方法支撑，研究结论具有情报参考价值。

关键词：网络舆情;主题发现;社区发现;关键节点识别;非文本特征

中图分类号：C912.63 文献标识码：A DOI：10.11968/tsyqb.1003-6938.2020081

Abstract In order to explore the characteristics and laws of the evolution of network public opinion， it is necessary to effectively identify high-value public opinion topics from a large number of data of network public opinion at the content level， and integrate the public opinion content isolated at different time points with the time dimension. This paper combines information science theory， life cycle theory， public opinion communication theory， social network analysis method and text analysis method， proposes the research design based on community detection and key node identification. Finally， the paper takes the "Shanghai stampede" incident of Sina Weibo as the research object for empirical analysis. The results show that： the addition of non-text feature elements such as user attributes and user behavior to the topic discovery makes up for the lack of user relationship and improves the efficiency of topic discovery; the proposed topic discovery method reduces the impact of sparsity of micro-blog text; the research finds out the changing state of the subject content of public opinion events in the whole life cycle. The proposed research design can provide effective methodological support for relevant decision-making， and the research conclusion has information reference value.

Key words network public opinion; topic discovery; community detection; key node identification; Non-textual features

1 引言

近年来，随着网络信息技术的推陈出新，除了网络新闻、网络论坛外，诸如微博、微信、兴趣知识型社区等网络社交平台如雨后春笋般涌現。相较于传统媒体，网络社交平台在信息传播上具备速度快、范围广、交互性强的特点，并且从根本上改变了信息传播者与接受者之间的关系，颠覆了传统新闻媒介原有的信息传播方式，原本作为信息接受者的网民也能通过发表自己的观点，作为信息发布者参与到新闻事件中来，形成了传播者之间相互交错、传播主题瞬息纷呈、传播效果变化难料的网络传播环境。

在此背景下，一些突发性社会事件或极易引起争议的事件，经由网络社交媒体的发布与信息传播，在网民的推动下，就会形成网络舆情。一方面，从舆情传播可产生的正面效果讲，网络舆情在传播过程中，由于涉及面广，大量的网民参与其中，关注事件发展并充分表达观点，可以形成值得政府、企业等机构参考并对各类社会组织有效监督的信息及其流动，促进公众参与社会管理;另一方面，从负面效果来讲，由于网民的情绪很容易被煽动，而且网络中信息真伪难辨，一旦控制不好，容易引发更加严重的二次社会事件或舆情危机。因此，如何对大量的舆情数据进行采集、处理、整合、分析与挖掘，进而有效提取并了解公众的舆情观点，将有助于决策者了解人民群众真正关心的事件与需求，做出更加科学合理的决策，同时在对网络舆情信息进行内容挖掘的基础上，了解舆情信息内容之间深层次的关联关系，真正掌握舆情信息的传播与演化规律，并在网络舆情发生之初就能积极应对，将最大限度地降低舆情事件带来的负面影响。

由于网络社交媒体平台具有用户众多、发布迅速、用语不规范等特点，相应地，生成于该平台的网络舆情数据则具有体量浩大（Volume）、模态繁多（Variety）、生成快速（Velocity）和价值低密（Value）的特点。基于此，如何有效地从网络舆情的大量数据中发现高价值的舆情主题是从内容层面研究网络舆情演化的前提，并结合时间维度，如何将各个时间点孤立的舆情内容整合起来，是从内容层面研究网络舆情的核心。为解决上述问题，本文将借助于情报学理论和方法，结合生命周期理论、网络舆情演化理论、社会网络分析方法与文本分析方法，以微博为实验平台，针对微博舆情数据特点设计网络舆情分析研究方案，探索舆情主题发现的有效方法，并分析舆情内容的演化规律，以期为决策提供方法支撑与情报参考。

2 相关研究

迄今为止，有关舆情研究论文涉及的面广、数量多，基于本文的研究目的，将围绕着舆情主题发现、社区发现、关键节点识别和舆情生命周期研判四个方面进行概要归纳。

（1）舆情主题发现。主题发现即主题抽取或主题识别，目的是对大规模信息进行处理和分析，帮助用户快速有效地了解信息内容、发现信息主题。主题发现最早源自美国国防部高级研究计划署提出的话题检测与跟踪技术，旨在对海量的信息内容进行处理和分析，以发掘信息主题[1]。现有的文本聚类和主题模型两类主题发现方法已经被应用到舆情主题发现中，如路荣等[2]提出一种在大规模微博客短文本数据集上发现新闻话题的方法，利用隐主题分析技术，解决短文本相似度度量的问题;唐晓波和房小可[3]针对文本聚类和LDA主题模型的互补特征，综合考虑微博特殊文体和短文本聚类效率问题，提出基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的主题检索模型;阮光册[4]针对网络用户评论信息内容短、信息量少的特征，提出基于LDA（latent Dirichlet allocation）主题发现模型对网络评论进行主题发现;Weng等[5]和Zvi等[6]在用户层面进行主题建模，研究根据用户的兴趣进行个性化推荐以及社区发现;Titov和Mcdonald[7]提出了多粒度LDA 模型，将情感层加入LDA模型，同时考虑了文档级与局部的情感/主题分布，避免了对单词、短语和句子的依赖，改善了情感分布在不同领域的适应性。

（2）社区发现。社区发现是指将一个集合中的元素按照元素之间的某种关系，划分为若干个社区（可交叉子集）的过程[8]。社区发现的基本作用是将个体进行分类，划分到多个社区中。根据相关文献，现有的社区发现研究主要集中在社会学的分级聚类和图理论的图形分割两方面[8]，代表算法有：GN（Girvan and Newmans）算法[9]、Newman 快速算法[10]、基于图聚类的normalized cut 算法[11]等，以及在上述算法基础上的应用研究，如淦文燕等[12]从数据场思想出发，提出一种基于拓扑势的社区发现算法;林友芳等[13]提出一种边稳定系数模型和一种能表达个体间关系紧密度的完全信息图模型，在此基础上设计和实现了一种融合个体和链接属性的社区发现算法[13]。

（3）关键节点识别。社会网络中的关键节点是指在网络形成与交互中具有重要影响力的节点，是与舆情传播中“意见领袖”概念相对应的。“意见领袖”最先由拉扎斯菲尔德提出，其定义为：媒介信息传给社会群体的过程中，那些扮演某种有影响力的中介角色[14]。社会网络中关键节点的识别方法主要包括层次分析法、聚类分析法、社会网络分析法、HITS算法及PageRank算法等[15]。相关学者基于上述方法进行了大量的研究，如Darus等[16]利用AHP方法研究选择团队领袖的团队构建模型;谭雪晗等[17]利用社会网络分析方法筛选出事故灾难舆情中的关键信息发布者和关键事件关注者，并提出以关键节点为中心的事故灾难舆情治理策略;肖宇等[18]在传统PageRank算法基础上，利用用户回帖倾向性对用户间链接的权重重新赋值，构建新的基于倾向性分析的LeaderRank意见领袖发现算法。

（4）舆情生命周期研判。“生命周期”（Life Cycle）这一概念最初源自生物学领域，用于描述生物体在生命演化过程中其形态和功能所发生的改变及其呈现出的阶段性特征。基于生命周期概念形成的理论认为，某一事物或对象从产生到消亡的全过程可视作一段完整的生命过程，而这一过程又因该事物或对象前后表现出不同的形态可划分为多个不同的阶段。网络舆情事件的发展历程跟上述生命周期类似，同样要经历生物体从出生到死亡的全过程。如某一舆情事件发生后，随之而来的是舆情信息在网络平台的扩散和传播，且舆情信息随着网民之间的互动，不断传播迭代，其形态和发展方向会逐步变化。目前，生命周期理論在网络舆情演化研究中的应用主要体现在两个方面[19-20]：①使用生命周期理论可以表明舆情事件在网络中的传播具备生命周期特征;②根据生命周期理论为舆情事件划分阶段，便于研究舆情事件在不同阶段的特征差异，为舆情演化研究提供分析思路。

综上所述，学者们对相关内容进行了许多研究。但是，利用诸如用户行为等非文本特征进行舆情主题发现的研究仍然较少，有待继续深入。网络舆情在社交媒体平台中的传播深受平台用户行为的影响，如用户的发布、转发、评论和点赞等行为推动着舆情信息的产生和传播。由于平台中的舆情信息不仅包括文本内容，还包含用户、时间、地理位置等非文本特征的信息，对这些信息进行深度挖掘与分析才能反映舆情主题及其变化。基于情报学的舆情分析是图书情报学领域的特色主题[21]，因此，本文认为利用用户行为等非文本特征信息从内容层面和时间维度相结合的角度进行网络舆情主题发现与分析的研究将是值得深入研究的方向。

3 研究设计

3.1 研究思路

研究选取微博平台作为数据来源，以网络舆情事件作为研究对象，将研究主要流程设计划分为：网络舆情生命周期阶段划分、网络舆情社区发现与关键节点识别、舆情事件主题发现三个部分，并提出研究设计的总体思路（见图1）。

其中，第一部分，舆情事件的生命周期阶段划分：导入生命周期理论，按照舆情事件的发展态势，将舆情事件从产生到消亡的整个过程划分为若干个阶段;第二部分，网络舆情社区发现与关键节点识别：首先，以微博用户为节点，用户行为（转发和评论）为连线，构建舆情社会网络;其次，利用社区发现算法进行用户社区发现;最后，识别每个社区的关键节点;第三部分，网络舆情主题发现：首先，建立“用户社区-关键节点-微博”映射，获得每个社区的微博内容;其次，利用TF-IDF算法进行用户社区关键词过滤，提取TF-IDF值排名Top20的关键词作为舆情主题词，并归纳每个社区的主题。在完成舆情主题发现后，归纳舆情主题并分析。

3.2 网络舆情社区发现与关键节点识别的研究设计

（1）舆情社会网络构建。节点和连线是社会网络中最基本的两类元素，节点代表用户或行为者，连线代表行为者之间的关系，构建社会网络需要确定节点和连线。舆情事件在微博中的传播与扩散主要靠的是用户的转发和评论，基于转发和评论关系构建的微博社会网络具有更明确的事件性和主题性。因此，本文基于转发和评论两类用户行为构建微博舆情社会网络：以微博用户为节点，以用户对微博的转发或评论行为建立转发者、评论者与被转发者、被评论者之间的联系作为连线，构建微博舆情社会网络。同时，本文对转发和评论两类用户行为赋予不同的权重（具体说明见表1）。

其中， C（Ui）是所有与Ui发生交互的节点数目，本文中的社会网络是基于权重的网络，需要考虑边的权重;d是阻尼系数，可设定在（0，1）之间，通常取0.85。通过迭代，可以计算所有用户的L（Ui）。

3.3 网络舆情主题发现的研究设计

（1）“用户社区-关键节点-微博”映射。根据本文研究，我们可通过计算微博用户的影响力来识别微博舆情社会网络中的关键节点。用户影响力取决于用户属性和用户行为，其外在表现以具体的微博内容形式呈现，高影响力用户的微博内容的传播效果更大、影响范围更广。在识别每个用户社区的关键节点后，提取其微博内容，建立“用户社区-关键节点-微博内容”的映射，是进行主题发现的前提。具体操作说明如下：首先，根据用户社区编号和用户ID精确匹配用户社区和关键节点;其次，根据微博用户发布者ID将关键节点用户与其所发微博内容对应起来;最后，形成“用户社区-关键节点-微博内容”映射，构成各用户社区的微博文本集合。

（2）用户社区关键词过滤及舆情主題提取。由于微博文本具有字数少、不规范等特点，为提高主题的识别准确度，需要将分散的微博文本集中起来。首先，将用户社区微博文本集中的所有微博文本进行合并，包括原创微博、转发微博。部分微博文本中含有一些网页链接，链接内容多为相关的新闻报道和点评文章，用户发布这些链接的初衷就是希望让更多的人查看链接内容。而且链接内容被发布或转发也代表被对应的发布和转发用户熟知并赞同，一定程度上代表其观点和看法。因此，微博文本中链接内容也要并入上述文本集中;其次，计算文本集中词语的TF-IDF值，按照从高到低的顺序排列，并选取TF-IDF值排名前20的关键词作为舆情主题词，并进行归纳。

TF-IDF算法是一种利用统计原理的分析方法，用以评估某一个字或词对一个文档集或一个语料库中的某一份文件的重要性，常用于长文本的关键词重要性分析，其主要思想为：某一字词的重要性与其在文档中的出现频次正相关，同时与该字词在整个语料库中的出现频次负相关。其中“TF”代表词频（termfrequency，TF），表示某个词在文档中的出现次数，文章有长短之分，为了便于不同文章的比较，需要做“词频”标准化，因此本文规定，词频（TF）=某个词在文档中的出现次数 / 文档总词数;“IDF”代表逆向文件频率（inverse document frequency，IDF），它的大小与词的常见程度成反比，逆文档频率（IDF）= log（语料库的文档总数/包含该词的文档总数+1）。TF-TDF值计算公式如下所示：

TF-IDF = 词频（TF） * 逆文档频率（IDF）（7）

综上所述，文档中某一词的TF-IDF值越大，表示该词对文档越重要，越能表示文档内容的主题。TF-IDF算法可用于自动提取文档的关键词，即计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

4 实证分析

4.1 数据来源及其说明

本文的数据来源为新浪微博（littp：//weibo.com），采集策略为：以舆情事件“上海踩踏”为检索词，使用微博爬虫采集舆情事件数据，并将获取的数据存入MySQL数据库。根据前期调查，将数据的时间跨度设为：2015年1月1日-2015年3月20日。采集后的数据存放在四张信息表中：（1）微博信息表（weibo_info），主要记录用户发布和转发的微博内容信息;（2）转发表（weibo_forward），主要记录用户的转发行为信息，包括转发者、被转发者以及转发的微博内容;（3）评论表（weibo_comment），主要记录用户的评论行为信息和评论内容;（4）用户信息表（weibo_blogger），主要记录参与舆情事件的用户信息。

4.2 舆情事件生命周期阶段划分

舆情事件从产生到消亡的整个过程总是要持续一段时间的，此过程历经舆情的产生、扩散、爆发和消亡等多个阶段，且伴随着用户的情绪、意见、观点等的发展与变化。经过统计，可以看到上海踩踏事件的微博发文数和转发数按天计算的结果（见图2），并发现在微博平台中的舆情传播呈现出明显的阶段性特征。

根据生命周期理论，本文依据微博发文数和转发数的变化情况来划分舆情事件的传播阶段。由图2中可知上海外滩踩踏事件一是相对跨越的时间较长，二是中间经历了几次起伏变化，所以，结合生命周期理论与舆情变化数，将舆情事件的整个过程划分为五个阶段：

（1）爆发期一：1月1日-1月6日;

（2）衰退期一：1月7日-1月11日;

（3）爆发期二：1月12日-1月19日;

（4）爆发期三：1月20日-1月27日;

（5）衰退期二及平缓期：1月28日-3月20日;

由于，“爆发期一”处于事件发生后的最初几天，数据信息量过于庞大，故本研究对其进行进一步划分，以“天”为单位，又将其划分为6个小阶段。

4.3 网络舆情的社区发现与关键节点识别

（1）舆情社会网络构建。目前国内外用于社会网络关系构建的应用软件包括：Gephi、Citespace、Network Workbench Tool以及Pajek等。由于Gephi能够处理的数据量较大，可视化效果较好，本文采用Gephi软件来实现基于用户转发和评论关系的舆情事件社会网络构建，并使其可视化。具体操作步骤如下：①映射：以微博信息表中的微博ID（或mid）为桥梁，匹配转发表中的转发者ID（forwarder_id）和被转发者ID（用户信息表中查找用户ID），形成用户转发关系映射;匹配评论表中的评论者ID（reviewer_id）和被评论微博发布者ID（用户信息表中查找用户ID），形成用户评论关系映射;②赋权：根据微博用户转发、评论权重，给上述转发关系映射和评论关系映射分别赋予2和1的权重值;③合并：将相同的转发关系映射和评论关系映射合并，对应的权重值求和，如：A用户转发B用户一次，评论一次，“A-B”用户行为关系映射的权重为：2+1=3;④Gephi导入数据初始化：进一步处理上述合并后的用户行为映射表，提取表中所有节点，去重，统计每个节点的出现频次，形成“节点”数据表;原有的用户行为关系映射表则作为“边”数据表（两类表格样例分别见图3、图4）。

（2）社区发现。在本文构建舆情社会网络的基础上，利用公式2进行用户社区的发现。选取舆情事件生命周期各阶段用户数占比在1%以上的社区，并将其编号并按照规模大小降序排列（部分社区信息见表2）。

（3）关键节点识别。利用公式4、5和6计算舆情生命周期各阶段每个社区中用户的影响力，并按照其大小降序排列。研究发现，除了常见的拥有高粉丝数的高影响力用户外，社区中同样存在拥有低粉丝数的高影响力用户，其PageRank值较高，说明该类用户在舆情事件中积极传播信息，受到高度關注。这一实验结果也应证了将PageRank值与粉丝数相结合来表示微博用户影响力这一方式是有效的。根据“二八定律”（20%的用户占据了80%以上的影响力），研究选取影响力值占比前80%的用户作为该社区的关键节点（见图5）。

4.4 网络舆情主题发现

（1）“用户社区-关键节点-微博”映射。根据关键节点的ID，在微博信息表和转发表中查询与关键节点相关的微博内容，包括：原创微博内容、转发的微博内容及转发评语、微博内容中的URL网址所对应的网页内容。将属于同一个关键节点的内容进行合并，并映射到该用户，最终形成用户社区的微博文本集合（见图6）。

（2）用户社区关键词过滤及舆情主题提取。根据上述实验结果研究发现，同一个用户社区的关键节点的微博内容虽有部分差异，但整体内容基本趋于一致。其表现通常为：①某一或两个关键节点发布内容，大量微博用户转发，围绕这一或两个关键节点形成用户社区;②某一或两个关键节点发布内容，少数用户转发其微博并作评价，大量用户再转发评价后的微博，形成多层级的转发关系，再形成用户社区。两类社区中的微博内容基本都是在个别原创微博的基础上增加内容，同质化情况较为严重，而且单条微博文本也存在字数较少的问题，不利于主题提取。因此，研究中将用户社区关键节点的微博合并，以用户社区为单位抽取关键词。利用公式7计算用户社区中所有词语的TF-IDF值，并由高到低排序，选取TF-IDF值排序在前20的词语作为用户社区的舆情主题词（见表3）。并将舆情事件生命周期每个阶段的不同用户社区的舆情主题词及其主题内容进行归纳（见表4）。

4.5 舆情事件主题的归类与分析

根据提取的上海踩踏事件生命周期各阶段的主题词及其归纳主题，本文在此基础上结合事件的发展，将所有主题按照踩踏事件主题、关联事件主题、观点看法主题、情感表达主题四大类进行总结和分析，得出事件全部主题内容细节（见表5），本文将详细分析各类舆情事件揭示的主题内容。

从整体上看，事件的主题内容主要集中在：（1）对踩踏事件的跟踪报道：踩踏发生、伤员遇难者信息、警力部署、事故调查等;（2）相似或关联的事件：哈尔滨大火、郴州工地坍塌、西北大学争议文章等;（3）观点看法的表达：遇到类似事故如何自救、对城市管理水平的思考、发达国家的优秀经验、追究相关人员责任、反腐败等;（4）情感表法：默哀、心痛、难过、谴责排外言论、谴责腐败行为、痛斥散布谣言等。

从相邻阶段主题的演化上看，在“爆发期一”阶段，事件刚发生时，主题主要为事故现场信息及其跟踪报道，紧接着便是遇难者统计、伤员救治等事故处理类的主题，这一过程中夹杂着网友的情绪宣泄;事件发生两天后，一些与事件间接相关的事件主题被网络媒体和网民抛出，同时针对事故进行反思和观点看法的表达迅速增多，整个网络社区充斥着各种讨论，其中不乏谣言和极端言论;随着伤员救治和遇难者善后工作的逐步完成，与事件直接相关的主题过渡到事故原因调查，政府出台相关规定，以及处理责任人上。同时网民讨论的重点也是对各项规章制度的比较与反思，这段时间整体言论都偏理性，感性言论较少;随着西北大学发文《上海踩踏事故证明我院的管理无比正确》和遇难者“头七”的到来，网络上随即出现了大量的声讨、讽刺和谴责西北大学的主题，情绪宣泄的感觉强烈，同时“头七”当天大量的默哀类主题占据主流。

在“衰退期一”阶段，微博的发文数和转发数逐渐降低，事件开始逐渐走向平息，事件进展类的主题被关联事件主题、观点看法和情绪表达的主题所取代。

在“爆发期二”阶段，随着“踩踏事件发生当晚，黄浦区领导在外滩高档餐厅公款吃喝”这一消息的披露，事件再次被点燃。该阶段内，用餐细节和涉事官员的信息被披露，舆情主题从之前的事故反思和吸取教训逐渐分化为：（1）公款吃喝类主题：处理涉事官员、反腐败、依法治国;（2）事故反思和吸取教训类主题。

在“爆发期三”阶段，由于“爆发期二”阶段披露的公款吃喝事件的倍受关注以及相关处理结果的公布，网民的讨论热情迅速高涨，舆情在“爆发期二”阶段后被再次推向高潮，此阶段的主题集中在对公款吃喝事件的深度挖掘和情感表达上，内容更丰富，情绪更激烈。

在“衰退期二及平缓期”阶段，随着“公款吃喝”这一插曲热度减退，网民的讨论热情逐渐降低，关注重点又再次回到关联事件分析、观点表达等较为理性的主题上。

5 结语

为了深入探究网络舆情演化的特点与规律，解决在内容层面上有效地从网络舆情的大量数据中发现高价值的舆情主题，并结合时间维度将各个时间点孤立的舆情内容整合起来的问题，本文提出了基于社区发现和关键节点识别的网络舆情主题发现的研究设计，并选取“上海踩踏”事件进行实证分析，取得如下研究成果：

（1）在主题发现研究中加入用户属性和用户行为等非文本特征，弥补了用户关系的缺失。由于社交网络平台高交互性的特点，网络舆情主题在形成过程中一直伴随着用户属性和用户行为的信息生成，这类非文本特征在深层次上起着联系舆情内容的作用。利用这类非文本特征可以规避传统主题发现方法仅从文本特征一个维度进行主题发现的缺陷，较好地识别重要的舆情主题，提高主题发现的效率。

（2）设计的主题发现方法一定程度上降低了微博文本稀疏性的影响。本研究利用舆情事件的用户数据和行为数据，在构建基于用户行为关系的舆情社会网络的基础上，进行用户社区发现，将用户聚合于不同的用户社区中，并识别各个社区的关键节点，最后提取其内容进行主题发现。相比单纯从舆情文本数据中直接提取主题，利用本文所提出的主题发现方法提前进行了一轮筛选，有效识别重要内容，因而提取的主题更能表征舆情内容。

（3）研究发现了舆情事件在整个生命周期中主题内容变化的状态，所提研究方案可为相关决策提供有效的方法支撑，研究结论具有情报参考价值。

此外，鉴于本文实证分析时数据来源较为单一和选取事件案例较少的不足，为提高研究设计的普适性和研究结论的代表性，后续将考虑融合多个网络平台的数据、选取多个同类事件案例进行更为全面的研究。

参考文献：

[1] 梁晓贺，田儒雅，吴蕾，等.微博主题发现研究方法述评[J].图书情报工作，2017，61（14）：141-148.

[2] 路荣，项亮，刘明荣，等.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能，2012，25（3）：382-387.

[3] 唐晓波，房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践，2013，36（8）：85-90.

[4] 阮光册.基于LDA的网络评论主题发現研究[J].情报杂志，2014，33（3）：161-164.

[5] WengJ，Lim E P，Jiang J，et al.TwitterRank：finding topic-sensitive influential twitterers[EB/OL].[2018-09-15].https：//www.researchgate.net/publication/221520147_Twitterrank_Finding_Topic-Sensitive_Influential_Twitterers.

[6] Rosen-Zvi M，Griffiths T，Steyvers M，et al.The author-topic model for authors and documents[EB/OL].[2018-09-15].https：//arxiv.org/ftp/arxiv/papers/1207/1207.4169.pdf.

[7] Titov I，Mcdonald R.Modeling online reviews with multi-grain topic models[C].Proceedings of the 17th international conference on World Wide Web，ACM.China： Beijing，April 21-5，2008：111-120.

[8] 王莉军，杨炳儒，翟云，等.动态社区发现算法的研究进展[J].计算机应用研究，2011，28（9）：3211-3214.

[9] Girvan M，Newman M E J.Community structure in social and biologicalnetworks[J].Proceedings of National Academy of Sciencesof USA，2002，99（12）：7821-7826.

[10] ClausetA，Newman M E J，Moore C.Finding community structure in very large network[J].Physical review E，2004，70（6 Pt 2）：066111.

[11] Shi Jian-Bo，Malik J.Normalized cuts and image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2000，22（8）：888-905.

[12] 淦文燕，赫南，李德毅，等.一种基于拓扑势的网络社区发现方法[J].软件学报，2009，20（8）：2241-2254.

[13] 林友芳，王天宇，唐锐，等.一种有效的社会网络社区发现模型和算法[J].计算机研究与发展，2012，49（2）：337-345.

[14] Zhou H，Zeng D，Zhang C.Finding leaders from opinion networks[C].IEEE International Conference on Intelligence and Security Informatics，IEEE，2009： 266-268.

[15] 王曰芬，杭偉梁，丁洁.微博舆情社会网络关键节点识别与应用研究[J].情报资料工作，2016，37（3）：6-11.

[16] Darus N M，Yasin A，Omar M，et al.Team formation model of selecting team leader：an Analytic Hierarchy Process（AHP） approach[J].ARPN Journal of Engineering and Applied Sciences，2015，10（3）：1060-1067.

[17] 谭雪晗，涂艳，马哲坤.基于SNA的事故灾难舆情关键用户识别及治理[J].情报学报，2017，36（3）：297-306.

[18] 肖宇，许炜，夏霖.一种基于情感倾向分析的网络团体意见领袖识别算法[J].计算机科学，2012，39（2）： 34-37.

[19] 丁洁.基于社会网络的网络舆情演化研究[D].南京：南京理工大学，2015.

[20] 谢科范，赵湜，陈刚，等.网络舆情突发事件的生命周期原理及集群决策研究[J].武汉理工大学学报（社会科学版），2010，23（4）：482-486.

[21] 王连喜，曹树金.学科交叉视角下的网络舆情研究主题比较分析——以国内图书情报学和新闻传播学为例[J].情报学报，2017，36（2）：159-169.

[22] Blondel V D，Guillaume J L，Lambiotte R，et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics：Theory and Experiment，2008（10）：P10008.

[23] 肖宇，许炜，夏霖.网络社区中的意见领袖特征分析[J].计算机工程与科学，2011，33（1）：150-156.

作者简介：王曰芬（1963-），女，南京理工大学经济管理学院、江苏省社会公共安全科技协同创新中心教授，博士生导师，研究方向：文本挖掘与知识管理、数据科学与知识服务、舆情分析与情报研究;王一山（1994-），男，南京理工大学经济管理学院硕士研究生，研究方向：舆情分析与情报研究;杨洁（1994-），女，南京理工大学经济管理学院博士研究生。