基于知识图谱的舆情预警研究可视化分析
2023-06-25王佳慧
摘 要:在互联网时代,做好舆情预警工作,对于推进网络空间治理体系和治理能力现代化,维护社会稳定和长治久安具有重要的现实意义。以CNKI数据库中有关舆情预警的472篇文献为样本数据,使用文献计量软件CiteSpace,从年度发文量、发文期刊、资助基金、发文作者、发文机构、被引文献、关键词共现与聚类、关键词突现等多个方面对舆情预警研究进行可视化分析,直观地展示了我国舆情预警领域的研究成果、研究热点以及研究前沿,为该领域的后续研究提供参考。
关键词:舆情预警;CiteSpace;知识图谱
中图分类号:TP39;G350 文献标识码:A 文章编号:2096-4706(2023)07-0111-06
Abstract: In the Internet era, doing a good job of public opinion early warning has important practical significance for promoting the modernization of the cyberspace governance system and governance capability, and maintaining social stability and long-term stability. Taking the 472 papers on public opinion early warning in CNKI database as sample data, this paper uses the bibliometric software of CiteSpace, visualizes and analyzes the research on public opinion early warning from the number of annual published papers, published journals, funding funds, published authors, published institutions, cited documents, keywords co-occurrence and clustering, keywords emergence and other aspects. It intuitively displays the research results, research hotspots and research frontiers in the field of public opinion early warning in our country, and provides a reference for the follow-up research in this field.
Keywords: public opinion early warning; CiteSpace; knowledge graph
0 引 言
隨着互联网时代的来临,社交媒体蓬勃发展。在社交媒体上公开地表达自己对某些事件的想法和态度,已经成为公众的习惯,这在一定程度上为舆情的发酵提供了土壤,为舆情的扩散提供了渠道。网络舆情的自由性和突发性的特点,也导致了舆论暴力事件、网络谣言和网络集群行为的发生。建立科学的舆情预警机制,有助于提前发现舆情带来的危机,为后续舆情处置提供时间和参考。这对于减轻舆情带来的负面影响,维护社会稳定和长治久安,具有重要的现实意义。因此,如何精准掌握舆情发展的态势,进行舆情预警,已经成为研究者们关注的焦点。目前,国内研究者已经在舆情预警领域做了大量工作,并且取得了丰硕的研究成果,但对舆情预警研究成果进行梳理总结的综述性文献偏少。为系统梳理分析现有的研究成果,展示舆情预警研究的整体状况,本文使用文献计量软件CiteSpace,以CNKI(中国知网)数据库中有关舆情预警的文献为研究对象,进行可视化分析,直观展示我国舆情预警领域的研究成果、研究热点以及研究前沿,为后续相关研究提供一定的参考。
1 数据来源与研究工具
1.1 数据来源
本文所使用的样本文献是来自CNKI数据库。在CNKI数据库中,将主题设置为“舆情预警”,时间范围不做限制(检索时间为2022年8月18日),进行检索,共得到3 927条结果。对这些结果进行整理分析后发现,其中有很多无关文献和低相关文献。为保证样本的可靠性和研究结果的科学性,对检索结果做以下处理:选定学术论文和学位论文,删除报纸、新闻、征稿启事、人物专访等无关文献;对论文摘要和结构进行通读,删除不是以舆情预警为主线开展研究的低相关性文献。经过筛选处理,共得到472篇文献。其中,学术期刊论文384篇,学位论文88篇。将这些文献分别以Refworks和自定义格式进行导出。将Refworks格式导出的文献资料导入CiteSpace中进行分析,而自定义格式导出的文献资料则利用Excel进行分析。
1.2 研究工具
本文使用的研究工具是:CiteSpace和Excel。其中,Excel主要用来进行年度发文量分析、发文期刊分析以及资助基金分析,CiteSpace主要是用来构建作者、机构以及关键词的知识图谱,分析舆情预警研究的热点与前沿。CiteSpace是陈超美教授利用Java语言开发的文献计量学软件,利用该软件可以从海量文献挖掘出某一研究领域的知识基础和发展动态。
2 基本情况统计分析
2.1 年度发文量分析
年度发文量可以反映舆情预警研究的受关注程度和变化趋势。将之前检索筛选出的样本文献,按照年份为单位进行统计,可以得到2006—2022年之间,每年舆情预警领域的发文量。统计结果如图1所示。
从图1可以看出:
在2006—2010年,年度发文量均在10篇左右。这一阶段的研究进展比较缓慢。研究主要集中在对舆情预警概念的梳理、舆情预警机制重要性的阐明、网络舆情预警等级的设定以及舆情预警指标构建这几个方面。如:吴绍忠等人[1]阐述了网络舆情预警的概念,并且初步将舆情预警等级划分为轻、中度、重和特重四个等级。曾润喜[2]构建了突发事件舆情预警指标体系,并利用层次分析法确定了权重。
在2011—2014年,年度发文量直线上升。由于微博、微信等社交媒体井喷式的发展以及智能手机的普及,舆情预警研究进入了高速发展期。在这一阶段,研究者们开始构建更加细致科学的指标体系,并使用一些数学模型和统计方法实现舆情预警。如:林琛等人[3]提出一种基于模糊推理的网络舆情预警方法,运用该方法可以自动判断预警等级。闫利平等人[4]以日常监测的数据为基础,将预警模型分为开关预警和预测预警。孙玲芳等人[5]结合舆情危机产生、发展、变化的规律及特点,建立了网络舆情危机预警的指标体系,并通过遗传算法改进传统的BP神经网络,用于舆情预警。
2015年至今,年度发文量均在30篇以上,发文量逐渐趋于稳定。在2018年发文量达到顶峰,共有53篇。在这一阶段,机器学习模型和深度学习模型开始被应用于舆情预警研究。如:张戎秋等人[6]改进了传统的长短期记忆网络模型,并结合卷积神经网络模型,实现了舆情的情感倾向识别。罗文华等人[7]运用贝叶斯网络建立了舆情发酵预警模型,并验证了模型的有效性和预警作用。需要说明的是,由于本文的检索时间是2022年8月,所以2022年仅有18篇文献。但根据发文趋势推测,2022年发表的文献应当也在30篇以上。
2.2 发文期刊分析
期刊的发文情况可以反映出该期刊对舆情预警研究的关注程度,还可以为相关研究者在选择期刊投稿时提供一定的参考。对样本文献中的384篇学术期刊论文进行发文期刊统计,可以发现:
1)发文期刊共有247种,期刊种类较为丰富。
2)发文量前10位的期刊,共發文97篇,占所有样本文献的25%。发文量前10位的期刊分布如表1所示。
3)发文量前10位的期刊中既包括图情领域的期刊(共6个,平均影响因子:2.89),还包括计算机领域的期刊(共2个,平均影响因子:0.338)和新闻传媒领域的期刊(共2个,平均影响因子:0.328)。其中,图情领域的期刊发文量为74篇,占前10位期刊发文量总和的76%。这说明舆情预警是一个多学科交叉的研究领域,但是以图情学科为基础的舆情预警研究无论是在数量还是质量上都占据着绝对主导地位。
4)发文量前10位的期刊中,有6个属于核心期刊。这反映出一些高质量、高影响力的期刊在关注着舆情预警研究。
2.3 资助基金分析
资助基金的数量和级别可以反映出舆情预警研究的受重视程度。对样本文献进行资助基金统计,可以发现:在384篇学术期刊论文中,共有257篇受到了基金资助,受资助比例达到67%。各类基金的资助在一定程度上助推了舆情预警研究的发展。这些文献中,受到国家社科基金项目资助的有40篇,受到国家自然科学基金项目资助的有28篇,受到教育部人文社会科学基金项目资助的有34篇。以上三种基金都是我国科学研究领域高层次、高权威性的基金项目。这反映出舆情预警作为人文社科和自然科学的交叉研究领域,已经受到了国家、社会以及研究者们的重视。
2.4 发文作者分析
对发文作者进行分析,不仅可以识别舆情预警研究领域的核心作者,还能了解作者之间的合作情况。
2.4.1 核心作者
根据普赖斯定律,能被称为核心作者就必须得达到最低发文量。设Nmax为最高产作者的发文量,核心作者的最低发文量 。最高产作者兰月新共发文10篇,根据公式可以计算出核心作者的最低发文量为3篇。对样本文献进行统计,可以得到核心作者共有27名。这些核心作者在舆情预警研究领域一共发表文献101篇,占所有文献的21%。按照普赖斯定律,某一领域的核心作者的发文量应当占该领域所有文献的50%。由此可以看出,在舆情预警研究领域,并未形成核心作者群。
2.4.2 作者合作情况
将CiteSpace软件中的节点类型设置成作者,就可以绘制出作者合作网络图谱。将阈值设置为“3”,绘制出的作者合作网络图谱如图2所示。图谱中的节点代表作者,节点的大小代表着作者发文量的多少,点之间的连线代表作者之间的合作关系。由于阈值设置为3,所以只有发文量3篇及以上的核心作者才会显示姓名。从图2可以看出:发文量最大的是中国人民警察大学的兰月新(发文10篇)和张鹏(发文6篇)。核心作者之间形成了四个闭环网络,分别是兰月新团队、李弼程团队、丁菊玲团队、杨柳团队。其中,兰月新团队发文量最多,成员联系最紧密,整体研究实力最强。除了这四个网络,其余的节点都比较分散,并且整体网络的密度偏低。这说明在我国舆情预警研究领域,很多研究者更倾向独立进行研究,形成的研究团队比较少,研究团队彼此之间的合作也比较少。
2.5 发文机构分析
对发文机构进行分析,可以了解不同科研机构在舆情预警研究领域的活跃程度。将CiteSpace软件中的节点类型设置成机构,就可以绘制出机构合作网络图谱。将阈值设置为“4”,绘制出的机构网络图谱如图3所示。
图谱中的节点代表机构,节点的大小代表着机构发文量的多少,点之间的连线代表机构之间的合作关系。从图中可以发现:
1)发文量最多的机构是中国人民警察大学,共发文14篇。其次是湘潭大学公共管理学院和福州大学经济管理学院,分别发文6篇。中国人民警察大学的发文量远远高于其他机构,是舆情预警研究领域的绝对核心机构。
2)发文量最多的中国人民警察大学是核心作者兰月新、张鹏等人所在的机构,这与之前核心作者的分析互相印证。
3)科研机构之间的合作可以促进研究发展,从而产出更高质量的研究成果。在作者网络合作图谱中,共有402个节点,148条边,网络密度0.001 8。机构之间连线少,网络密度偏低。这说明在我国舆情预警研究领域,机构之间的合作不多。因此,在机构合作这方面,还存在较大的提升空间。
2.6 文献被引分析
论文的被引次数是反映该论文学术影响力的一项重要指标。舆情预警研究领域被引次数前10位的论文如表2所示。
从表2中可以看出:
1)被引次数前10位的论文中,有6篇都是和指标体系研究有关的。指标体系的构建是舆情预警研究中的一项基础性工作,一般研究者在研究时,都会借鉴和参考他人构建的指标体系。所以,有关舆情预警指标体系研究的论文被引次数比较高。
2)被引次数前10位的论文中,9篇发表在核心期刊上,并且这些核心期刊,大部分都是发文量前10位的期刊。这与之前发文期刊的分析互相印证。
3)被引次数前10位的论文中,有6篇是在2006—2010年之间发表的,有4篇是在2011—2014年之间发表的。这也从侧面反映出舆情预警领域前期的研究成果,可参考性和质量都非常高,为后期的研究奠定了坚实的基础。
3 研究热点与前沿分析
关键词是对文献研究主题和研究内容的高度概括。对文献中的关键词进行梳理分析,可以了解相关研究的热点与前沿。
3.1 关键词共现和聚类分析
将CiteSpace软件中的节点类型设置成关键词,剪枝算法选择Pathfinder和Pruning slilcde networks,阈值设置为“10”,其余参数保持初始值,绘制出的关键词共现图谱如图4所示。图谱中的节点代表关键词,节点的大小代表着关键词出现次数的多少。从图中可以发现:出现10次及以上的关键词共有15个。其中,出现次数最多的关键词是“网络舆情”(频次283)和“预警”(频次134)。由于在检索文献时,是以“舆情预警”为主题进行检索的,所以这两个关键词出现的频次会远远高于其他节点。除了出现频次,中心性也是衡量关键词的一个重要指标,中心性高的关键词重要性高,影响力大。综合出现频次(频次大于等于10)和中心性(中心性大于等于0.1)两个指标,最终确定的研究热点关键词有:网络舆情、预警、预警机制、网络舆情预警、指标体系,突发事件和大数据。
为了更好探知舆情预警领域的研究热点,在关键词共现的基础上进行关键词聚类。聚类使用LLR算法,聚类结果如图5所示。聚类图谱上的模块值(Q值)为0.716 1,平均轮廓值(S值)为0.932 2,说明聚类结果是科学显著的。从图中可以看出,关键词被聚成了十类,各个类别边界清晰,但是有较多重叠交叉的部分。在十个类别中,预警、网络舆情、预警机制、指标体系、大数据这几个类别和核心关键词是一致的。
综合热点关键词和聚类结果,可以发现舆情预警领域的研究热点如下。
3.1.1 舆情预警机制的构建
舆情预警机制是指通过对舆情进行监测、分析和评估,及时发现和识别舆情中潜在的危机,发出警报并采取相应的措施,从而减少或消除舆情带来的不良影响的一系列管理制度。科学合理的舆情预警机制可以帮助政府及相关部门及时、积极地应对和引导舆情。吴绍忠等人[1]认为,网络舆情预警机制应当由设定网络舆情等级,建立网络舆情预警指标体系和确定指标权重三部分构成。曾润喜等人[8]从舆情预警机制应当实现的主要功能出发,设计了包含监测子系统、汇集子系统、分析子系统、警报子系统以及预控子系统的网络舆情突发事件预警机制。金冬雪等人[9]分析了涉警舆情预警工作中存在的问题,基于危机管理4R理论,提出了涉警舆情预警机制建设的优化策略。周小情等人[10]分析了网络舆情预警的内涵,提出了建立网络舆情预警机制的制度化准则。
3.1.2 舆情预警指标体系的构建
指标体系的构建是舆情预警研究工作的基础,指标体系的质量会直接影响舆情预警的结果。所以,指标既要全面、切合实际,还必须便于测量。聂峰英等人[11]结合移动社交网络的特点,从舆情发布者、舆情接受者和舆情热度三方面构建了三级社交网络舆情预警指标体系。刘毅[12]提出了一种基于三角模糊数的指標体系构建方法:首先按照警源、警兆构建初步的指标体系,然后利用基于三角模糊数的德尔菲法进行筛选,确定最终的指标体系,最后利用基于三角模糊数的层次分析法确定指标的权重。该方法能够更好地将专家知识进行量化,提升预警结果的客观性。王英杰等人[13]以新冠疫情作为研究背景,剖析了短视频网络舆情的特点,以疫情事件、用户信息行为和情感倾向作为一级指标,以疫情危害程度、涉疫情视频转发数量、用户评论情感倾向等十二个要素作为二级指标,完成了舆情预警指标体系的构建。王青等人[14]对面向传播和面向内容的两类网络舆情指标体系进行了梳理总结,并在此基础上利用E-R模型确定了舆情要素,构建了舆情监测和预警指标体系。
3.1.3 利用数据挖掘技术实现舆情预警
数据挖掘是指使用特定的算法,从海量数据中,获取发现知识和信息的过程。按照目的进行分类,数据挖掘算法可以被分为预测性算法和描述性算法。常用的预测性算法有决策树、支持向量机、神经网络等。常用的描述性算法有聚类、主成分分析等。田世海等人[15]通过添加权重的基准偏移值,改进了潜在语义算法,结合支持向量机算法,构建了舆情分类预警模型。张鹏等人[16]以“和颐酒店女生遇袭事件”为研究案例,构建了基于BP神经网络的网络谣言预警模型。龚艳[17]面向公共卫生安全事件,建立了相应的网络舆情指标体系,并使用K-means聚类算法和灰色关联分析这两种弱关联挖掘算法,实现了舆情的预警分级。江志英等人[18]以食品安全作为切入点,提出了一种基于层次分析法和长短期记忆网络的舆情预警模型。该模型首先需要从原始数据中提取指标数据,然后利用关联函数差分驱动的层次分析法进行指标融合处理,最后将融合结果送入长短期记忆网络中得到预警结果。
3.1.4 面向突发事件的网络舆情预警研究
突发事件具有突然性、危害性、社会性的特点。它的发生、发展和网络舆情的发酵、演变有着密不可分的关系。连芷萱等人[19]依据突发事件舆情的衍生传播机理,构建了一种基于组合预测的舆情预警模型。该方法将逻辑回归、灰色模型和指数平滑这三种模型进行组合,实现了对舆情消退期的预测和衍生系数的计算。王振兴等人[20]提出了一种基于云模型的突发事件网络预警方法。该方法将影响网络舆情发生的因素设定为先兆特征,通过计算先兆特征的偏离程度去预测突发事件发生的概率,从而实现预警。许鑫等人[21]提出了一种基于信号分析的突发事件网络舆情预警模式。该预警模式立足于不完全信息条件下,更符合实际情况。徐建国等人[22]分析了突发事件网络舆情演化的关键要素,利用C4.5决策树构建了突发事件网络预警模型并进行实验。实验结果表明,该模型针对性强,预测准确率高。
3.1.5 大数据背景下的舆情预警研究
大数据时代的来临,不仅使舆情数据指数级增长,呈现出数据量大、结构复杂的问题,还使舆情数据逐渐成为某些决策制定的重要依据。这给舆情预警研究带来了机遇,也带来了挑战。刘继等人[23]以大数据为研究背景,围绕网络舆情采集与特征挖掘、舆情态势智能分析、智能化预警机制分析这三个关键问题展开探讨。李伟超等人[24]从舆情预警服务产品切入,阐明了我国网络舆情预警服务的困境,提出了在大数据环境下提升我国网络舆情预警服务的具体建议。李金海等人[25]利用网络爬虫技术和大数据平台Hadoop建立了网络舆情预警系统。该系统能够对网站舆情数据进行采集和分析,并根据分析结果自动判定预警级别。易臣何等人[26]将大数据舆情预警与传统舆情预警进行了比较,挖掘出大数据舆情预警的优势,并基于此提出了优化大数据舆情预警的策略。
3.2 关键词突现分析
关键词突现是指在某一阶段某些关键词出现频率激增的现象。对关键词进行突现检测,能够有效地捕捉舆情预警领域的研究前沿。使用CiteSpace软件中的Burstness功能,将γ值设置为0.7,其余参数保持初始值,得到的突现词图谱如图6所示。
从图6中可以看出:
1)突现词共有9个,分别是:监测、系统动力学、群体性事件、高校网络舆情、大数据、食品安全、模糊综合评价、灰色关联分析、机器学习。
2)在2006—2010年,舆情预警研究发展缓慢,相关的研究成果比较少,因此这个阶段没有突现词。
3)这些突现词中,大数据的突现强度最大,突现时间是2018—2020年。
4)突现时间到2022年的关键词有:灰色关联分析和机器学习。这表明灰色关联分析和机器学习是舆情预警领域中的研究前沿。无论是灰色关联分析还是机器学习,都是利用相应的算法来实现舆情预警。因此,可以推测未来会有更多的数据挖掘算法被应用到舆情预警研究中。
4 结 论
习近平总书记曾强调:“要加强舆情跟踪研判,主动发声、正面引导,强化融合传播和交流互动,让正能量始终充盈网络空间。”在新时代做好舆情预警,提高总体态势感知能力,對于推进网络空间治理体系和治理能力现代化有着非常重要的意义。本文以CNKI数据库中有关舆情预警的文献作为研究对象,使用文献计量软件CiteSpace,从年度发文量、发文期刊、资助基金、发文作者、发文机构、被引文献、关键词共现与聚类、关键词突现等多个方面进行了深入分析,探知了我国舆情预警领域的研究现状,得到如下结论:
1)我国舆情预警的研究起始于2006年,经过三个阶段的积累,目前已形成丰硕的研究成果。
2)在研究过程中,一些高层次、高权威性的基金项目给予了舆情预警研究大力的支持。一些高质量、高影响力的期刊也在密切关注着舆情预警研究。这些关注和支持促进了研究的繁荣与发展。
3)舆情预警研究领域并未形成核心作者群。研究者之间的合作、研究机构之间的合作偏少。
4)舆情预警研究的热点主要集中在:舆情预警机制的构建、舆情预警指标体系的构建、利用数据挖掘技术实现舆情预警、面向突发事件的网络舆情预警研究、大数据背景下的舆情预警研究这几个方面。
5)如何利用机器学习、灰色关联分析等数据挖掘算法实现舆情预警,已经成为舆情预警领域的前沿议题,在未来的研究中,应当给予重点关注。
参考文献:
[1] 吴绍忠,李淑华.互联网络舆情预警机制研究 [J].中国人民公安大学学报:自然科学版,2008(3):38-42.
[2] 曾润喜.网络舆情突发事件预警指标体系构建 [J].情报理论与实践,2010,33(1):77-80.
[3] 林琛,李弼程,王瑾.基于模糊推理的网络舆情预警方法 [J].信息工程大学学报,2011,12(1):72-76.
[4] 闫利平,陶卫江,韩晓虎,等.政府网络舆情监测分析及预警 [J].现代情报,2011,31(4):46-48+52.
[5] 孙玲芳,周加波,林伟健,等.基于BP神经网络和遗传算法的网络舆情危机预警研究 [J].情报杂志,2014,33(11):18-24.
[6] 张戎秋,肖强.基于改进的LSTM-CNN模型的高校网络舆情预警研究 [J].淮南师范学院学报,2021,23(6):77-81.
[7] 罗文华,马晓晗.基于贝叶斯网络的多级次网络舆情预警实证研究 [J].情报科学,2021,39(7):68-74.
[8] 曾润喜,徐晓林.网络舆情突发事件预警系统、指标与机制 [J].情报杂志,2009,28(11):52-54+51.
[9] 金冬雪,金琛皓.基于4R理论的涉警舆情危机预警机制优化研究 [J].网络安全技术与应用,2022(5):160-163.
[10] 周小情,张梅贞.新媒体时代网络舆情预警机制研究 [J].新闻知识,2014(1):58-60.
[11] 聂峰英,张旸.移动社交网络舆情预警指标体系构建 [J].情报理论与实践,2015,38(12):64-67.
[12] 刘毅.基于三角模糊数的网络舆情预警指标体系构建 [J].统计与决策,2012(2):12-15.
[13] 王英杰,胡漠,张津赫,等.信息疫情下短视频网络舆情预警指标体系构建研究 [J].情报科学,2021,39(11):38-44.
[14] 王青,成颖,巢乃鹏.网络舆情监测及预警指标体系构建研究 [J].图书情报工作,2011,55(8):54-57+111.
[15] 田世海,吕德丽.改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警 [J].数据分析与知识发现,2017,1(2):11-18.
[16] 张鹏,兰月新,李昊青,等.突发事件网络谣言危机预警及模拟仿真研究 [J].现代情报,2019,39(12):101-108+137.
[17] 龚艳.面向公共卫生安全网络舆情预警的弱关联挖掘方法研究 [J].情报科学,2022,40(6):19-24.
[18] 江志英,李宇洋,李佳桐,等.基于层次分析的长短记忆网络(AHP-LSTM)的食品安全网络舆情预警模型 [J].北京化工大学学报:自然科学版,2021,48(6):98-107.
[19] 连芷萱,连增水,张秋波,等.面向突发事件的网络衍生舆情预警模型与实证研究 [J].情报杂志,2019,38(3):133-140.
[20] 王振兴,郭毅,张连成,等.一种基于云模型的突发事件预警方法 [J].信息工程大学学报,2012,13(1):120-123+128.
[21] 许鑫,张岚岚.突发事件网络舆情预警模式探索 [J].图书情报工作,2010,54(22):135-138+89.
[22] 徐建国,刘梦凡,刘泳慧.突发事件网络舆情风险预警模型研究 [J].软件导刊,2020,19(7):70-75.
[23] 刘继,李磊.大数据背景下网络舆情智能预警机制分析 [J].情报杂志,2019,38(12):92-97+183.
[24] 李伟超,杨照方,潘颖婧,等.大数据环境下网络舆情预警服务研究 [J].情报工程,2020,6(6):15-21.
[25] 李金海,徐辉.大数据环境下网络舆情预警系统的设计研究 [J].计算机时代,2020(1):30-34.
[26] 易臣何,何雪平.大數据环境下网络舆情智能预警机制研究 [J].智库时代,2020(7):11-12.
作者简介:王佳慧(1992—),女,汉族,新疆哈密人,讲师,硕士,研究方向:自然语言处理、网络舆情。