基于文献计量的国内网络舆论情感分析研究现状探究
2020-12-28窦悦琪夏换武帅李岳馨
窦悦琪,夏换,武帅,李岳馨
(1.贵州财经大学信息学院,贵阳 550025;2.贵州省经济系统仿真重点实验室,贵阳 550025;3.贵州财经大学,贵州省电子商务大数据营销工程研究中心,贵阳 550025)
0 引言
随着互联网的发展,各种各样的网络社交媒体涌现出来,这些社交媒体的出现不仅使用户获取信息更加便捷,同时也为用户发表观点、与他人沟通交流提供了平台。用户会对社交媒体发布的某一事件用简短的语言表达自己的态度和情感倾向性,形成网络舆论。通过对网络舆论情感倾向进行分析,可以获得公众对某一事件的态度和主要观点,使政府以及相关部门能够更加准确地把握事件的焦点舆论和发展方向,从而更有效地干预和引导舆论。目前网络舆情情感分析的研究角度主要包括:基于情感维度模型的网络舆情信息分级等理论模型研究、网络舆情情感词典构建、情感倾向性分析、用户情感和关系网络演化等技术应用研究,还有针对热点事件网络舆情情感分析的案例研究,形成了完整的网络舆情情感分析研究体系[1]。情感分析主要可以分为基于词典的分类方法、基于机器学习的方法和基于深度学习的方法。其中机器学习方法主要使用朴素贝叶斯和支持向量机模型,最早从事情感分析研究的Pang 等人将文本的N 元语法(N-Gram)和词性(POS)等作为情感特征,使用有监督的机器学习的方法将电影评论分为正向和负向两类,结果显示支持向量机在几种分类方法中准确率最高,可以达到80%[2]。深度学习方法主要使用卷积神经网络和递归神经网络模型,例如Tai 等人[3]利用改进的树形长短期记忆网络(TreeLSTM)对电影评论进行情感分析研究,也取得了良好的效果。
虽然网络舆论情感分析领域已经取得了巨大成就,但是尚缺乏从文献计量的角度对该领域的发展做一个简要的概述和分析。因此,本文运用文献计量的方法,同时利用可视化工具,整理了网络舆论情感分析研究的相关文献,并从时间、机构、期刊、作者等多个角度分析该领域的发展现状,总结发展趋势,为今后的研究提供借鉴和参考。
1 数据来源和研究方法
1.1 数据来源
本次研究拟在CNKI 数据库进行相关文献的检索。在CNKI 中启用高级检索,选择“期刊全文数据库”,为了使检索结果更全面,在检索时将语义相近的“舆情”和“舆论”同时加入到检索条件中。具体的检索条件为:“主题=网络舆情或网络舆论并且主题=情感”,来源类别为全部期刊,其余条件为默认,本次研究的检索时间为2020 年6 月10 日,共计得到相关中文文献387 篇。为了提高分析结果的相关性与准确性,对检索结果手动筛选、整理,最终得到有效数据256 条。
1.2 研究方法
(1)文献计量
本文主要采用文献计量的方法对国内网络舆论情感分析研究现状进行分析研究。文献计量是指运用数学以及统计学方法,定量分析学术文献的一种方法,被众多学者广泛的运用于学术文献研究中。杨秀璋[4]运用文献计量分析以及知识图谱对水族文献进行了计量研究,为水族文化的研究和发展提供了相关启示。孙瑞英[5]通过文献计量统计方法对国内物联网相关的核心期刊论文进行了分析,绘制了可视化图谱来揭示出国内物联网研究的研究现状,并对今后的研究趋势做出了简要的总结。王鹏飞[6]梳理“LDA 主题模型”提出以来的国内研究现状,总结其研究趋势和发展情况,为进一步在情报学领域利用该模型进行研究提供参考和借鉴。
(2)社交网络
本文拟使用社交网络算法对网络舆论情感分析相关文献的作者之间的合作关系进行探究,并绘制知识图谱将其合作关系清晰的展现出来。社交网络算法(Social Network Algorithm)是一种可以识别强弱关系网络的聚类算法,它可以运用知识图谱的方式将彼此之间的关系进行形象化表示。节点代表对应的关系点,边代表节点之间的关系[4]。社交网络作为发现核心关系的主要方法被广泛使用,杨秀璋等人[7]利用社交网络算法得出中国电影市场的演员关系图谱。吴蕙羽[8]结合Python 技术及社交网络准确的得到小说《白鹿原》中的人物关系图。Kanamori Mariano J.等人[9]结合社交网络算法分析出健康社会场所内部之间的结构特征和协助过程。
2 相关文献计量分析
本文对网络舆论情感分析相关文献运用文献计量的方法进行多角度的分析,为了使结果更加清晰明了的展现出来,本文采用Echart 技术将分析结果可视化。网络舆论情感分析相关文献的文献计量分析主要包括:文献综合分析、发文机构分析、来源期刊分析等。
2.1 文献综合分析
运用Python 环境中的PyEcharts 对检索结果数据进行可视化操作,最终生成了如图1 所示的文献综合分析图,图中横坐标表示发文年份,纵坐标表示不同年份的发文总量,最高下载量以及最高被引量。
图1 国内网络舆论情感分析文献近年发表趋势图
如图1 所示,网络舆论情感分析的相关文献发文量大致上呈递增的趋势,2007 年出现了第一篇与网络舆论情感分析的相关文献,但在此后的三年中相关文献发文量虽然有缓慢的增长,但发文量一直保持在一个较低的水平,每年的发文量都在10 篇以内,这说明在这一阶段相关研究还不够成熟。自2014 开始,论文数量开始急剧攀升,在2018 年发文量达到了一个顶峰,文献数量达到47 篇,此后的发文量呈较平稳的状态,由图中的发文量增长趋势可以看出,对于网络舆论情感分析的研究已经由初步研究阶段进入到稳定发展阶段。
下载量和被引量是衡量一篇文章影响力大小的重要指标,下载量和被引量次数越多,文章的价值越高。在检索到的256 条相关文献中,共被引用2405 次,共被下载165657 次,平均单篇被引9.39 次,平均单篇下载647.09 次。表1 为网络舆论情感分析排名前十的高被引论文,该十篇论文平均被引68.7 次,总被引量达到687 次,占到所有网络舆情情感分析文献被引量的28.57%。其中最高被引量的文章是2010 年4 月杨超等人在《小型微型计算机系统》上发表的《基于情感词典扩展技术的网络舆情倾向性分析》,这篇文章共计被引149 次。
表2 为网络舆情情感分析下载量排名前十的论文,该十篇论文平均下载量达到2668 次,总下载量为26680 次,占到所有网络舆情情感分析文献下载量的16.1%,其中下载量最高的文章是陈忆金等人于2011年11 月在《图书情报知识》期刊上发表的《网络舆情信息监测研究进展》,这篇文章共计下载4780 次。
2.2 发文机构分析
对文献的发文机构进行统计有利于我们寻找某一领域的研究核心,对其进行研究并关注其发展动态能更准确的把握该领域地研究方向。为了更加清晰地了解国内研究网络舆论情感分析的核心机构及其分布情况,本文对检索到的256 篇相关文献所属机构进行统计,结果显示,我国对这一领域的研究机构以高校为主,表3 列出了发文量最多的前五名机构,如表所示,发表相关论文数量最多的是吉林大学,共计发文23篇,总引用量达184 次,总下载量达20507 次,篇均被引量及篇均下载量分别为184 次和891.61 次。篇均被引及篇均下载量最多的机构是四川大学,共发文9 篇,总引用量达到了160 次,总下载量达到了8590 次,篇均被引及篇均下载量分别达到了17.78 次和954.44 次。
2.3 文献来源期刊分析
对网络舆论情感分析相关论文的来源期刊进行统计研究,不仅可以使我们更加清晰了解这一领域的核心期刊群,而且可以为研究者查找资料、了解此领域发展现状提供便利。表4 列举了发表网络舆论情感分析有关论文最多的前十名期刊名称,其中刊载相关论文量最多的是《情报杂志》,共计刊载相关论文19 篇,共计被引312 次,篇均被引16.42 次,总下载量达到17130 次,篇均下载量为901.58 次。篇均引用量和篇均下载量最多的期刊是《小型微型计算机系统》,该期刊共计刊载相关论文4 篇,总被引量为184 次,总下载量为3852 次,篇均被引46 次,篇均下载963 次。从表中我们可知,刊载网络舆论情感分析相关论文较多的期刊主要集中在情报学、图书情报学领域,并且刊载量在前十名的期刊中,有八个期刊为CSSCI 期刊,八个期刊为北大核心期刊,同时为CSSCI 和北大核心期刊的有7 个,且它们的影响因子都处于较高的水平,这说明刊载此领域论文的核心期刊群影响力比较大,同时也说明了这一领域研究价值较高。
表1 网络舆论情感分析高被引论文TOP10
表2 网络舆论情感分析论文高下载量TOP10
表3 重点发文机构TOP5
3 国内网络舆论情感分析文献核心作者知识图谱
3.1 国内网络舆论情感分析文献核心作者发现
为了确定国内网络舆论情感分析文献核心作者,本文尝试利用普赖斯定律结合综合指数算法加以实现。普赖斯定律是用来衡量各个学科领域文献作者分布规律的方法,是研究科技情报学和文献计量学的方法之一。普赖斯定律确定核心作者候选人计算公式如(1)所示:
公式(1)中Nmax表示国内网络舆论情感分析文献作者的最高发文量,在统计到的256 篇相关文献中,发文量最多的作者是黄微(只记第一作者),共计发文5篇,即Nmax=5。经计算,最终求得M 取整值为2。也就是说,国内网络舆论情感分析文献核心作者的最低发文量至少为2 篇。根据普赖斯公式计算结果,共有22位作者符合条件,结果如图2 所示。
图2 核心作者候选人及发文量
为进一步确定国内网络舆论情感分析文献核心作者,本文拟采用综合指数算法从普赖斯定律确定的22名核心作者候选人中遴选出综合指数得分较高的10位作为核心作者,具体步骤如下:
(1)平均发文量xˉ
平均发文量xˉ的计算公式如(2)所示,其中X总为22 位核心作者候选人的总发文量,n 是核心作者候选人总数。计算可得xˉ的值为2.41(保留两位)即国内网络舆论情感分析文献核心作者平均发文量为2.41 篇。
表4 重点发文期刊TOP10
平均被引量的计算过程如公式(3)所示,其中Y总为22 位核心作者候选人所发表论文的总被引量,根据计算得到Y总为835,n 是核心作者候选人总数。计算可得的值为37.95(保留两位)即国内网络舆论情感分析文献核心作者所发论文的平均被引量为37.95 篇。
(3)计算综合指数
通过对国内网络舆论情感分析相关文献核心作者候选人进行综合指数计算,最终遴选出得分较高的前10 位核心作者。如表所示,综合指数最高的是来自南京理工大学经济管理学院的吴鹏,综合指数为2.26,共计发文5 篇,文献被引量共计93 次,单次被引数最多的是2015 年发表在《现代图书情报技术》中的《突发事件网络舆情中网民群体行为演化的Agent 建模与仿真研究》,这篇文章共计被引33 次,下载量为1077 次。
3.2 作者合作情况分析
为了探求国内网络舆论情感分析相关文献作者之间的合作关系。本文利用Gephi 软件分析检索到的256 篇文献作者的合作关系并用知识图谱的方式形象的将研究成果表现出来。如图3 所示。图中的节点表示每位作者,它们之间的连线表示合作关系,发文数越多的作者在图中显示的节点面积越大。在该图中我们可以清晰的看到该领域的主要研究团队有八个,分别是吴鹏、杨威等人的研究团队,黄微、刘英杰、高俊峰等人的研究团队,王晰巍、邢云菲等人的研究团队,李勇、毛太田的研究团队,王洪伟、朱茂然等人的研究团队,黄卫东、刘宁等人的研究团队、陈忆金、曹树金等人的研究团队以及张海涛、王丹等人的研究团队。同时,我们也可以看出存在很多单独的节点以及只有一条链接的节点,这说明还有很多研究者处于独自研究的状态或者存在导师与指导的学生组成的团体完成论文的情况。
图3 作者合作关系知识图谱
4 结语
笔者以国内网络舆论情感分析相关文献为研究对象,从文献计量的角度进行了文献综合分析、发文机构以及来源期刊等多角度的分析,并运用综合指数及社交网络算法结合知识图谱挖掘出该领域的核心作者以及作者之间的合作关系网,较全面地剖析了国内网络舆论情感分析的研究现状。经归纳总结,得出以下几个方面的结论:
表5 国内网络舆论情感分析相关文献核心作者
(1)从国内网络舆论情感分析相关文献的发文数量时间分布来看,2014 年之后发文数量呈大幅度的波动上涨趋势,预计未来几年随着计算机网络技术的不断发展,这一领域的研究热度将持续增温。
(2)从发文机构分布来看,我国网络舆论情感分析研究机构多为高校,且发文较多的机构多为985、211或是双一流高校,这说明高校的实力水平高低在一定程度上影响着该校对网络舆论情感分析的研究,实力雄厚的高校更容易产生科研成果。
(3)从来源期刊分布来看,我国网络舆论情感分析相关的文章主要集中在与情报学相关的期刊上,这说明这一领域主要是由情报学或图书情报学的学者进行研究,其他学科的学者对这一领域缺乏重视。
(4)从发文作者来看,我国网络舆论情感分析的研究者比较注重团队合作研究,出现了几个明显的合作团队,这有助于学者之间交流从而更有效的促进这一领域的发展。但同时我们也发现,还有一些研究者处于“单打独斗”的状态,本文希望这些研究者能够更加注重团队合作,增强持续研究能力。