基于文本挖掘的网络舆情研究进展述评
2021-07-06常甜甜
常甜甜
摘 要 [目的/意义]网络舆情领域的研究受到多学科的共同关注,文本挖掘作为一种大数据分析技术,在网络舆情信息的挖掘中发挥着重要作用。[方法/过程]基于文献计量学方法,使用CiteSpace软件,以Webof Science核心合集为数据源,对基于文本挖掘的网络舆情研究概况、研究热点和研究前沿进行分析。[结果/结论]目前该领域的研究仍处于发展阶段,并开始集中向社会化媒体主题集中发展;情感分析、意见挖掘为领域中的热点关键词,2020年仍热度不减。未来几年的热点仍将集中在情感分析和意见挖掘方面,推动跨学科研究成为该领域发展的重要推动力。
关键词 文本挖掘;网络舆情;CiteSpace ;知识图谱
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)03-0005-03
1 数据来源与分析方法
本文使用文献计量学知识图谱分析工具CiteSpace软件 [1],对国内外近20年来的基于文本挖掘的网络舆情研究概况进行分析,发现研究热点与前沿,并绘制网络知识图谱。数据源为Web of Science核心合集数据库,选择时间跨度为2000至2020年,通过搜索主题词“text mining”AND“network opinion”,文献类型限定为“ARTICLE”,最终得到706篇检索结果。将结果导入CiteSpace 5.7.R2构建数据集,之后通过国家机构与作者共现分析、共被引文献分析、关键词共现分析等方法分析数据并得出结论。
2 基于文本挖掘技术的网络舆情研究概况
对整体趋势分析发现,目前该领域研究仍然处于发展阶段。从2004年开始,文本挖掘与网络舆情交叉领域的研究呈逐年递增趋势,其中2016和2019年相对前一年增长最为明显,2019年的相关研究成果最多为174篇,2020年(截至12月17日)为110篇,与2018年持平。
2.1 各国研究现状与主要机构
通过分析近20年不同国家和机构的发文数,可以得到领域内影响力较大的国家及主要研究机构。从国家层面来看,领域关注度较高的为中国(192篇)、美国(95篇)、印度(77篇)和西班牙(51篇)。其中中国的研究成果数最多,约为美国的两倍,首发时间为2008年,且中心性最高为0.6,与其他国家拉开了较大差距;这说明中国在研究的最初发展阶段就进入了领域,研究水平最为突出,在世界范围内发挥着重要影响力。
在机构层面上,中国的研究机构以中国科学院、南洋理工大学、清华大学为首,发文数量均在10篇以上,在全球范围内处于领先位置;美国的亚利桑那大學、西班牙的维戈大学、英国斯特林大学都对该领域有较高的关注度。对机构发文突现分析可知,最早展开集中研究的是美国亚利桑那大学,其突现强度最高为3.16,研究集中在2018至2012年间;2011年,首尔大学、南洋理工大学、北京航空航天大学的研究增多,香港城市大学在2014年关注度增高较为明显(2.38);之后,同济大学和上海科学技术研究院也相继开展研究。
2.2 学科领域分布与作者分析
从学科分布来看,研究文献分布在科学技术、社会科学、艺术人文三大学科领域,其中科学技术领域研究最为集中为686篇,是其他两个领域之和的2.7倍。
通过对研究者发文量、突现时间与强度、节点度的分析,可以得到领域内主要研究者,并对研究者的影响力和合作进行分析。发文数最高的作者为艾瑞克·坎布里亚(9篇),其研究从2012年开始突现,节点度为18,在研究者中的影响力最高,其研究主题为网络舆情文本挖掘的深度神经网络研究。影响力Top 6的高产作者首发年份多集中在2012年之后,但研究者陈炘钧首发日期相对较早(2008年)且有明显突现(2.57),节点度为5,具有一定的影响力,研究主题主要在社会化媒体领域,是该主题研究探索的先驱。
2.3 研究发展的阶段与脉络
通过文献共被引分析,可分析出该领域主要研究成果,并梳理出研究发展的阶段与脉络。具体是在共被引文献网络的基础上,根据主题进行T聚类,用极大似然估计(LLR)计算每个簇的标签,得到共被引文献聚类图谱(图1)。图谱中簇分布的相对位置代表不同时间阶段,越靠近左边的时间越近,越靠近右边越远,由此梳理出研究阶段与对应主题。
1)起始阶段(2000—2010):网络舆情视域下文本挖掘技术研究。此阶段研究伊始,主题聚类标签为#4、#3、#10。2006至2008年,研究主要集中在多语言文本挖掘研究(#4)且研究数量连年递增。如2005年刘冰等人提出了一种基于语言模式挖掘的方法,可以从用户评论中提取产品功能描述[2]。2009年研究主题开始过渡到中文文档(#3)和机器学习方法(#10)。如2008年阿巴斯等人对Web论坛和博客影响进行分析,比较了几种情感分析的特征表示方法的效果,并提出支持向量回归相关合奏的方法来预测情绪强度[3]。2010年,社会化媒体(#7)的研究开始走入视野。麦克·塞沃尔等人从2007年就开始关注社交媒体MySpace,之后对社会化媒体进行持续的研究,包括对短文本数据的情感监测算法的研究,以及对社交媒体用户行为、属性及其社交关系网络的分析等[4]。
2)探索发展阶段(2011—2013):较为分散的主题分布。此阶段研究主题聚类标签为#2、#3、#5、#7、#8、#15。2011至2012年,研究继续在社会化媒体主题上进行的同时,也在中国微博(#2)、用户认知发现(#15)等主题上有所发展。2013年开始社会网络文本挖掘(#8)成为研究的新兴主题。如穆斯塔夫·穆罕默德在消费者品牌情感进行社会网络文本挖掘的研究中,使用专业词典对诺基亚等5个品牌的Twitter平台网民情绪进行挖掘[5]。莎拉·凯瑞特娜等人通过文本挖掘在Twitter社交网络中进行用户身份识别研究[6]。
3)集中发展阶段(2014年至今):以社会化媒体为主题持续发展。此阶段研究主题聚类标签为#0、#1。2014年开始,研究主题开始集中到社会化媒体(#1)的网络舆情文本挖掘上,之后的研究也继续沿着这个脉络不断向前发展至今(#0)。如库玛·拉维等人对2000—2015年的社交媒体情感分析研究中,总结了情感分析的主要任务、方法和应用情况,文本挖掘在社会化媒体中的应用逐渐受到重视[7]。阿莎·马尼克于2017年使用一种基于SVM的基尼索引特征选择方法,对社交媒体中电影评论数据集进行情感分类[8]。近年来,基于深度学习的社交媒体文本挖掘受到研究者的重视。如2019年泰国帕苏帕等人对CNN、LSTM、Bi-LSTM几种常见的深度学习模型进行评估,发现使用word embedding、POS标签等功能的CNN模型效果最好[9]。
3 基于文本挖掘技术的网络舆情研究热点与前沿
3.1 研究热点分析
1)关键词频次(Freq)统计分析。通过分析文献的关键词共现网络图谱,发现目前文本挖掘和网络舆情的交叉领域热点关键词为情感分析、意见挖掘、文本挖掘、Twitter、文本分类、社会化媒体、机器学习等。其中,情感分析和意见挖掘的频次最高,在数据集的706篇文献中分别占比44%和34%。
2)中心性(Centrality)分析。将关键词按照中介中心性排序,得到值最高的关键词为情感分类(0.26),其余较高的还有社会化网络(0.21)、SVM(0.13)等,说明这些关键词在多个研究子领域中比较重要且影响力强。这可能是因为社会化网络和情感分类是网络舆情研究中文本挖掘重要的应用领域,而支持向量机是机器学习经典的分类器,在情感分析和文本分类中都有广泛的应用。
3)突现(Burst)时间与强度分析。对关键词突现进行分析,可以得到关键词发展的脉络。关键词中突現强度值最高的为深度学习(9.06),说明从2018年开始深度学习成为网络舆情文本挖掘新的热点。深度学习是机器学习中一个新的研究方向,它使文本挖掘的方法不再局限于统计和传统的机器学习算法,而是可以利用卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆神经网络(LSTM)等神经网络进行挖掘,为结果准确度提升带来了更大的空间。2019年突现的关键词为情感分析、神经网络,代表着近两年的研究热点发展方向。
3.2 研究前沿分析
根据之前的分析结果,发现2020年基于文本挖掘的网络舆情研究主题将继续集中在社会化媒体上。2020年,不同国家的研究发文量仍以中国为首(30篇),其次为美国和印度,分别为18篇和12篇。研究机构中发文量最多的为伊朗的阿扎德大学(3篇),中国的机构主要有中国科学院(2篇)、南京科技大学(2篇)、北京理工大学(2篇)等;印度主要有德里大学(2篇)、韦洛尔技术大学(2篇)等。
通过分析2020年关键词共现知识图谱,可知前沿的热点研究主要集中在情感分析、意见挖掘、文本分类、深度学习、社会化媒体、神经网络、Twitter等关键词,其中情感分析和意见挖掘的共现频次最高,成为最受关注的主题。被引数较高的文献中,Greco等人将文本情感挖掘应用到品牌管理的顾客分析中,以Twitter为数据源研究用户社区的特点及产品偏好、表征和情绪[10];阿德南·沙等人用深度学习的方法分析患者情绪,提出一种多模态方法来分析患者对医疗服务质量的情绪状态[11]。
4 总结与展望
本研究基于文献计量学,使用CiteSpace绘制网络知识图谱,对基于文本挖掘的网络舆情研究的706篇相关文献进行国家机构分析、研究者合作分析、关键词共现与聚类分析,发现目前该领域的研究仍处于发展阶段,并开始集中向社会化媒体主题集中发展;研究数量从2004年开始逐年呈现逐年递增的态势,中国、美国和印度成为领域中研究成果较为突出的国家;其研究成果主要分布在科学技术学科领域,在社会科学和艺术人文中也占有一定比例;情感分析、意见挖掘成为领域中的热点关键话题,在2020年依然热度不减。
根据之前的趋势分析和的前沿分析,未来该领域的热点应该仍集中在网络舆情的情感分析和意见挖掘上;在研究发展方向上,一方面是对理论技术模型进行不断创新和优化,另一方面是在社会科学和艺术人文领域能够应用文本挖掘技术进行更多创新型的研究。文本挖掘技术在社会科学中的应用使处理海量文本成为可能,这能够帮助研究者归纳出一些隐藏的结论,并且更加客观地分析情感、态度、观点与行为的关系。但是其应用也面临一些问题,如算法不够精准、对数据的分析解读不如人工细腻、掌握文本挖掘技术的人才较少等。因此,为了提高研究成果的质和量,如何推动跨学科研究的发展也是该领域需要重点考虑和解决的问题。
参考文献
[ 1]陈美超.CiteSpace II:检测和可视化科学文献中的新兴趋势和瞬态模式[J].美国信息技术协会,2006,57(3):359-377.
[2]刘冰,胡敏清,程俊生.意见观察:网络舆情的分析与比较研究[C]//美国计算机协会.第14届万维网国际会议论文集.纽约:美国计算机协会,2005:342-351.
[ 3]艾哈迈德·阿巴斯,陈秀珍,斯文·汤姆斯,等.基于相关集合的网络论坛与微博使用影响研究[J].IEEE知识与数据工程学报,2008,20(9):1168-1180.
[ 4]麦克·塞沃尔.社交网络、性别与交友:基于MySpace平台用户的分析[J].美国信息技术学会杂志,2014,59(8):1321-1330.
[ 5]穆斯塔夫·穆罕默德.超越文字:社会网络中的消费者品牌情感文本挖掘研究[J].专家系统及其应用,2013,40(10):4241-4251.
[ 6]莎拉·凯瑞特娜,汉尼·霍斯尼,道格·克赖顿.基于文本挖掘的Twitter社交网络用户身份识别研究[C]//IEEE系统、人与控制论国际会议.IEEE,2013:3079-3082.
[7]库玛·拉维 AB,瓦德拉玛尼·拉维 A.意见挖掘与情感分析:任务、方法与应用[J].知识库系统,2015,89:14-46.
[ 8]阿莎·马尼克,迪帕·谢诺,钱德拉·莫汉,等.基于Gini指数特征选择方法和SVM分类器的大型电影评论情感分析术语词提取[J].万维网、互联网和万维网信息系统,2017,20(2):135-154.
[ 9]帕苏帕 S,阿尤特亚 TSN.基于深度学习的泰语情感分析:基于词嵌入、POS-tag和情感特征的比较研究[J].可持续发展城市与社会,2019:50.
[ 10]希腊·弗朗西斯卡,波利·亚历山德罗.情感文本挖掘:品牌管理中的消费者分析[J].国际信息管理杂志,2020(51):1-8.
[ 11]阿德南·沙,严相斌,阿萨德·沙,等.基于患者意见挖掘的医疗保健服务质量评估:一种深度学习方法[J].环境智能与人性化计算杂志,2020,11(7):1-18.