基于情感倾向性分析的网络舆情情感演化特征研究
2018-05-15蒋知义马王荣邹凯李黎
蒋知义 马王荣 邹凯 李黎
〔摘 要〕[目的/意义]旨在通过对网络舆情进行情感倾向分析和舆情追踪,为政府有效掌控网络舆情突发事件提供理论基础与决策支持。[方法/过程]以“罗一笑”事件为例,在建立加入特定事件语料情感分类词典和构建情感倾向分析模型的基础上,统计该事件微博文本的情感性强度和情感类型,从而划分网络舆情演化阶段。[结果/结论]揭示了舆情演化各阶段的特征与规律,据此提出引导网络舆情情感演化的相关建议。
〔关键词〕网络舆情;情感倾向性分析;情感分类;情感演化
DOI:10.3969/j.issn.1008-0821.2018.04.007
〔中图分类号〕C931.2;G203 〔文献标识码〕A 〔文章编号〕1008-0821(2018)04-0050-08
〔Abstract〕[Purpose/Significance]The purpose of this study was to provide a theoretical basis and decision-making support for the government to effectively control network public opinion emergencies through the analysis of emotional tendency and public opinion tracking of network public opinion.[Method/Process]Taking“LuoYixiao”idcident as an example,tased on the establishment of adding specific event corpus emotion classification dictionary and constructed sentiment analysis model,calculated the text emotional intensity and emotion type of microblog,thus divided the network public opinion evolution stage.[Result/Conclusion]Revealed the characteristics and laws of the evolution of public opinion at all stages and suggestions were proposed to guide the evolution of emotion in network public opinion.
〔Key words〕network public opinion;sentiment orientation;sentiment classification;sentiment evolution
第39次《中国互联网络发展状况统计报告》显示,截至2016年12月,我国网名数量已突破7.31亿,相当于欧洲人口总量,互联网普及率上升至53.2%。随着社会性网络服务(Social Networking Services,SNS)的广泛应用和即时通讯功能的日益丰富,“两微一端”等社交媒体逐渐成为网络舆情传播的主要媒介。网络舆情是网民通过互联网平台表达自己对社会发生的热点事件所持有的不同看法,是網民态度、认知、行为和情感倾向的集合[1]。而情感倾向则是网络舆情的风向标,展现网民对某一事件所持的态度和情感趋势,是社会各阶层意见和态度的真实反映,这些情感信息影响着网络舆论的走向,若缺乏对舆论走向的正确引导,将可能引发极端情绪的蔓延,进而导致群体极化现象。故而有必要对网络舆情事件展开深入的文本挖掘和情感倾向分析,探索情感演化的特征和规律,从而为政府相关部门有效监管网络舆情、维护社会稳定提供理论支持。
国内外学者在网络舆情情感演化方面均展开了相关研究。Patricia Moy等[2]认为,对突发事件网络舆情的应对措施和引导处理不当,会引发更大范围事件的产生。Lavrenko V等[3]从技术层面的角度,指出对网络舆情的监管应包括最初对事件的识别以及该事件后续相关报道的话题检测与追踪。Mceoy[4]将美国“黑色联盟”作为案例,分析了“新闻修复”的权威地位。王子文等[5]认为舆情演化的内在动力取决于“网络推手”的利益机制。唐超[6]的研究结果表明,网络情绪是舆情演化的重要因素,并在此基础上提出了网络舆情的情绪演化规律。柳军等[7]将研究视角锁定为舆情传播的微内容,认为网络舆情演化符合“马太效应”和“群体极化”规律。国内外现有研究成果主要集中于网络舆情情感演化的理论研究和技术探索,基于典型案例的实证研究及情感引导策略分析的研究成果较少。因此,本文通过文本挖掘和建立情感词典,再结合情感倾向分析模型对“罗一笑”事件的演化规律进行实证分析,从情感角度对该研究领域进行有效补充。
1 相关理论与技术
1.1 情感分析
情感分析(Sentiment Analysis),也称为倾向性分析,是指采用自动化或半自动化手段对基于微博、论坛等在线社交网络产生的主观评论文本内容进行分析、处理、归纳和推导,从中挖掘出用户(个人或群体、组织等)针对主题、人物、事件等表达的评论、观点和意见的过程[8]。情感倾向性分析的主要对象是网民自主发布的与网络舆情事件相关的文本。
1.2 文本挖掘
文本挖掘(Text Mining)是指对半结构化或非结构化的自然语言文本进行处理并采用一定的技术从中发现和提取特定信息的过程。如图1所示,首先通过对网络文本资源的收集建立文本集合,再运用文本预处理、特征提取以及数据挖掘的方法,对文本集合进行处理,进而获取用户所需的特定信息。
1.3 文本预处理
文本预处理是文本挖掘的主要环节之一,主要包括对原始文本集合进行去噪处理[9]、中文分词、去停用词、词性选择等一系列流程(见图2),本文通过ROST CM文本挖掘软件对预处理后的微博数据进行情感分析。
1.4 特征提取
2 情感倾向分析模型构建
情感倾向判断的目的是对主观性文本内容进行情感类别的判定,因此构建情感分类词表对于情感倾向分析的意义不言而喻。首先通过情感词表找到与之相匹配的情感词,进而根据情感词的值计算出每个句子的情感极性值,而整个文本的情感倾向就是所有句子情感值的整合。在通过情感词表进行文本情感倾向的同时,还应当考虑否定或程度修饰副词、句型等对文本情感极性的影响。
2.1 基于特定事件情感词表构建
为保证词表的全面性和准确性,本文基于公开情感词表,并结合“罗一笑”事件语料库提取的情感词,形成最终的扩展情感词表。
首先,通过八爪鱼数据采集器搜集与该事件相关的75 483条微博文本作为数据源,采集时间自2016年11月29日0时始至2016年12月31日24时止。其次,对数据进行初步处理,即去重、去空和去广告等操作,得到有效微博数据74 025条。最后,通过分词处理,将提取的情感词与知网HowNet、大连理工大学等情感词表相结合,构建基于特定事件的情感词表(见表1)。
2.2 文本情感计算规则
3 情感倾向性分析
首先,依据文本情感计算规则,对74 025条微博文本进行情感倾向值的计算与统计,进而对其极性进行判断。本文将该事件的微博分为正向微博(情感值大于0)、中性微博(情感值等于0)、负向微博(情感值小于0)3种。如图3所示,该事件中,正向微博达48 093之多,占总量的65%,超过中性微博(8 271条)和负向微博(17 661条)之和。由此可知,虽然该事件对社会造成了一定的负面影响,但网民对此事件的情感倾向较为积极。
其次,根据微博情感倾向值的大小进一步对微博文本情感极性强度进行程度划分,即一般正向(0,10)、中度正向[10,20)、高度正向[20,+∞)、一般负向(-10,0)、中度负向(-20,-10]和高度负向(-∞,-20]。如图4所示,“一般”程度微博数量所占比例最大,任一程度的正向微博数量均多于负向微博数量。
最后,从微观角度对网民情感倾向性做时序分析,如图5所示,该事件整体虽以正向情感为主,然而负向情感多次显现,有时甚至达到了高度负向。
4 网络舆情情感演化实证分析
根据网络舆情事件周期演化理论[10],对“罗一笑”事件相关微博数据进行时序统计(见图6)。
由此可知,11月30日有关该事件的微博发布数激增,达43 373条;此后,网民的关注度逐渐降低,单日微博的发布数量一度呈下降趋势。具体而言,12月1日的微博发布数量较前一日骤降至17 476条,12月2日的微博发布数量降至3 414条,自12月3日伊始,每日的微博数量均低于1 000条,直至12月24日因罗一笑去世的消息,当日微博数量上升至3 364条,然而并没有引起爆炸性轰动,而是随着时间的流逝逐渐淡出网民的视角,最终完全消逝。依据对“罗一笑”事件相关微博发布数量的时序变化统计,本文将舆情演化过程分为开始期、爆发期、发酵期、消解期和反思期5个阶段(见表2)。
通过Stata13对“罗一笑”事件微博情感極性强度的特征统计可知(见表2),该事件的情感极性均值、标准差、最大值、最小值分别为4.606、16.636、388和-122,数据间极性强度差异明显,高度正向情绪与高度负向情绪并存,且偏度为1.862,峰度为24.667,具有尖峰和后尾的特征,不符合正态分布规律。正是由于网络舆情传播集群行为的特性,致使数据间出现极端波动。
通过对“罗一笑”事件舆情演化各阶段情感极性强度及类型的统计可知(见表3)可知,各演化阶段网民对该事件的情感极性都以正向为主,且正向微博的发布数量均高于负向微博。具体而言,开始期由于微博发布数量较少且正向微博居多,因此开始期微博平均情感极性强度高达21.7,居于各阶段顶峰,这一期间,年少重疾的罗一笑成为大家爱护、援助的对象,而“怀疑”情感的浮现则为之后舆情的反转埋下伏笔;从爆发期到发酵期这一段时间,由于罗尔个人资产的曝光,舆情中充满了对罗尔利用女儿病情炒作的批判,微博平均情感强度明显下降;在罗尔归还捐款并致歉之后,消解期和反思期的微博平均情感极性强度逐渐回升。总览整个事件发展过程中情感类型的发展变化,开始期以“赞扬”、“相信”等正向情感为主;在爆发期到反思期中,“赞扬”类的正向情感与“贬责”作为主体情感并交织出现,但总体上主要以正向情感为主,此外,“悲伤”是舆情演化过程中网民共有的情感之一。
以上为宏观层面的“罗一笑”事件网络舆情演化过程分析,下面从微观层面对该事件舆情演化各阶段进行探究。
4.1 开始期情感演化
由表4可知,开始期微博发布数量仅17条,包括正向微博11条、负向微博和中性微博各3条,其中,正向微博情感极性多为高度正向,表明该事件初期,网民的情感较为正向,对罗一笑祝福、关爱的同时呼吁更多的人施以援手。
从用户特征的角度来看,开始期尤其是微博情感极性强度为前5的用户(见表5),其所在地多为事发地(深圳),可见该事件网络舆情的迅速传播得益于当地媒体及当事人的宣传。
4.2 爆发期情感演化
爆发期的微博发布数量与网民参与量均达到各阶段的顶峰,通过对这一阶段的微博发布数量与平均情感极性强度进行时序变化分析(见图7)可知:
1)2016年11月30日10~13时,呈现出微博发布数量急剧增长而微博平均情感极性强度逐渐递减的趋势,表明在这段时间内网民所发布的负向微博的比例在上升,负向情绪不断攀升并在16时达最低值;
2)2016年11月30日16~22时,微博发布数量递减,而微博平均情感极性强度略有回升,且均高于微博发布数量最多的时间段(13~16时),表明该时间段正向微博的数量增长较为明显;
3)总体上看,11月30日10~24时的微博发布数量先增后减,平均情感极性强度先减后增,前期负向微博较多,而后正向微博占据主导。
4.3 发酵期情感演化
在发酵期,网民对该事件的态度逐渐趋于稳定,通过对这一阶段的20 890条相关微博文本进行挖掘与分析(见图8)可知:
1)2016年12月1日,“罗一笑”事件网络舆情仍保持较高热度,12~15时之间,呈现出微博发布数量总体增多而微博平均情感极性强度递减的趋势,表明这段时间该事件相关网络舆情负向情感所占比例上升。此外,15时微博发布数量为当日最高值,且微博平均情感极性强度达到最低,表明此时网民的情绪最为低落;
2)2016年12月2日,即“罗一笑”事件网络舆情发酵期的后半阶段呈现出关注热度走低的趋势,此时网络舆情并没有持续恶化,而是得到了有效的控制,这得益于官方的介入以及该事件相关问题的妥善解决。
4.4 消解期情感演化
通过对消解期的5 057条相关微博进行发布数量的时序变化分析(见图9)可知,这一阶段微博发布数量呈现出递减趋势,且微博发布数量较少,表明“罗一笑”事件已不再是热点舆情事件。随着12月3日罗尔宣布退还善款并致歉的举措以及官方的妥善处理,网民对“罗一笑”事件的质疑和罗一笑后续治疗的关注,也逐渐变淡。
4.5 反思期情感演化
通过对反思期的4 688条相关微博进行情感词提取,词频40以上的42个情感词可视化结果如图10所示,这段时间网民对“罗一笑”以祝福为主,“捐献”、“天堂”、“爱心”、“捐助”、“病痛”、“捐赠”、“平安”和“无辜”等高频词是该事件过后网民的总结性情感。12月24日上午6时许,罗一笑在深圳市儿童医院去世,其父母捐助了她的遗体和器官,该事件也随之告一段落。
5 结论与建议
本文以“罗一笑”事件为例,在基于国内外学者对网络舆情情感分析的基础上,构建了一个较为全面的情感分类词典,同时建立相应的情感倾向分析模型,对相关微博文本进行情感极性强度的判断与统计,并运用实证分析对该事件网络舆情各演化阶段进行划分,进而对各阶段的情感演化特征及规律进行探究。研究发现:①开始期网民对网络舆情事件所持的态度错综复杂,通过对情感倾向的提取有利于对事件后续发展态势进行把握;②爆发期的微博发布数量和网民参与量最高,这一时期网民的情感倾向很大程度上决定了舆情事件总体演化趋势,有关部门应多予关注和引导;③发酵期网民对舆情事件的新动态敏感度较高,正向信息的公开和舆情披露可以在此时起到良好反映;④消解期和反思期网民关注度较低,但仍需要对舆情事件进行追踪与监管,以避免舆情事件的二次发酵。
依据研究结果,本文为政府相关部门有效监管、引导网络舆情情感演化提出以下建议:
5.1 加强信息公开
网络舆情具有突发性[11]、自由性[12]的特征,政府相关部门应在网络舆情事件影响范围急速扩散之前,占据舆论主导,将事件发生缘由、各发展阶段的实情公之于众,确保社会各界民众的知情权。
5.2 关注意见领袖
意见领袖通常由政府官员、当红明星、草根名人、知识分子、知名记者等各界社会精英组成,在网络舆情中充当重要角色,他们既可以促成事件的圆满解决,也会对事件的负面影响推波助澜[13]。因此,政府相关部门应加强对意见领袖的关注,对这些用户情感传播行为的方式与内容加以监管和引导,规避网络谣言的产生。
5.3 控制负向情绪
负向情绪集聚速度较快,对舆情事件总体演化趋势的影响较为显著,因此,政府相关部门应对负向情绪有针对性地进行引导,避免群体极化现象的产生,一方面,找出负向情绪产生的根源并及时予以矫正,缓解舆情事件的负向情绪;另一方面,加大舆情事件的新闻发布密度和力度,有效避免谣言的产生与扩散,营造良好的网络舆情环境与秩序。
5.4 建立监管机制
“罗一笑”事件中,深圳市民政局的妥善处理使得事件得以平息,可见,政府相关部门对网络舆情事件的处理举措能够映射到舆情事件的演化趋势当中,对网民的情感倾向具有显著影响。因此,政府应建立健全网络舆情监管机制,对舆情事件各演化阶段进行合理有效的引导,确保网络舆情事件情感倾向的正向发展。
参考文献
[1]曾润喜,徐晓林.网络舆情突发事件预警系统、指标与机制[J].情报杂志,2009,28(11):52-54,51.
[2]Zhou Y,Moy P.Parsing Framing Processes:The Interplay Between Online Public Opinion and Media Coverage[J].Journal of Communication,2007,57(1):79-98.
[3]Lavrenko V,Allan J,Deguzman E,et al.Relevance Models for Topic Detection and Tracking[C]// International Conference on Human Language Technology Research.Morgan Kaufmann Publishers Inc,2002:115-121.
[4]Mccoy M E.Dark Alliance:News Repair and Institutional Authority in the Age of the Internet[J].Journal of Communication,2001,51(1):164-193.
[5]王子文,马静.网络舆情中的“网络推手”问题研究[J].政治学研究,2011,(2):52-56.
[6]唐超.网络情绪演进的实证研究[J].情报杂志,2012,(10):48-52.
[7]柳军,蔡淑琴.微内容的网络舆情传播特征分析[J].情报杂志,2013,(1):1-4.
[8]黄胜.Web评论文本的细粒度意见挖掘技术研究[D].北京:北京理工大学,2014.
[9]赵城利.基于Web的信息智能感知技术及应用[D].长沙:国防科学技术大学,2004.
[10]肖强,朱庆华.Web2.0环境下的“网络推手”现象案例研究[J].情报杂志,2012,31(9):158-162.
[11]姜胜洪.网络舆情形成与发展规律研究[J].蘭州学刊,2010,(5):77-79.
[12]刘毅.网络舆情研究概论[M].天津:天津人民出版社,2007:53-54.
[13]郭勇陈,沈洋,马静.基于意见领袖的网络论坛舆情演化多主体仿真研究[J].情报杂志,2015,34(2):13-21.
(责任编辑:孙国雷)