网络舆情事件演化分析
2019-10-18牟馨忆陈亚宁
牟馨忆 陈亚宁
摘 要 随着互联网技术的发展,微博、微信、知乎等社交平台成为广大网民针对现实生活中的热点、焦点问题表达观点和情感的地方。网络对社会监督起到重要作用,认识和分析网络舆情事件的演化,能够发现舆情发展的潜在风险,避免群众的过激行为。以杭州女童失踪案为例,选择知乎作为研究平台,使用网络舆情“六阶段”模型,结合“百度指数”可视化工具进行发展阶段划分。通过爬虫、关键词提取、主题聚类等方法获得每个阶段公众关注的主题,分析这一网络舆情事件的演化,了解其产生的效应并提出建议。
关键词 网络舆情;舆情演化;突发事件
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2019)16-0020-04
1 背景
随着互联网技术的发展和完善,网络成为人们生活中不可缺少的部分,网络舆情也逐渐在社会舆情中占据重要地位。由于网络的虚拟性和开放性,网络舆情的传播存在反复波动的特点[1]。公众的讨论内容往往随时间变化,舆情演化的每个阶段呈现不同的特点。这是由于刚开始人们获取的信息是不完整、不全面的,随着相关人员介入调查,更多真相公布于世人面前,人们能挖掘出更多信息,而其中不乏与最初的报道相悖的,网络舆情的焦点也会随之转移。
随着微博、微信等App的广泛应用,网络舆情的传播变得越来越迅速,用户的观点和情感不仅能够影响舆情的传播速度,还能感染其他用户的情绪导致舆论的爆发[2-3]。研究网络舆情事件的演化过程,能够帮助公众更清晰、全面地了解整个事件的真相,对于突发事件的应急管理和舆情引导具有重要意义。
2 相关研究
不同学者对舆情演化的阶段有不同的看法。目前的研究主要有两个角度:一是基于关键词分析,通过分析关键词的变化来了解整个事情发酵的过程;二是考虑时序特征,按时间轴划分固定阶段,对各段文本进行分析,再进行合并[4]。对于阶段的划分,不同的学者也选择了不同的指标。目前,大多数文献把话题的生存周期描述为三个阶段:产生(提出)→发展(热议)→消退(趋冷)[1]。微博数量和转发、评论量是许多学者关注的指标,蒋知义[5]等人依据微博数量将舆情事件划分为5个阶段。油永华[6]则依据关注度和关注度增量两个指标,将网络舆情发展阶段分成三个阶段。崔鹏[7]等建立了舆情发展生命周期“六阶段”模型,并根据演化特点设置了5个关键点。
3 舆情事件演化分析
3.1 研究方法
本文基于网络爬虫和主题提取等方法,对突发事件在网络平台上的主题演化进行研究。本文选择知乎作为研究的网络平台,选择杭州女童失踪案进行分析,爬取用户对于事件的观点,进行主题抽取,把握舆情演变规律,提出有针对性的舆情管理建议。
1)网络爬虫。网络爬虫能够按照一定的规则,自动爬取网络上的数据。本文使用Gooseeker网络爬虫软件,编写规则对知乎上相关问题的回答进行抓取。选择了“如何看待杭州千岛湖9岁女童被租客带走,且租客后续自杀一事?”等几个知乎话题,爬取问题下面网友的回答、用户名、时间等信息。
2)关键词获取。TF-IDF是一种统计方法,TF是词频,IDF是逆文档频率,TF-IDF能够评估一个词对一个文档的重要程度。其主要思想是:一个词在一个文档中出现频率高,而在其他文档中出现频率低,则这个词具有很好的区分能力,能够体现该文档的特点。
3)主题抽取。本文采用Word2Vec+Kmeans的方法训练聚类主题。对于主题提取这个任务来说,对关键词聚类是一种合理的方法。Word2Vec是一种利用神经网络将词进行向量化的工具。得到词向量后,可以基于词向量之间的距离或者相似度来进行聚类,从而获得聚类主题。
3.2 研究流程
本文的研究流程如图1所示,包含數据获取、数据预处理、舆情演变分析、可视化分析4个阶段。
4 杭州女童失踪案演化分析
4.1 数据获取及预处理
微博、微信等平台除了有网民的观点表达以外,还有大量的媒体对事件的报道和相关新闻,存在一定的干扰,而知乎全是网友的观点表达和看法分析,所以本文选择了知乎作为研究平台。选择“如何看待杭州千岛湖9岁女童被租客带走,且租客后续自杀一事?”“杭州9岁女童失踪事件透着哪些不合理之处?”“杭州千岛湖9岁失联女童遗体被找到,案件真相如何?”这几个问题,爬取问题下面的所有回答,一共获得数据7 582条。爬取的维度包括用户名、回答内容、回答时间、赞同人数等。获得数据后需要对重复和缺失数据、无关数据等进行删除,处理后剩余数据7 576条。
4.2 主题演化分析
本文根据杭州女童失踪案事件的性质和特点,采用崔鹏[7]等提出的舆情演化的六阶段模型进行分析,采用Word2Vec+Kmeans进行主题聚类,对六阶段模型进行话题的分析。
本文使用“百度指数”这一可视化工具来进行分析。通过“百度指数”搜索2019年7月1日至2019年8月1日期间关键词“杭州女童”的情况,对结果进行描述分析,总结该事件的舆情传播阶段特征。搜索指数的结果显示7月10日前没有此事件的搜索,而实际上7月8日开始已有网友在其他平台讨论这个事件,这是知乎、微博等平台的某些讨论内容没有进入到百度指数的统计中导致的,于是本文考虑了其他平台的讨论后对此模型的时间进行了修正。
结合“百度指数”的可视化结果和崔鹏等学者提出的舆情演化六阶段模型,此次事件的生命周期过程可以表示为图2。依据时间把爬取的语料进行划分,使用TF-IDF算法为每个阶段筛选出100个关键词,手动删除其中的无关词,用Word2vec训练词向量后,使用Kmeans对词向量进行聚类后通过归纳得到各阶段主题,如表1。由于Kmeans聚类需要提前确定聚类数,可用Bcubed精度和召回率等外在方法和轮廓系数等内在方法来评估不同聚类数时的聚类质量,以确定最优聚类数。本文为了本文为了简单并能够说明主要内容,对每个阶段都选择聚类数3为例来进行实验。
酝酿阶段:此事件的嫌疑人两名租客在6月29日进入女童家中,预谋将女童带走,在7月8日前该事件并未在网络上曝光。7月8日淳安县公安接到女童父亲报案,公安和救援人员动身。这个阶段的信息披露还不多,可以归为该事件的酝酿阶段。
爆发阶段:两名租客在宁波东钱湖自杀身亡而女童仍未找到是本次事件的危机点。事件由此进入爆发阶段。女童祖父母同意租客将孩子带走的原因被披露,女童父母婚姻关系信息曝光,租客带走女童的动机疑点重重,女童失踪的原因在网络上引起热议。
扩散阶段:爆发点在7月12日,此时女童仍未被找到但搜寻到了其市民卡的线索,案情相关监控视频曝光,犯罪嫌疑人两名租客的基本信息、活动轨迹以及抖音等社交账号也被披露。从爆发阶段开始该事件也在不断的进行扩散,影响也在不断的扩大。最典型的是犯罪嫌疑人两名租客的相关信息曝光表明其疑似崇拜“三山国王”,这引起了众多网友的指责和猜想,公众开始怀疑嫌疑人动机的不合理之处,网友纷纷提出自己的见解,认为这与非法宗教组织有关而非普通的拐骗拐卖。舆情发酵达到第一个峰值。
反复阶段:此次事件的反复阶段伴随着越来越多的信息补充,使得真相逐渐浮出水面。相关新闻媒体报道女童父亲与租客的联系、与女儿的通话内容,女童祖父母得知噩耗后的悲痛,女童遗体被发现等重要信息再次引起舆论的爆发。
消退阶段:随着警方发布此次案件的警情通报,警方回答了公众对该事件嫌疑人自杀动机、两人杀害女童的动机等六大疑问,关于此事件的舆情才逐渐消退。这个阶段公众的关注重点是反思家长对儿童安全的监管问题,同时呼吁社会关注留守儿童的生活和安全防范教育,避免类似悲剧再次发生。
长尾阶段:在案件调查结束后,此次事件的热度基本消退。有部分与女童接触过的网友在知乎等平台分享与女童及其祖父母的相处经历,也有部分当地网友分享当地人的生长环境和淳朴性格,解开了部分网友对女童祖父母的误解,网友均表达对女童家人的同情和祝福。
4.3 可视化分析
使用“百度指数”工具对舆论主体搜索用户进行用户画像分析。
从搜索用户的地域分布来看,搜索较高的用户集中于广东和浙江两个省份。这两个省份均与本舆情事件有紧密联系。一方面,从事件发生的地点来看,失联女童来自杭州千岛湖,也是從此地被租客带走,这样的突发事件必然牵动着当地人的心。而由于此次事件的特殊性,带走女童的租客反常地带女童到浙江、福建、广东多个省份的海域,网络爆料的其曾发布的相关照片和视频,成为了寻找女童的线索,许多网友扩散信息,致使这一事件在这些地区迅速升温。此外,两名租客均来自广东,且在此次舆情事件的扩散阶段爆出租客疑似信奉广东潮州等地的“三山国王”,有网友由此猜测此次事件与宗教信仰有关,也有当地的网友解释这仅是当地正常的民间信仰而非邪教,再次激发了舆论,使广东省的讨论热度上升。
从搜索用户的人群属性来看,关注此事件的用户年龄集中在30~49岁的中年人,性别差异不大。一方面,相比于年轻人,这个年龄段的用户更加关注社会事件而非娱乐热点;另一方面,这个年龄段的用户大多正是为人父母的阶段,杭州女童失踪一案牵动着他们的心,也给他们对待儿童的安全问题敲响了警钟。
5 建议
杭州女童失踪案这一网络热点事件不仅给公众对儿童安全防范带来了警示,其中的舆情发酵也值得思考。反转新闻、谣言传播等都是在舆情发展中需要关注和控制的。针对这些问题,本文提出以下建议:
1)官方媒体和意见领袖要预防谣言的散播。本次事件中有部分自媒体用户和网友针对不完全的信息就指责女童的祖父母不爱孩子、虐待孩子、重男轻女,并误导了其他网友在网络上对女童祖父母破口大骂。这不仅对案件调查毫无帮助,甚至给受害者家庭带来了二次伤害。在这个网络时代,“大V”或者营销号等拥有影响力的用户应该意识到自身的责任,不轻易散布未经证实的消息。
2)普通民众要做到不信谣、不传谣,不要依靠不完整的视频片段或者网友的猜测就着急“站队”,要做到“耳听八方”,对官方媒体保持信任。
参考文献
[1]陈福集,马梅兰.网络舆情事件的话题演化分析[J].情报杂志,2016,35(5):58-64.
[2]纪雪梅.特定事件情境下中文微博用户情感挖掘与传播研究[D].天津:南开大学,2014.
[3]张鹏,兰月新,李昊青,等.基于HAYASHI数量化理论的网络谣言分类应对策略分析[J].情报杂志,2016,35(1):110-115.
[4]任中杰,张鹏,李思成,等.基于微博数据挖掘的突发事件情感态势演化分析[J].情报杂志,2019,38(2):140-148.
[5]蒋知义,马王荣,邹凯,等.基于情感倾向性分析的网络舆情情感演化特征研究[J].现代情报,2018,38(4):50-57.
[6]油永华.大数据环境下网络舆情发展阶段分析[J].价值工程,2017(35):177-180.
[7]崔鹏,张巍,何毅,等.突发公共事件网络舆情演化及政府应对能力研究[J].现代情报,2018(2):75-83.